Introduzione al Web e i suoi servizi di ricerca

Giuseppe Zito

Questo documento e' stato usato per la prima volta nel corso INFN sul Web tenuto nel 1998 e da allora viene periodicamente aggiornato per essere usato dai navigatori online e in nuovi corsi. Commenti e proposte di aggiornamenti e miglioramenti sono gradite. Inviatele a zito@ba.infn.it.

  Questa immagine frattale vuole essere un simbolo della straordinaria tela che in questo momento milioni di persone in tutto il mondo stanno tessendo.


Quiz per la patente di navigatore Internet
Stampate il quiz e compilatelo dopo aver letto questo documento. Confrontate le vostre risposte con questo documento e se avete superato 20 risposte esatte, potete considerarvi un buon navigatore, oltre 30 siete un navigatore esperto.
Se trovate difficile seguire il gergo Internet potete utilizzare questo glossario. Per una presentazione piu' approfondita di Internet potete utilizzare questo Internet & Computing Italian FAQ oppure uno dei tanti libri disponibili in libreria come Internet 2000 tra l'altro disponibile anche online.

Altri materiali usati nel corso .

Indice

Introduzione

162 milioni di computers collegati che raddoppiano ogni anno e mezzo, 580 milioni di persone , oltre 2 miliardi di pagine Web , l'informazione online e' ormai circa 10.000 terabyte (equivalente a 10 milioni di CD) e per il 90% e' gratis con un giro di affari in continua espansione nonostante i tracolli della New Economy( ma ormai Internet interessa tutta l'economia) : queste sono le stupefacenti cifre di Internet e della sua crescita.

Ma come si ricavano queste cifre? E cosa c'e' dietro di esse? E' possibile fare una mappa di Internet?
Purtroppo non esiste una mappa di Internet ma potete pensare ad essa come ad una enorme Fiera Campionaria con milioni di padiglioni, dove anche voi potete costruirvi il vostro sito.La maggioranza della fiera sarebbe formata da tutti questi padiglioni che costituiscono il cosiddetto Web, ma dappertutto trovereste dei servizi che non sono parte del Web anche se ormai sono ad esso strettamente collegati. Ad esempio caselle e buche postali della posta elettronica. Migliaia di bacheche elettroniche sugli argomenti piu' diversi dove chiunque puo' affiggere il proprio intervento o leggere quello degli altri (sono i newsgroups). Un servizio che come la posta pneumatica permette l'inoltro celere di file tra i vari edifici (e' il servizio ftp). Solo nel 1992 il Web (cioe' l'insieme dei padiglioni) non esisteva, e tutta Internet la si poteva descrivere con una lista di qualche migliaio di computer che offrivano i servizi di ftp , email e newsgroups ! Nel 1994 Internet poteva essere rappresentata con questa mappa.
Ma cominciamo con ordine ...

Internet come biblioteca

Potete pensare a Internet come a un'enorme biblioteca invisibile: ma se non sapete come e' fatta e' difficile che le vostre ricerche siano fruttuose. Ad esempio: quant'e' grande?Cosa contiene? Qual'e' la qualita' dei documenti contenuti?

Una biblioteca nazionale contiene milioni di libri ma quanti di questi sono online? Guardando questa lista di libri online forse sarete stupiti di apprendere che solo 17000 libri in tutto il mondo sono online su Internet. Ma allora cosa c'e' su Internet? E intanto quant'e' grande in termini di informazione? Prendiamo la piu' grande biblioteca del mondo forse la biblioteca del Congresso: Internet e' all'incirca uguale come numero totale di informazioni contenute. Questo si ricava dal numero di pagine Web citato all'inizio. Questa dimensione e' tale che una organizzazione sta archiviando tutta la rete senza grossi problemi per conservarne il contenuto per i posteri.

Ma se non sono libri che contiene Internet,allora cos'e'?Qual'e' la qualita' del materiale?
Se prendiamo un libro qualsiasi ad esempio un manuale, e facciamo una ricerca sugli argomenti del libro su Internet, quasi di sicuro non troveremo il libro online ma centinaia di documenti dai quali potremmo estrarre con gran fatica il materiale del libro. Perche' la qualita' dei documenti Web e' cosi' cattiva? Forse e' meglio aspettare fra dieci anni quando tutti i libri pubblicati saranno (forse) online?

La verita' e' che la vera ricchezza di Internet e' nel numero di persone online. Internet e' prima di tutto uno strumento di comunicazione che vi permette di comunicare con milioni di persone,come il telefono, ma molto piu' economico. Per dirla con le parole di qualcuno: su Internet e' come avere a disposizione milioni di consulenti gratis. La cosa interessante e' che ognuna di queste persone puo' pubblicare sul Web ed almeno il 10% approfittano di questa possibilita'. La pubblicazione avviene senza filtri ne' censure ed ecco spiegata la qualita' cosi' bassa dei materiali Web.

L'alto numero di persone collegate a Internet spiega anche l'enorme interesse per Internet nel campo commerciale: questi sono milioni di consumatori che potete contattare con poca spesa.

Internet come mezzo di comunicazione.

Ma in fin dei conti cos'e' Internet?
Internet, dal punto di vista della ferraglia, e' un cavo che esce dal vostro computer e lo collega con gli altri computers nella stanza, nel palazzo, nella citta', in Italia , nel mondo. Quindi una serie di collegamenti tra computer magari realizzati via satellite, cavi sottomarini, reti telefoniche, reti locali,etc...
Internet e' anche l'informazione che viaggia su questi cavi :informazioni fatte da bit 0 e 1 . Ormai quasi tutte le informazioni sono diventate digitali e possono viaggiare su Internet:immagini,voce,TV,etc. Per usare la metafora delle autostrade : i cavi sono le autostrade e le informazioni che viaggiano sono le auto. Ma Internet non e' solo questo:se osservate le macchine che si muovono nel traffico vedrete che vanno sempre a destra sorpassandosi sempre dalla stessa parte,etc.. cioe' seguono le regole del codice della strada. I dati su Internet seguono anch'essi un codice della strada detto in gergo protocollo. Anzi piu' protocolli ,almeno uno per servizio . Ma il protocollo base che caratterizza Internet e' il protocollo TCP/IP. Spieghiamo questo protocollo in dettaglio perche' tutte le straordinarie caratteristiche di Internet derivano da esso.

Ogni computer ha un indirizzo chiamato indirizzo IP consistente in uno strano numero per lo piu' formato da una sequenza di quattro numeri , compresi tra 0 e 255, separati da un punto. L'assegnazione di questo numero (assieme a quella del nome che vedremo tra poco) e' l'unica burocrazia esistente su Internet.

Quando voi richiedete ,ad esempio, un'immagine da un computer remoto, questa vi viene spedita nel modo seguente:prima viene tagliuzzata in ,diciamo, 1000 piccoli pezzi (in gergo pacchetti) tutti di uguale dimensione e poi ogni pezzo viene messo in una busta con indicato tra l'altro, l'indirizzo del mittente, del destinatario e un numero d'ordine. Le 1000 buste viaggiano tutte per conto proprio e se ci fossero 1000 cammini diversi tra mittente e destinatario, potrebbero viaggiare ognuna per un diverso cammino. All'arrivo,che puo' avvenire in un'ordine qualsiasi, i pezzi vengono ricomposti insieme e voi potete guardare l'immagine. (Un altro modo di spiegare la cosa e' di dire che ogni pacchetto e' abbastanza intelligente da trovare la strada da solo anche se ci sono interruzioni).

Dato che non c'e' un centro,un padrone (qualcosa come la Telecom per il telefono) ecco che Internet si e' sviluppata ignorando le frontiere. Dato che l'informazione continua a viaggiare anche se rimane un solo collegamento attivo tra mittente e destinatario, ecco che Internet e' resistente a danneggiamenti e censure che producono solo dei rallentamenti. Dato che i singoli pacchetti possono seguire qualsiasi cammino, lo sfruttamento delle linee puo' essere ottimizzato ed e' per questo che il costo e' cosi' basso.
Infatti se confrontate una telefonata Roma-S.Francisco fatta via Internet o via Telecom della durata di 10 minuti, vedrete che via Telecom voi occupate una linea dedicata con uno spreco enorme di risorse mentre su Internet i pacchetti che formano la vostra voce dividono con gli altri utenti le linee libere permettendo un uso ottimale delle stesse.

La nascita del Web

Internet e' nata oltre 30 anni fa(le prime prove di collegamento tra computer sono state fatte nel 1969) ed ha cominciato con servizi come quello della posta elettronica,del trasferimento di file(ftp) che sono diventati subito popolari. Dopo sono arrivati i gruppi di discussione (newsgroups di Usenet) ma fino al 1989 era solo un posto per appassionati di computer che lavoravano per lo piu' in laboratori di ricerca e nelle Universita'.

Uno di questi laboratori era il Cern di Ginevra dove un oscuro impiegato della divisione dei computer di nome Tim Berners-Lee ebbe l'idea di rendere piu' accessibili i servizi di Internet con l'uso dell'ipertesto. Nacque cosi' il Web che dopo qualche anno,con l'introduzione di Mosaic, il primo navigatore con interfaccia grafica, ha portato a una crescita esplosiva di Internet fuori dell'ambito accademico. Nel 1995 la parte commerciale di Internet aveva superato quella della ricerca ed ormai essa e' preponderante. Da notare che prima del 95 si parlava di autostrade informatiche ma nessuno pensava che Internet sarebbe diventata di fatto l'autostrada informatica.

Il Web o per dirla per intero il World-Wide Web o WWW o Grande Ragnatela Mondiale e' nata circa 10 anni fa ed e' in effetti solo una parte , uno dei servizi di Internet, legata all'ipertesto.Ma e' anche un'interfaccia semplificata a tutti i servizi Internet (non solo Web) attraverso i navigatori o browser come Netscape.

Cerca l'URL!

Il Web e' una serie di nuove tecnologie che si sovrappongono all vecchia Internet e che si possono riassumere nella formula:
WWW = HTTP + URL + HTML
dove http si riferisce al protocollo del nuovo servizio che distribuisce ipertesti.Url e' il fatto che ogni servizio in rete ha d'ora in poi un nome standard. Html sono le regole per scrivere ipertesti.

Per capire il trucco del Web prendiamo questi esercizi di ricerca in rete con risposta . Questa ricerca alla fin fine ,consiste nel trovare l'indirizzo o Url del documento . Questo indirizzo e' stato nascosto , usando le regole dell'html , dietro il testo delle domande che ora sono cliccabili. La lista stessa inoltre e' stata messa in una particolare directory su un computer dove un particolare programma chiamato server Web usa il protocollo http per rendere questo file accessibile in tutto il mondo con l'indirizzo http://www.ba.infn.it/~zito/es971.html .

Vedete come le tre tecnologie collaborano per rendere Internet un posto alla portata di tutti,dove ogni documento puo' essere raggiunto cliccando col mouse. Secondo lo slogan di Tim:
You click, we do the rest

Non e' necessario sapere cosa significa un Url per fare una ricerca fruttuosa ma il fatto di conoscerlo puo' aiutarvi ad esempio per

Lo stesso vale per l'html . Potete fare delle ricerche senza conoscerlo, ma se lo conoscete la vostra efficacia sara' maggiore per il semplice motivo che i motori di ricerca classificano quasi solo documenti scritti usando questo linguaggio!

Ecco ,in dettaglio, come si presenta un Url. protocollo://nomecomputer[:porta]/percorso/nomedocumento
Il protocollo indica come il documento viene servito dal computer che fornisce l'informazione.
Quasi ogni servizio in rete ha una sua Url. I piu' diffusi sono http,news,mailto,ftp,telnet,gopher.Invece file non indica un protocollo di rete, ma l'accesso al disco locale.

Servizi non accessibili via Url ,lo sono di solito via servizi Web come i ping e finger gateway che potete trovare facendo una ricerca su Google.

Procedendo nella Url, troviamo il nome del computer che fornisce il servizio. In effetti ogni computer collegato a Internet puo' avere un nome (oltre a un numero) e talvolta anche piu' di uno. Questo nome viene in parte assegnato come il numero, seguendo certi criteri e in parte e' deciso in maniera arbitraria dal possessore del computer.

In effetti i nomi andrebbero letti al contrario perche' l'ultima parte e' quella piu' importante ed e' una sigla che indica la nazione o uno dei domini Usa. Il secondo nome e' il dominio vero e proprio (questo deve essere richiesto). Dopodiche' abbiamo nell'ordine un sottodominio (che puo' anche mancare), un sottosottodominio,.. e infine l'ultima parola (quasi sempre www) indica il nome del computer vero e proprio.

Di solito, parlando di nome di dominio di un computer ci riferiamo alle parole che seguono quella che identifica il nome del computer, ad esempio ba.infn.it.

Basandosi sui nomi e i numeri assegnati e' possibile fare un censimento automatico di Internet. Questo viene ripetuto ogni 6 mesi .

Da queste statistiche e' possibile ricavare alcune interessanti informazioni come il numero di persone collegate a Internet (stimato moltiplicando il numero di computer per 4),la crescita di Internet,la diffusione della stessa in Europa e nel mondo.

Le altre informazioni che si danno nella Url, se presenti, servono a localizzare il documento sul disco del computer che serve i documenti, dando il nome del file e il cammino per arrivare allo stesso. In particolare un cammino che comincia con ~ (o %7e che e' la stessa cosa), indica un archivio nello spazio privato di un utente del computer che serve l'informazione.

Quando non specificate nessun nome di file e nessun cammino,viene servito un documento di benvenuto(la cosiddetta homepage). Se invece indicate il solo cammino, potete avere o un documento di benvenuto o il contenuto della directory o cartella indicata a seconda di come il proprietario delle informazioni ha deciso.

Trovare la risposta a una domanda di ricerca sul Web significa trovare l'url del documento che risponde la domanda. Per facilitare le persone, vengono usati spesso dei nomi di dominio significativi, in modo che potete scrivere subito l'url della risposta. Ecco alcuni casi:

Da notare che anche il fatto di chiamare i computer con server Web www e' una regola di cortesia.

Qui trovate altri dettagli sulle url.

La mappa di Internet

Una mappa di Internet prima del Web sarebbe consistita in una lista di nomi di computer e dei servizi da essi offerti.

Questi servizi sono forniti come si e' detto usando un certo protocollo e seguendo una modalita' particolare detta client/server. Questo modo di lavorare e' necessario perche' su Internet avete computer di ogni tipo. Potete pensare a un servizio fornito come in un ristorante con molti clienti che vanno e vengono e pochi servitori o server che sono a disposizione per tutto il tempo.Ogni computer cui interessa un certo servizio ha installato un particolare programma detto appunto client che usa le regole della buona educazione (protocollo) per richiedere il servizio a un computer dove gira in permanenza il programma (server) che fornisce il servizio.

Cosi' per usufruire del servizio ftp dovete far girare un cliente ftp come ws_ftp e usarlo per collegarvi a uno dei tanti server ftp . Viceversa se volete che il vostro computer fornisca il servizio ftp dovete installarvi un server ftp e tenerlo 24 ore su 24 acceso e collegato a Internet come questo server finlandese.

Un navigatore Web, da questo punto di vista, e' un programma particolare, in quanto per permettere l'accesso a tutti i servizi Internet, include una diecina di clienti diversi, uno per tipo di servizio.

Ogni computer collegato a Internet (anche quelli collegati da casa col modem) possono accedere e fornire ogni servizio Internet(l'unica differenza tra un computer collegato dal Dipartimento di Fisica e uno collegato via modem da casa e' che il secondo ha un nome e un numero che cambia a ogni collegamento ed e' accessibile solo quando vi collegate.)

Tra i servizi (protocolli) piu' popolari su Internet, oltre a quelli che vedremo piu' in dettaglio nel seguito, avete:

La lista dei tipi di servizi disponibili su Internet cresce sempre di piu'. Tra i piu' usati,oltre al Web, abbiamo il servizio ftp o file transfer protocol. E' il servizio che usate di solito per scaricare un programma dalla rete sul vostro computer e in generale per trasferire file. Potete accedere a questo servizio con un programma di navigazione come Netscape ma anche attraverso programmi appositi come ws_ftp . Un suo uso tipico e' per pubblicare pagine Web. Scrivete una pagina sul disco locale, vi collegate col computer dove c'e' il server Web e la trasferite nell'area su disco a voi assegnata. Questo trasferimento deve essere fatto usando il codiceutente e la password a voi assegnata dal fornitore di servizi Internet. Viceversa,se un server rende accessibili i suoi files senza bisogno di password, si dice che fornisce un servizio di ftp anonimo perche' il codice utente in questo caso e' anonymous e la password puo' essere qualsiasi cosa anche se e' norma di buona educazione fornire il proprio indirizzo di email.

Un'altro importante servizio e' quello di e-mail o posta elettronica. Ogni persona collegata a Internet ha un indirizzo di email del tipo Nome.Cognome@nomedominio (o anche nomeutente@nomedominio o nomeutente@nomecomputer). Alla posta elettronica sono collegati il protocollo smtp usato per spedire la posta e il protocollo pop3 per leggere la posta.

La posta elettronica non solo non e' sicura(forse lo sara' quando si usera' la crittografia per proteggerla) ma si presta a molti abusi. Come quello di inviare un mail fingendosi un'altra persona(spoofing) o di inviare lo stesso mail a milioni di persone (spamming da Spam la Simmenthal americana ).Lo spoofing avra' forse termine quando saranno usate delle tecniche che permetteranno di dare una firma elettronica che individua con certezza il mittente.

Mentre la posta elettronica vi permette di comunicare con una singola persona, la mailing list permette di mandare un messaggio a un gruppo di persone interessate allo stesso argomento. Una mailing list(cioe' la lista di indirizzi delle persone interessate) e' gestita da un particolare programma su un particolare computer cui corrisponde un indirizzo come listserver@nomecomputer o majordomo@nomecomputer. Per avere il proprio indirizzo di posta elettronica aggiunto alla lista ,basta mandare un messaggio a questo indirizzo indicando Subscribe nomedellamailinglist. Invece per partecipare alla discussione si mandano i messaggi a nomemailinglist@nomecomputer.Il vostro messaggio viene mandato a tutti i membri. Esistono in rete degli elenchi piu' o meno completi di queste mailing lists (migliaia in tutto il mondo).

Un altro modo di comunicare con altre persone interessate allo stesso argomento sono i gruppi di discussione(newsgroups di Usenet).I gruppi di discussione si dicono di Usenet perche' a differenza delle mailing lists che risiedono su un unico computer, qui i messaggi viaggiano in una rete mondiale di server( NNTP server dal nome del protocollo) detta appunto Usenet. Si tratta di messaggi che, come per le mailing lists, voi inviate al gruppo che vi interessa e che vengono fatti circolare duplicandoli in migliaia di copie su tutti i computer di questa rete. Ci sono pochissimi server NNTP (in Italia poche decine). Il server da voi usato (di solito fornito dal fornitore di servizi Internet oppure scelto dall'Universita') va indicato nelle preferenze del navigatore. Per il Dipartimento di Fisica di Bari e' ad esempio news.caspur.it. e qui trovate la lista di tutti i gruppi di discussione. Si tratta di decine di migliaia di gruppi raggruppati in una pittoresca gerarchia con gruppi a livello mondiale e a livello nazionale. Esistono anche gruppi locali, ma per accedere a questi occorre indicare il server nella url in maniera esplicita dopo news://.

Anche i gruppi di discussione e in particolar modo quelli senza un moderatore che filtra i messaggi, si prestano ad abusi con gruppi dove il rumore(messaggi che non c'entrano niente col soggetto del gruppo) puo' arrivare a livelli altissimi. Inoltre ,non essendoci nessuna censura,i contenuti dei messaggi possono essere non adatti ai minori o addirittura illegali(software piratato,..).

Come vedremo parlando di ricerca, e' possibile fare ricerche in questi messaggi . Collegati ai gruppi sono le FAQ (Frequently Asked Questions) documenti presenti in parecchi gruppi che cercano di rispondere alle domande piu' comuni dei principianti(in inglese newbie). Questi documenti messi insieme costituiscono una specie di Enciclopedia Generale in continuo aggiornamento, ricca di agganci a risorse di rete.

Il servizio ping e' molto utile per diagnosticare malfunzionamenti della rete o anche solo per osservarne il funzionamento. Il comando

ping -t nomecomputer 
lanciato da una finestra Msdos su un Pc, provoca l'invio di pacchetti di prova al computer indicato con attesa di risposta dallo stesso e stampa di informazioni tra cui la principale e' il tempo di trasmissione. Un valore maggiore di 300 ms indica un collegamento lento. E' importante anche il numero di pacchetti persi per strada che non deve superare il 25%. Usando questo comando con diversi computer sparsi nel mondo, potete controllare i vostri collegamenti e diagnosticare eventuali problemi. Usando invece un ping gateway ad esempio in Nordamerica potete confrontare il servizio del vostro fornitore con quello di altri. Infine un controllo periodico sempre degli stessi computer vi permettera' di capire se il servizio sta cambiando nel tempo.

Il servizio telnet vi permette di lavorare su un computer remoto con una finestra di solo testo.Alcuni servizi in rete sono accessibili in questo modo come questo servizio di consultazione cataloghi della biblioteca del Congresso.

L'architettura del Web

Il Web ha trasformato Internet in un'architettura in continuo sviluppo formata da tutti i server Web. Abbiamo centinaia di migliaia di server ma la maggior parte del traffico e' catturato da pochi server che costituiscono il cuore del Web. Tra questi L'hit parade di Internet viene fornita da particolari servizi come Media Metrix che lavora,come per il calcolo dell'auditel televisivo,utilizzando un campione di utenti e hot100 che lavora analizzando i logfiles di proxies ( i proxies sono computer usati per facilitare l'accesso a Internet all'interno di grosse organizzazioni e per gli utenti di particolari fornitori di servizi Internet: essi mantengono una lista di tutte le richieste fatte dagli utilizzatori nei log files).

Quasi tutti i computer piu' gettonati sono in California e Yahoo riceve circa 50 milioni di richieste al giorno cui soddisfa con una cinquantina di computer connessi ad Internet con un collegamento ad altissima velocita'.

Nonostante la preponderanza di alcuni siti, su Internet ci sono un numero molto grande di server ma soprattutto un numero grandissimo(alcuni milioni) di persone che hanno pubblicato del materiale in rete. Questo viene pubblicato per lo piu' dai fornitori di servizio Internet o da servizi gratuiti come geocities. Da notare che e' possibile avere caselle gratis di posta elettronica su siti come hotmail , cio' che puo' essere utile se volete crearvi un indirizzo privato che a differenza di quello sul posto di lavoro, sia inaccessibile al boss(la posta elettronica , sul posto di lavoro, puo' essere letta dal system manager e dal vostro boss).

I servizi di ricerca

I servizi di ricerca sono diventati il primo modo trovato per guadagnare su Internet. Essi forniscono gratis un servizio a livello mondiale e la loro popolarita' gli permette di farsi pagare bene la pubblicita'. La tendenza e' quella di trasformarsi in una specie di parchi di divertimento online offrendo oltre ai servizi di ricerca altri servizi (caselle di posta gratis,chat,notizie,etc) per catturare i navigatori Internet sul loro sito.Questi megasiti ora vengono detti portali.

Ma quanto bene riescono ad assolvere al loro compito principale di classificare il Web? Come si vede da questo tabellone esistono numerosi servizi di ricerca ma di questi solo 9 sono eccezionali ( essi sono descritti in parte in questa tabella) e cioe' Yahoo, Altavista, Hotbot, Lycos , AllTheWeb, Teoma, WiseNut, MSN e Google.

Yahoo va considerato come un outsider con caratteristiche molto diverse dagli altri 8, in quanto classifica i materiali in rete usando SOLO persone che ogni giorno aggiungono circa 1000 nuove pagine alla loro curiosa classificazione. E' possibile consultare il catalogo invece di cercare e i documenti trovati sono pochi ma rilevanti(insomma pochi o meglio pochissimi ma buoni...).
Yahoo non e' l'unico catalogo fatto da persone esistente in rete. Ma e' l'unico servizio di ricerca a basarsi solo su un catalogo.Gli altri 8 servizi si basano su motori di ricerca ma hanno anche un catalogo fatto da persone. Tra i migliori di questi cataloghi c'e' l'Open Directory Project incluso in Google.

Questi 8 servizi sono detti motori di ricerca perche' usano robot(cioe' particolari programmi di computer) per classificare il materiale in rete e riescono a classificare dal 10% al 25% delle pagine Web (cioe' documenti in formato html) come si vede da questo studio. (Un osservatorio sulla dimensione dei motori si trova invece qui).Per cui,anche considerando tutti i motori insieme solo poco piu' del 50% del Web e' classificato. Se poi consideriamo tutta l'informazione online che ormai e' basata per lo piu' su database, allora scopriamo che la percentuale classificata e' solo 1/1000 ! Al momento attuale uno dei maggiori problemi dei motori di ricerca e' di come classificare questo Web invisibile che tra l'altro cresce molto di piu' di quello visibile.Con la crescita attuale del Web e' probabile che la percentuale di materiale classificato diventera' sempre di meno.

Un robot non fa che seguire in maniera sistematica tutti i link nei documenti che incontra creando un database.Se pubblicate un documento che sia attaccato ad una pagina Web , dopo qualche giorno riceverete la visita di questi visitatori che leggeranno il vostro documento classificandolo.

Come si vede da questo sito che studia i motori di ricerca, ognuno dei 8 motori principali, riesce ad aggiornare il proprio data base per tener conto di documenti non piu' esistenti,nuovi o con indirizzo cambiato, ogni mese. Questi motori classificano il Web creandosi un data base con una copia di tutto il testo contenuto nel documento inclusi i comandi html.I documenti in formato non html non sono di solito classificati (questi sono in totale almeno 4 volte la parte html del Web e comprendono suoni,immagini,applet,documenti pdf,etc).I robot non riescono nemmeno a classificare le informazioni contenute nei database che sono circa 500 volte la parte html.Ed a rendere le cose ancora piu' difficili, ormai tutti i siti piu' moderni pubblicano pagine HTML a partire da un database ed anche queste sono impossibili da classificare.

Cosi' come non sono classificati documenti html presenti su grossi siti che forniscono notizie come Repubblica, Cnn, TimeWarner,etc... Questi siti proibiscono l'accesso dei robot al loro materiale. Ad essi vanno aggiunti anche le principali case editrici che pubblicano riviste scientifiche e che, nonostante producano sempre piu' spesso versioni online delle riviste cartacee, permettono l'accesso ad esse solo agli abbonati.

I messaggi ai gruppi di discussioni e le notizie di agenzia piu' recenti sono classificate a parte da qualche motore di ricerca.

Materiali non classificati,come ad esempio i documenti pdf, possono essere sempre ritrovati se sono attaccati a una pagina Web classificata. In questo modo funziona la ricerca su questi materiali particolari possibile ad esempio su Altavista e Hotbot.

Tutti i magnifici 9 lavorano a livello mondiale . Una selezione geografica del materiale e' possibile almeno su 2 di essi (Google e Hotbot) e Google permette anche la selezione della lingua ed ha un servizio di traduzione. Esistono servizi di ricerca regionali (a livello per esempio europeo o italiano) ma al momento attuale, anche se vanno considerati per una ricerca a tappeto, sono peggiori dei servizi mondiali.Altri servizi di ricerca sono invece specializzati in alcuni settori particolari. Questi sono listati da particolari siti riportati nella riga "Databases" del tabellone:ad esempio da "The BigHub".La maggioranza dei servizi in questa categoria si limitano a catalogare database online che possono essere ricercate (catalogano gli indirizzi non il contenuto!) e in questo modo permettono di accedere a quel Web invisibile che e' ormai centinaia di volte piu' grande di quello visibile. Solo un decimo dell'informazione di questi database e' a pagamento e corrisponde ai servizi online tipo Lexis-Nexis esistenti da molto prima del Web.

Vanno menzionati anche i servizi di ricerca in parallelo che non catalogano la rete e non hanno un data base proprio, ma si limitano a smistare la vostra domanda a piu' motori insieme , ritornando un'unica pagina di risultati dopo aver eliminato i doppioni.Questi vengono chiamati anche meta motori.

Ormai solo Google classifica i messaggi mandati ai newsgroups ed inoltre,avendo acquistato l'archivio di Deja, ha i messaggi di oltre dieci anni.

I principali servizi classificano anche notizie(le piu' recenti provenienti da agenzie) e potete fare ricerche tra di esse. Ma alcune grandi testate come Time/Warner permettono di cercare negli ultimi anni delle loro pubblicazioni. Quasi sempre il servizio e' disponibile solo a pagamento.

Man mano che elenchi telefonici e pagine gialle vanno online, e' possibile ritrovare in rete le stesse informazioni ottenibili su carta ma per tutte le nazioni e con possibilita' per esempio, anche di avere la mappa della zona dell'indirizzo cercato. Ci sono inoltre cataloghi di indirizzi di posta elettronica e cataloghi di software scaricabile via rete.

Rilevanti per l'INFN sono infine i depositi di lavori di ricerca, non classificati dai motori di ricerca, che per alcuni campi particolari come appunto la Fisica delle Alte Energie, contengono quasi tutto cio' che viene scritto e lo rendono disponibile ancor prima che sia pubblicato. Questi hanno motori di ricerca propri.

Un campo a parte sono i cataloghi di librerie e biblioteche disponibili anch'essi online.

Quindi,in conclusione, volendo dare un quadro completo di cio' che e' disponibile online su un particolare argomento , occorrerebbe dare:

  1. Una lista di documenti Web trovati attraverso i principali servizi di ricerca
  2. Le mailing list e i gruppi di discussione sull'argomento
  3. la FAQ
  4. Una lista di documenti Web disponibili presso organi di informazione come catene televisive e testate giornalistiche.
  5. Una lista di documenti ritrovati attraverso i servizi di ricerca locali di grosse organizzazioni che lavorano nel campo prescelto.
  6. Le riviste specializzate disponibili online
  7. Materiale in formato non html (ad esempio immagini,documenti pdf, registrazioni sonore,spezzoni video,etc)
  8. Database online a pagamento e no(questi comprendono anche materiale degli ultimi 20 anni prima del Web raccolto da servizi online specializzati come Lexis-Nexis).
  9. Cataloghi di risorse cartacee
(Notate come ,tranne 1, tutte le altre informazioni fanno parte di quel Web invisibile che come si e' detto e' ormai la schiacciante maggioranza dell'informazione online).

Una tale lista dettagliata viene chiamata trailblazer page o pagina guida sull'argomento e di solito viene scritta e aggiornata da qualche esperto. Nel fare una ricerca , dovreste come prima cosa cercare di trovare una tale pagina. Questo risolverebbe tutti i vostri problemi.
Come si fa? Basta trovare l'url di qualche pagina Web fondamentale per l'argomento dato. Dopodiche' ,usando una richiesta particolare, (su Altavista e' link:url) richiedete tutti i documenti che hanno attaccata quella pagina. Se una trailblazer page esiste, sara' tra quelle tornate da questa ricerca.

Protezione da hacker,etc...

Per comprendere in maniera corretta il problema posto da Internet bisogna considerare che Internet e' fatta da persone. E' come essere insieme nella stessa piazza con milioni di sconosciuti: e' probabile che con alcune di queste persone preferireste non avere a che fare.

Per valutare la pericolosita' di Internet per i minori, bisogna considerare che non e' una specie di televisione dove potete solo guardare, ma e' un sistema di comunicazione completo che permette ad estranei di contattarvi. Per questo si danno ai minori questi consigli. Potete,se volete, pensare ad Internet come a un nuovo quartiere della vostra citta': mandereste i vostri figli da soli in un nuovo quartiere ,o non sarebbe raccomandabile almeno le prime volte andare assieme, per rendersi conto dei possibili pericoli?

Anche agli adulti e' consigliabile tenere informazioni che permettano di contattarvi riservate. Questo serve non solo a proteggere la nostra privacy ma anche ad ostacolare pratiche fastidiose come l'invio di messaggi non richiesti.

Bisogna tener conto anche di problemi legati alla possibile intrusioni di hackers.
Quando siete collegati a Internet, anche con un modem da casa, il vostro computer ha tutte le possibilita' di comunicare di un qualsiasi altro computer collegato a Internet.Questo fatto puo' essere sfruttato dagli hacker con l'uso di speciali programmi detti cavalli di Troia.Un cavallo di Troia infetta il vostro computer come un programma virus magari attaccato a qualche gioco su un dischetto e quindi non necessariamente caricato dalla rete, pero' a differenza del virus non fa nessun tentativo di moltiplicarsi e di nuocere al computer. Invece sta li tranquillo aspettando che vi colleghiate a Internet. Quando vi collegate, usa magari ICQ o qualche altro mezzo di comunicazione, per avvisare l'hacker che il computer e' online. A questo punto l'hacker puo' usare il programma per spiare quello che fate col computer e ,se vuole, puo' anche farvi degli scherzi piu' o meno spiacevoli tipo cancellare file,etc... Insomma,finche siete collegati a Internet e ,senza che voi lo sappiate, questo programma gira,l'altro puo' pilotare il vostro computer. Se vi accorgete del problema tutto puo' risolversi con la cancellazione del programma, ma non e' facile accorgersi della cosa, almeno per un normale utente(quanti programmi girano sul vostro computer adesso? decine: e di quanti sapete cosa fanno?). A questo indirizzo trovate maggiori notizie, assieme a dei link che possono aiutarvi a diagnosticare il problema. Questi funzionano sfruttando la "porta" usata dal cavallo di Troia, se vedono che e' "aperta" allora vuol dire che questo e' attivo.
Un'altro scherzo spiacevole che potrebbe farvi un programma scaricato dalla rete, potrebbe essere quello di pilotare il modem, disconnetendolo dal provider e connettendolo a un numero magari oltreoceano. Vi ritrovereste cosi' con una bolletta telefonica astronomica. Anche qui l'unico consiglio e' di non installare programmi provenienti da siti che potrebbero essere inaffidabili.
Infine e' bene ricordare come risulta da questo Internet hoaxes che l'idea che leggere un particolare mail possa infettare il nostro computer e' solo uno scherzo che viene tentato con successo con tutti i principianti.Non si puo' prendere un virus leggendo un semplice testo, sia questo un mail, una pagina Web o un messaggio a un gruppo di interesse. Questo purtroppo non si puo' dire se state usando software Microsoft per leggere posta o navigare in rete:il software Microsoft puo' infettare il vostro computer automaticamente solo leggendo alcuni mail infetti o pagine Web infettate.Questo e' dovuto alle debolezze di questi programmi sfruttati da virus/worm come il NIMDA. Si puo' prendere un virus anche leggendo un documento Word(a causa dei macrovirus) oppure eseguendo un programma attaccato a un mail ,un messaggio o una pagina Web.

In effetti sta diventando sempre piu' chiaro che uno dei modi migliori per proteggersi dagli hacker e' quello di non usare programmi Microsoft(o perlomeno di limitarne l'uso al minimo indispensabile). Questo non perche' questi programmi siano "cattivi" ma proprio perche' sono buoni ed hanno il quasi monopolio del mercato. Cosi' come succede nella evoluzione animale dove la selezione di razze animali troppo perfette produce ceppi fragili che possono facilmente perire per qualche nuovo virus, cosi' i programmi Microsoft si stanno dimostrando sempre piu' vulnerabili ai nuovi virus di rete. Inoltre il quasi monopolio del browser potrebbe essere una tentazione troppo forte per pratiche al limite dell'illegalita' (immaginate la tentazione di un padrone di reti televisive che ha anche il monopolio dei televisori, di "adattare" i televisori in modo da favorire le proprie reti).

Parlando di scherzi o meglio di tentativi di truffa bisogna ricordare quello di richiedere con qualche pretesto la password.

Sempre riguardo la sicurezza, gli applet Java si sono dimostrati finora sicuri. Meno i controlli Activex. Sia gli applet che gli Activex sono programmi caricati via rete ed eseguiti sul vostro computer. Volendo potete disabilitarli, configurando il navigatore in modo da non eseguirli. Cosi' come potete disabilitare i cookies che sono piccoli file scritti sul vostro disco quando navigate in alcuni siti. Questi permettono al server remoto di ricordarsi che voi siete stati gia' prima a visitarli e sono essenziali per alcune applicazioni Web come giochi online(per ricordare a che punto del gioco siete) o commercio online(cosa avete ordinato finora?).

Un server Web infatti, scorda tutto di voi una volta che ha inviato cio' che gli avete chiesto( cosi' e' il protocollo). Pero' esso annota ogni richiesta in speciali file detti log files. Percio' e' possibile ricostruire da questi log files tutti i posti dove siete stati. In generale dovete sapere che ogni uso della rete potrebbe essere registrato.

Altri problemi riguardo la rete sono legati alla facilita' con cui potete copiare materiali online includendoli magari nei documenti che pubblicate. Ebbene,il copyright esiste anche in rete, e se ad esempio prendete un'immagine da un altro documento e volete inserirla in una vostra pagina Web pubblica, allora dovete chiedere il permesso al proprietario.

Sempre riguardo al copyright, un discorso diverso va fatto rispetto alla possibilita' di scambiarsi files contenenti musica(mp3) o altro materiale con copyright attraverso servizi cosiddetti P2P(peer to peer:da collega a collega) tipo Napster o Gnutella. Qui la cosa e' identica allo scambio tra amici di un libro o un CD. Solo che attraverso Internet e' possibile scambiarsi il materiale con milioni di "amici"!Dato che,come abbiamo detto, su Internet ogni computer ha la possibilita' di fornire qualsiasi servizio, incluso quello di rendere files condivisibili con altri, non c'e' nulla che possa impedire questo scambio di materiali.
Anzi questo problema diventera' critico quando tutti gli utenti Internet avranno la possibilita' di avere un collegamento a larga banda 24/24. A quel punto ogni materiale che e' possibile caricare in maniera digitale sul computer (DVD,CD musicali,programmi,giochi,etc) sara' condivisibile e quindi "gratis". Come sara' risolto il problema? Per ora non si sa.

Comunicazione su Internet:non solo mail

Man mano che le capacita' di comunicazione di Internet miglioreranno assisteremo alla nascita di modi di comunicazione sempre piu' sofisticati. Se adesso la comunicazione in tempo reale via testo e' cosa normale attraverso i chat e le buddy lists come ICQ, modalita' piu' avanzate di trasmissione si possono sperimentare con i videogiochi via rete,le telefonate via Internet e le videoconferenze.

Nonostante la crescita impressionante del numero di utilizzatori di Internet,che faceva prevedere il collasso della stessa,la velocita' dei collegamenti non solo non e' diminuita ma e' in costante miglioramento. Tutto al momento attuale fa presagire che tale tendenza continuera' ,con la possibilita' in pochi anni di avere collegamenti almeno 10/100 volte migliori di quelli attuali. Come mai? Perche' a questo non ci sono ostacoli tecnici (vedi uso di fibre ottiche,tecnologia ASDL su cavi telefonici normali e uso di satelliti) e perche' le esigenze del commercio online spingono in maniera inesorabile in questa direzione.

Un Web sempre piu' interattivo e multimediale

Un ipertesto HTML non e' altro che un semplice testo con dei comandi inframmezzati(i tag HTML racchiusi tra parentesi angolari <>) che permettono di formattarlo,indicando ad esempio, che una frase va scritta con un font grande perche' si tratta di un titolo.

Certo,avete delle immagini, ma il massimo dell'interattivita' consiste nel cliccare su un link saltando ad un altro documento.

Sin dai primi anni del Web si e' sentita la necessita' di permettere la trasmissione via rete di materiali sempre piu' multimediali e interattivi, simili a quelli che ora trovate su CD-ROM e videogiochi, per sfruttare appieno le possibilita' offerte dalle moderne macchine.

Per quale ragione questi materiali ora cosi' comuni non dovrebbero essere disponibili via rete? Il problema e' il seguente:per trasferire questi materiali occorre trasferire dei programmi di computer. Ma trasferire un programma invece di un semplice documento, tra 2 computer via rete, comporta 2 problemi:

  1. Il computer remoto sara' quasi sempre diverso dal vostro e di solito i programmi eseguono solo sul computer sul quale sono stati preparati(mentre i documenti possono essere letti su qualsiasi computer).
  2. Esiste la possibilita' di caricare col programma anche un virus.
Sin dall'inizio si e' stati superprudenti, in quanto l'infezione di un virus via Web avrebbe significato la fine di Internet.

Questo problema e' stato risolto nell'arco di alcuni anni da 4 diverse tecnologie:

  1. CGI script
  2. plugin
  3. applet Java
  4. HTML dinamico

I CGI script sono quelli che usate quando interrogate un motore di ricerca. Fate una richiesta che inviate a un computer magari in California, dove parte un programma (il CGI script appunto) che esamina la vostra richiesta e per rispondere prepara un html con il risultato. L'html non esisteva prima ed e' stato preparato a volo dallo script(script in inglese significa copione ed e' un altro modo di chiamare i programmi di computer) usando il protocollo CGI.

Qui esempi e altre informazioni sui CGI script.

Il programma in questo caso gira sul computer remoto(il server) , cio' che risolve i 2 problemi prima visti della compatibilita' e dei virus, ma ne crea degli altri.

Immaginate di voler far ruotare un oggetto 3D sul vostro computer.Indicate nel modulo di richiesta la rotazione ,la inviate al computer remoto , questo calcola l'immagine ruotata e la ritorna indietro. Ora immaginate che 1000 persone facciano la stessa cosa assieme: il risultato e' che avete intasato la rete, il computer remoto va in tilt mentre il vostro computer , che potrebbe senza problemi far ruotare l'immagine, e' fermo ad aspettare senza fare niente.

Con i plugin , il problema viene risolto dal browser che apre nel documento una finestra e al suo interno fa girare un particolare programma(il plugin che come uno spinotto si inserisce nella finestra) che viene caricato una volta per tutte.

Questi plugin permettono di leggere documenti non html come Acrobat Reader che visualizza i pdf. Ma anche materiali interattivi e multimediali come Cosmo Player che permette di esplorare mondi virtuali 3D simili a quelli di videogiochi tipo Quake oppure Shockwave per i materiali prodotti con Flash della Macromedia. Quasi tutti i plugin sono fatte da grandi case di software che li forniscono gratis garantendone anche la sicurezza.

Il problema coi plugin e' che la loro installazione e' fastidiosa e crea talvolta problemi. Inoltre per produrre questi materiali dovete acquistare programmi relativamente costosi come Director(ma questo non e' sempre vero:ad esempio per produrre animazioni Flash sono ormai disponibili anche programmi gratis). In ogni caso alcuni tipi di materiali su Internet ormai sono cosi' numerosi che vale la pena perdere un po' di tempo per caricare i relativi programmi. In particolare ormai i seguenti plugin sono "obbligatori"(di questi alcuni sono gia' preinstallati nel browser):

La terza soluzione e' simile ai plugin: il navigatore apre una finestra ma ad eseguire al suo interno e' un applet Java cioe' un programma scritto apposta per la rete nel linguaggio Java.

Java e' un linguaggio di programmazione simile a C++ ,prodotto dalla Sun. Ma perche' gli applet sono scritti in Java e non in C++ o VB ? Per 3 motivi particolari. Il primo e' che e' gratis. Il linguaggio Java e' stato donato dalla Sun a Internet e dal sito della Sun potete scaricare tutto cio' che vi occorre. Il secondo motivo e' che un programma Java e' compatibile con qualsiasi computer. Il terzo e' che un applet e' sicuro.

Come un applet riesce ad essere compatibile e sicuro dipende dal fatto che il programma Java non viene preparato (o compilato come si dice in gergo) per un computer particolare, ma per un computer generico: la Macchina Virtuale Java. E' il programma per questa macchina che viene caricato sul vostro computer. A differenza dei programmi normali che si impossessano della CPU e possono combinare guai se contengono un virus, l'applet Java viene messo come un bambino irrequieto in un box (una sand box ) . Da qui, un particolare programma presente nel Navigatore, e chiamato interprete provvede a leggere le istruzioni una a una e ad eseguirle sul vostro computer. Nel fare questo, si accerta che non venga fatto alcun danno.

Purtroppo per scrivere un applet occorre essere un programmatore. Pero' volendo potete decorare la vostra pagina con applet scritte da altre persone, includendo l'applet all'incirca come fareste con un'immagine.

Maggiori approfondimenti su Java

Essendo Java un linguaggio di programmazione moderno, e' anch'esso ad oggetti: cioe' descrive tutto cio' che gli serve per trattare un particolare problema come una collezione di oggetti. Cosi' all'interno della finestra dove gira l'applet ogni cosa e' un oggetto. L'idea di base della soluzione DHTML o HTML dinamico e' di trasformare tutto il documento in un'applet dove ogni cosa e' un oggetto manipolabile. Cosi' l'HTML passa da essere un linguaggio di formattazione a linguaggio di programmazione coi documenti che diventano programmi.

Il DHTML si basa su tre nuove tecnologie che si aggiungono all'HTML:

  1. DOM - Document Object Model : uno standard (al momento attuale in via di costruzione) che descrive il documento come una serie di oggetti.
  2. Javascript : un linguaggio fornito assieme ai navigatori che permette di manipolare gli oggetti per mezzo di programmi che vengono inclusi nell'html.
  3. CSS - Cascading Style Sheets (Fogli di stile a cascata) : Delle specifiche che permettono di descrivere come la pagina deve apparire (cioe' dimensioni,tipo e colore dei font, esatto posizionamento,etc...) Queste specifiche sono necessarie perche',se ad esempio voi volete far muovere una scritta, dovete indicare dove si trova all'inizio: cio' che e' impossibile con l'html normale.
I documenti DHTML si presentano come dei normali documenti HTML con dei programmi Javascript inframmezzati nel testo. Le specifiche di stile le trovate invece o dentro l'html o in file a parte con l'estensione .css.

Maggiori informazioni sul DHTML

Un Web di seconda generazione con database e XML

Ormai il Web esiste da piu' di 10 anni e la gestione dei siti che ora contano migliaia se non milioni di pagine, e' passata da una fase artigianale in cui tutto veniva fatto a mano a una fase industriale che permette la gestione di migliaia di pagine con possibilita' di modifiche istantanee in tutte le pagine. Si tratta di siti di seconda generazione la cui maggiore caratteristica e' quella di essere sostenuti da un database. Ormai i database sono disponibili anche gratis per essere usati su Internet (ad es. MySQL).
L'idea di base e' di tenere l'informazione separata dalla presentazione della stessa. L'informazione viene memorizzata in un database relazionale tradizionale come Access o MySQL. La presentazione e' invece fatta per mezzo di appositi programmi (simili ai CGI script visti prima) che leggono l'informazione dal database ed utilizzano un modello predefinito per presentarla all'utente(in HTML).
Per scrivere questi script sono state sviluppate particolari tecniche (ad es. ASP della Microsoft) o linguaggi come il PHP. Anche Java e' molto usato in queste applicazioni. Se si vuole modificare la presentazione dell'informazione basta cambiare il modello nello script ed automaticamente tutte le nuove richieste presenteranno questo nuovo aspetto. Prima invece bisognava modificare migliaia di pagine HTML.
L'implementazione di un sito basato su database non e' molto difficile ma richiede una conoscenza minima di programmazione a differenza dei siti basati solo su HTML.
Qui maggiori informazioni.

Per concludere infine cos'e' questo XML di cui si parla tanto e perche' non e' il caso (almeno per adesso) di preoccuparsene.


Ultimo aggiornamento :