Questo documento e' stato usato per la prima volta nel corso INFN sul Web tenuto nel 1998 e da allora viene periodicamente aggiornato per essere usato dai navigatori online e in nuovi corsi. Commenti e proposte di aggiornamenti e miglioramenti sono gradite. Inviatele a zito@ba.infn.it.
Questa immagine frattale vuole essere
un simbolo della straordinaria tela che in questo momento milioni di persone
in tutto il mondo stanno tessendo.
Ma come si ricavano queste cifre? E cosa c'e' dietro di esse?
E' possibile fare una mappa di Internet?
Una biblioteca nazionale contiene milioni di libri ma quanti di questi sono online? Guardando questa lista di libri online forse sarete stupiti di apprendere che solo 17000 libri in tutto
il mondo sono online su Internet. Ma allora cosa c'e' su Internet? E intanto quant'e' grande in termini di informazione? Prendiamo la piu' grande biblioteca
del mondo forse la biblioteca del Congresso: Internet e' all'incirca uguale come numero totale di informazioni
contenute. Questo si ricava dal numero di pagine Web citato all'inizio.
Questa dimensione e' tale che una organizzazione sta archiviando tutta la rete senza grossi problemi per conservarne il
contenuto per i posteri. Ma se non sono libri che contiene Internet,allora
cos'e'?Qual'e' la qualita' del materiale? La verita' e' che la vera ricchezza di Internet e' nel numero di persone
online. Internet e' prima di tutto uno strumento di comunicazione che vi
permette di comunicare con milioni di persone,come il telefono, ma molto piu'
economico. Per dirla con le parole di qualcuno: su Internet e' come avere a disposizione milioni di consulenti gratis. La cosa interessante e' che ognuna
di queste persone puo' pubblicare sul Web ed almeno il 10% approfittano di
questa possibilita'. La pubblicazione avviene senza filtri ne' censure ed ecco spiegata la qualita' cosi' bassa dei materiali Web.
L'alto numero di persone collegate a Internet spiega anche l'enorme
interesse per Internet nel campo commerciale: questi sono milioni di
consumatori che potete contattare con poca spesa.
Ogni computer ha un indirizzo chiamato indirizzo IP consistente in uno strano numero per lo piu' formato da una sequenza di quattro numeri , compresi tra 0 e 255, separati da
un punto. L'assegnazione di questo numero (assieme a quella del nome che vedremo
tra poco) e' l'unica burocrazia esistente su Internet.
Quando voi richiedete ,ad esempio, un'immagine da un computer remoto, questa vi viene spedita nel modo seguente:prima viene tagliuzzata in ,diciamo, 1000 piccoli pezzi (in gergo pacchetti) tutti di uguale dimensione e poi ogni pezzo viene
messo in una busta con indicato tra l'altro, l'indirizzo del
mittente, del destinatario e un numero d'ordine. Le 1000 buste viaggiano tutte per conto proprio e se ci fossero 1000 cammini diversi tra mittente e destinatario, potrebbero viaggiare ognuna per un diverso cammino. All'arrivo,che puo'
avvenire in un'ordine qualsiasi, i pezzi vengono ricomposti insieme e voi potete guardare l'immagine.
(Un altro modo di spiegare la cosa e' di dire che ogni pacchetto e' abbastanza
intelligente da trovare la strada da solo anche se ci sono interruzioni).
Dato che non c'e' un centro,un padrone (qualcosa
come la Telecom per il telefono) ecco che Internet si e' sviluppata ignorando le frontiere. Dato che l'informazione continua a viaggiare anche se rimane un solo
collegamento attivo tra mittente e destinatario, ecco che Internet e' resistente a danneggiamenti e censure che producono solo dei rallentamenti. Dato che i singoli
pacchetti possono seguire qualsiasi cammino, lo sfruttamento delle linee
puo' essere ottimizzato ed e' per questo che il costo e' cosi' basso.
Uno di questi laboratori era il Cern di Ginevra dove
un oscuro impiegato della divisione dei computer di nome Tim Berners-Lee ebbe l'idea di rendere piu' accessibili i servizi di Internet con l'uso dell'ipertesto. Nacque
cosi' il Web che dopo qualche anno,con l'introduzione di Mosaic, il primo
navigatore con interfaccia grafica, ha portato a una crescita esplosiva di Internet fuori dell'ambito accademico. Nel 1995 la parte commerciale di Internet aveva superato quella della ricerca ed ormai essa e' preponderante.
Da notare che prima del 95 si parlava di autostrade informatiche ma nessuno
pensava che Internet sarebbe diventata di fatto l'autostrada informatica. Il Web o per dirla per intero il World-Wide Web o WWW o Grande Ragnatela
Mondiale e' nata circa 10 anni fa ed e' in effetti solo una parte , uno
dei servizi di Internet, legata all'ipertesto.Ma e' anche un'interfaccia
semplificata a tutti i servizi Internet (non solo Web) attraverso i navigatori o browser come Netscape.
Per capire il trucco del Web prendiamo questi esercizi di ricerca in rete con risposta . Questa ricerca
alla fin fine ,consiste nel trovare l'indirizzo o Url
del documento . Questo indirizzo e' stato nascosto , usando le
regole dell'html , dietro il testo delle domande che ora sono cliccabili.
La lista stessa inoltre e' stata messa in una particolare directory
su un computer dove un particolare programma chiamato server Web usa il protocollo http per rendere questo file accessibile in tutto
il mondo con l'indirizzo http://www.ba.infn.it/~zito/es971.html .
Vedete come le tre tecnologie collaborano per rendere Internet un posto alla
portata di tutti,dove ogni documento puo' essere raggiunto cliccando col
mouse. Secondo lo slogan di Tim:
Non e' necessario sapere cosa significa un Url
per fare una ricerca fruttuosa ma il fatto di conoscerlo puo' aiutarvi ad esempio per Ecco ,in dettaglio, come si presenta un Url.
protocollo://nomecomputer[:porta]/percorso/nomedocumento
Servizi non accessibili via
Url ,lo sono di solito via servizi Web come i ping e finger gateway che potete trovare facendo una ricerca su Google.
Procedendo nella Url, troviamo il nome del computer che fornisce il servizio.
In effetti ogni computer collegato a Internet puo' avere un
nome (oltre a un numero) e talvolta anche piu' di uno.
Questo nome viene in parte assegnato come il numero, seguendo certi criteri e
in parte e' deciso in maniera arbitraria dal possessore del computer.
In effetti i nomi andrebbero letti al contrario perche' l'ultima
parte e' quella piu' importante ed e' una sigla che indica la nazione o uno
dei domini Usa. Il secondo nome e' il dominio vero e proprio (questo deve
essere richiesto). Dopodiche' abbiamo nell'ordine un sottodominio (che puo'
anche mancare), un sottosottodominio,.. e infine l'ultima parola (quasi sempre www) indica il nome del computer vero e proprio.
Di solito, parlando di nome di dominio di un computer ci riferiamo alle parole che seguono quella che identifica il nome del computer,
ad esempio ba.infn.it.
Basandosi sui nomi e i numeri assegnati e' possibile fare un censimento automatico di Internet. Questo viene ripetuto ogni 6 mesi .
Da queste statistiche e' possibile ricavare alcune interessanti informazioni
come il numero di persone collegate a Internet (stimato moltiplicando il numero di computer per 4),la crescita di Internet,la diffusione della stessa in Europa
e nel mondo.
Le altre informazioni che si danno nella Url, se presenti, servono a localizzare il documento sul disco del computer che serve i documenti, dando
il nome del file e il cammino per arrivare allo stesso.
In particolare un cammino che comincia con ~ (o %7e che e' la stessa cosa), indica un archivio nello spazio privato di un utente del computer che serve l'informazione.
Quando non specificate nessun nome di file e nessun cammino,viene servito un documento di benvenuto(la cosiddetta homepage). Se invece indicate il solo cammino, potete avere o un documento di benvenuto o il contenuto della directory o cartella indicata a seconda di come il proprietario delle informazioni ha deciso.
Trovare la risposta a una domanda di ricerca sul Web significa trovare l'url del documento che risponde la domanda. Per facilitare
le persone, vengono usati spesso dei nomi di dominio significativi, in modo che potete scrivere subito l'url della risposta. Ecco alcuni casi:
Da notare che anche il fatto di chiamare i computer con server Web www e' una regola di cortesia.
Qui trovate altri dettagli sulle url.
Questi servizi sono forniti come si e' detto usando un certo protocollo e seguendo una modalita' particolare detta client/server.
Questo modo di lavorare e' necessario perche' su Internet avete computer
di ogni tipo. Potete pensare a un servizio fornito
come in un ristorante con molti clienti che vanno e vengono e pochi servitori o server che sono a disposizione per tutto il tempo.Ogni computer cui interessa un certo servizio ha installato un particolare
programma detto appunto client che usa le regole della buona educazione (protocollo) per richiedere il servizio a un computer dove gira
in permanenza il programma (server) che fornisce il servizio.
Cosi' per usufruire del servizio ftp
dovete far girare un cliente ftp come ws_ftp e usarlo per collegarvi a uno
dei tanti server ftp . Viceversa se volete che il vostro computer fornisca il servizio ftp dovete installarvi un server ftp e tenerlo 24 ore su 24 acceso e
collegato a Internet come questo server finlandese.
Un navigatore Web, da questo punto di vista, e' un programma particolare, in quanto per permettere l'accesso a tutti i servizi Internet, include una
diecina di clienti diversi, uno per tipo di servizio.
Ogni computer collegato a Internet (anche quelli collegati da casa col
modem) possono accedere e fornire ogni servizio Internet(l'unica differenza
tra un computer collegato dal Dipartimento di Fisica e uno collegato via modem da casa
e' che il secondo ha un nome e un numero che cambia a ogni collegamento ed
e' accessibile solo quando vi collegate.)
Tra i servizi (protocolli) piu' popolari su Internet, oltre a quelli
che vedremo piu' in dettaglio nel seguito, avete: La lista dei tipi di servizi
disponibili su Internet cresce sempre di piu'. Tra i piu' usati,oltre al Web,
abbiamo il servizio ftp o file transfer protocol. E' il servizio che usate di solito per scaricare un programma dalla rete sul vostro
computer e in generale per trasferire file. Potete accedere
a questo servizio con un programma di navigazione come Netscape ma anche attraverso
programmi appositi come ws_ftp . Un suo uso tipico
e' per pubblicare pagine Web. Scrivete una pagina sul disco locale,
vi collegate col computer dove c'e' il server Web e la trasferite nell'area
su disco a voi assegnata. Questo trasferimento deve essere fatto usando
il codiceutente e la password a voi assegnata dal fornitore
di servizi Internet. Viceversa,se un server rende accessibili i suoi files
senza bisogno di password, si dice che fornisce un
servizio di ftp anonimo perche' il codice utente in questo caso
e' anonymous e la password puo' essere qualsiasi cosa anche
se e' norma di buona educazione fornire il proprio indirizzo di email.
Un'altro importante servizio e' quello di e-mail o posta elettronica. Ogni persona collegata a Internet ha un indirizzo di email del
tipo Nome.Cognome@nomedominio (o anche nomeutente@nomedominio o nomeutente@nomecomputer).
Alla posta elettronica sono collegati il protocollo smtp usato per spedire la posta e il protocollo pop3 per leggere la posta.
La posta elettronica non solo non e' sicura(forse lo sara' quando si usera' la crittografia per proteggerla) ma si presta a molti abusi. Come quello di
inviare un mail fingendosi un'altra persona(spoofing) o di inviare lo stesso mail
a milioni di persone (spamming da Spam la Simmenthal americana ).Lo spoofing avra' forse termine quando saranno usate delle tecniche
che permetteranno di dare una firma elettronica che individua
con certezza il mittente.
Mentre la posta elettronica vi permette di comunicare con una singola persona, la mailing list permette di mandare un messaggio a un gruppo di persone interessate allo stesso argomento.
Una mailing list(cioe' la lista di indirizzi delle persone interessate) e' gestita da un particolare programma su un particolare computer cui
corrisponde un indirizzo come listserver@nomecomputer o
majordomo@nomecomputer. Per avere il proprio indirizzo di posta elettronica
aggiunto alla lista ,basta mandare un messaggio a questo indirizzo indicando
Subscribe nomedellamailinglist.
Invece per partecipare alla discussione si mandano i messaggi a
nomemailinglist@nomecomputer.Il vostro messaggio viene mandato a tutti i
membri.
Esistono in rete degli elenchi piu' o meno completi
di queste mailing lists (migliaia in tutto il mondo).
Un altro modo di comunicare con
altre persone interessate allo stesso argomento sono i gruppi di discussione(newsgroups di Usenet).I gruppi di discussione si dicono di Usenet
perche' a differenza delle mailing lists che risiedono su un unico computer,
qui i messaggi viaggiano in una rete mondiale di server( NNTP server dal nome del protocollo) detta appunto Usenet. Si tratta di messaggi
che, come per le mailing lists, voi inviate al gruppo che vi interessa e che
vengono fatti circolare duplicandoli in migliaia di copie
su tutti i computer di questa rete. Ci sono pochissimi server NNTP (in Italia
poche decine). Il server da voi usato (di solito fornito dal fornitore di servizi Internet oppure
scelto dall'Universita') va indicato nelle preferenze del navigatore. Per
il Dipartimento di Fisica di Bari e' ad esempio news.caspur.it. e qui trovate la lista di tutti i gruppi
di discussione. Si tratta di decine di migliaia di gruppi raggruppati in
una pittoresca gerarchia con gruppi a livello mondiale e a livello nazionale.
Esistono anche gruppi locali, ma per accedere a questi occorre indicare il
server nella url in maniera esplicita dopo news://.
Anche i gruppi di discussione e in
particolar modo quelli senza un moderatore che filtra i messaggi, si prestano ad
abusi con gruppi dove il rumore(messaggi che non c'entrano niente
col soggetto del gruppo) puo' arrivare a livelli altissimi. Inoltre ,non
essendoci nessuna censura,i contenuti dei messaggi possono essere non adatti
ai minori o addirittura illegali(software piratato,..).
Come vedremo parlando di ricerca, e' possibile
fare ricerche in questi messaggi . Collegati ai gruppi sono le FAQ (Frequently Asked Questions) documenti presenti in parecchi gruppi che cercano di rispondere alle domande piu' comuni dei principianti(in inglese newbie). Questi
documenti messi insieme costituiscono una specie di Enciclopedia Generale
in continuo aggiornamento, ricca di agganci a risorse di rete.
Il servizio ping e' molto utile per diagnosticare malfunzionamenti della rete o anche solo per osservarne il funzionamento. Il comando Il servizio telnet vi permette di lavorare su un computer
remoto con una finestra di solo testo.Alcuni servizi in rete sono accessibili
in questo modo come questo servizio di consultazione cataloghi della biblioteca del Congresso.
Purtroppo non esiste una mappa di Internet ma potete pensare ad essa
come ad una enorme Fiera Campionaria con milioni di padiglioni,
dove anche voi potete costruirvi il vostro sito.La maggioranza della fiera
sarebbe formata da tutti questi padiglioni che costituiscono il
cosiddetto Web, ma dappertutto trovereste dei servizi
che non sono parte del Web anche se ormai sono ad esso strettamente
collegati. Ad esempio caselle e buche postali della posta elettronica.
Migliaia di bacheche elettroniche sugli argomenti piu' diversi dove
chiunque puo' affiggere il proprio intervento o leggere quello degli altri
(sono i newsgroups). Un servizio che come la posta pneumatica permette
l'inoltro celere di file tra i vari edifici (e' il servizio ftp).
Solo nel 1992 il Web (cioe' l'insieme dei padiglioni) non esisteva,
e tutta Internet la si poteva descrivere con una lista di qualche
migliaio di computer che offrivano i servizi di ftp , email e newsgroups !
Nel 1994 Internet poteva essere rappresentata con questa mappa.
Ma cominciamo con ordine ...
Internet come biblioteca
Potete pensare a Internet come a un'enorme biblioteca invisibile: ma
se non sapete come e' fatta e' difficile che le vostre ricerche siano
fruttuose. Ad esempio: quant'e' grande?Cosa contiene? Qual'e' la qualita' dei documenti contenuti?
Se prendiamo un libro qualsiasi
ad esempio un manuale, e facciamo una ricerca sugli argomenti del libro su
Internet, quasi di sicuro non troveremo il libro online ma centinaia di documenti dai quali potremmo estrarre con gran fatica il materiale del libro. Perche' la qualita' dei documenti Web e' cosi' cattiva? Forse e' meglio aspettare fra dieci anni quando tutti i libri pubblicati saranno (forse) online?
Internet come mezzo di comunicazione.
Ma in fin dei conti cos'e' Internet?
Internet, dal punto di vista della ferraglia, e' un cavo che esce dal
vostro computer e lo collega con gli altri computers nella stanza, nel palazzo, nella citta', in Italia , nel mondo. Quindi una serie di collegamenti tra
computer magari realizzati via satellite, cavi sottomarini, reti telefoniche,
reti locali,etc...
Internet e' anche l'informazione che viaggia su questi cavi :informazioni
fatte da bit 0 e 1 . Ormai quasi tutte le informazioni sono diventate digitali
e possono viaggiare su Internet:immagini,voce,TV,etc. Per
usare la metafora delle autostrade : i cavi sono le autostrade e le informazioni
che viaggiano sono le auto. Ma Internet non e' solo questo:se osservate le
macchine che si muovono nel traffico vedrete che vanno sempre a destra
sorpassandosi sempre dalla stessa parte,etc..
cioe' seguono le regole del codice della strada. I dati su Internet seguono
anch'essi un codice della strada detto in gergo
protocollo. Anzi piu' protocolli ,almeno uno per servizio . Ma il protocollo base che caratterizza Internet e' il protocollo TCP/IP. Spieghiamo questo protocollo in dettaglio perche' tutte le straordinarie caratteristiche di Internet derivano da esso.
Infatti se confrontate una telefonata Roma-S.Francisco fatta via Internet
o via Telecom della durata di 10 minuti, vedrete che via Telecom voi occupate
una linea dedicata con uno spreco enorme di risorse mentre su Internet i
pacchetti che formano la vostra voce dividono con
gli altri utenti le linee libere permettendo un uso ottimale delle stesse.
La nascita del Web
Internet e' nata oltre 30 anni fa(le prime prove di collegamento tra computer sono
state fatte nel 1969) ed ha cominciato con servizi come quello
della posta elettronica,del trasferimento di file(ftp) che sono diventati
subito popolari. Dopo sono arrivati i gruppi di discussione (newsgroups di Usenet) ma fino al 1989 era solo un posto per appassionati di computer che lavoravano
per lo piu' in laboratori di ricerca e nelle Universita'. Cerca l'URL!
Il Web e' una serie di nuove tecnologie che si sovrappongono all vecchia Internet e che si possono riassumere nella formula:
WWW = HTTP + URL + HTML
dove http si riferisce al
protocollo del nuovo servizio che distribuisce ipertesti.Url e' il fatto che ogni servizio in rete ha d'ora in poi un nome standard.
Html sono le regole per scrivere ipertesti.
You click, we do the rest
Lo stesso vale per l'html . Potete fare delle
ricerche senza conoscerlo, ma se lo conoscete la vostra efficacia sara' maggiore per il semplice motivo che i motori di ricerca classificano quasi solo documenti scritti usando questo linguaggio!
Il protocollo indica come il documento viene servito dal
computer che fornisce l'informazione.
Quasi ogni servizio in rete ha una sua Url.
I piu' diffusi sono http,news,mailto,ftp,telnet,gopher.Invece file non indica un protocollo di rete, ma l'accesso al disco locale.
La mappa di Internet
Una mappa di Internet prima del Web sarebbe consistita in una lista
di nomi di computer e dei servizi da essi offerti.
ping -t nomecomputer
lanciato da una finestra Msdos su un Pc, provoca
l'invio di pacchetti di prova al computer indicato con attesa di risposta
dallo stesso e stampa di informazioni tra cui la principale e' il tempo
di trasmissione. Un valore maggiore di 300 ms indica un collegamento lento. E' importante anche il numero di pacchetti persi per strada che non deve superare il 25%. Usando questo comando con diversi computer sparsi nel mondo, potete
controllare i vostri collegamenti e diagnosticare
eventuali problemi. Usando invece un ping gateway ad esempio in
Nordamerica potete confrontare il servizio del vostro fornitore
con quello di altri. Infine un controllo periodico sempre degli stessi computer
vi permettera' di capire se il servizio sta cambiando nel tempo.
L'architettura del Web
Il Web ha trasformato Internet in un'architettura in continuo sviluppo formata
da tutti i server Web. Abbiamo centinaia di migliaia di server ma la maggior
parte del traffico e' catturato da pochi server che costituiscono il cuore
del Web. Tra questi
L'hit parade di Internet viene fornita da particolari servizi come
Media Metrix che
lavora,come per il calcolo dell'auditel televisivo,utilizzando un campione
di utenti e
hot100 che lavora analizzando i logfiles di proxies ( i proxies sono computer usati per facilitare l'accesso a Internet all'interno di grosse organizzazioni e per gli utenti di particolari fornitori di servizi Internet: essi mantengono una lista di tutte le richieste
fatte dagli utilizzatori nei log files).
Quasi tutti i computer piu' gettonati sono in California e Yahoo riceve circa 50 milioni di richieste al giorno cui soddisfa con una cinquantina di computer connessi ad Internet con un collegamento ad altissima velocita'.
Nonostante la preponderanza di alcuni siti, su Internet ci sono un numero
molto grande di server ma soprattutto un numero grandissimo(alcuni milioni)
di persone che hanno pubblicato del materiale in rete. Questo viene pubblicato per lo piu' dai fornitori di servizio Internet o da servizi gratuiti come
geocities. Da notare che e' possibile avere caselle gratis di
posta elettronica su siti come hotmail , cio' che puo' essere utile se
volete crearvi un indirizzo privato che a differenza di quello sul posto
di lavoro, sia inaccessibile al boss(la posta elettronica , sul
posto di lavoro, puo' essere letta dal system manager e dal vostro boss).
I servizi di ricerca
I servizi di ricerca sono diventati il primo modo trovato per guadagnare
su Internet.
Essi forniscono gratis un servizio a livello mondiale e la loro popolarita'
gli permette di farsi pagare bene la pubblicita'. La tendenza e' quella di
trasformarsi in una specie di parchi di divertimento online offrendo oltre
ai servizi di ricerca altri servizi (caselle di posta gratis,chat,notizie,etc)
per catturare i navigatori Internet sul loro sito.Questi megasiti ora vengono detti portali.
Ma quanto bene riescono ad assolvere al loro compito principale di classificare il Web? Come si vede da questo tabellone esistono numerosi servizi di ricerca ma di questi solo 9 sono eccezionali ( essi sono descritti in parte in questa tabella) e cioe' Yahoo, Altavista, Hotbot, Lycos , AllTheWeb, Teoma, WiseNut, MSN e Google.
Yahoo va considerato come un outsider con caratteristiche molto diverse dagli altri 8, in quanto classifica i materiali in rete usando SOLO persone che ogni giorno aggiungono circa 1000 nuove pagine alla loro curiosa
classificazione. E' possibile consultare il catalogo invece di cercare e i
documenti trovati sono pochi ma rilevanti(insomma pochi o meglio pochissimi
ma buoni...).
Yahoo non e' l'unico catalogo fatto da persone esistente in rete.
Ma e' l'unico servizio di ricerca a basarsi solo su un catalogo.Gli altri 8 servizi
si basano su motori di ricerca ma hanno anche un catalogo
fatto da persone. Tra i migliori di questi cataloghi c'e' l'Open Directory Project incluso in Google.
Questi 8 servizi sono detti motori di ricerca perche' usano robot(cioe' particolari programmi di computer) per classificare il materiale in rete e riescono a classificare dal 10% al 25% delle pagine Web (cioe' documenti in formato html) come si vede da questo studio. (Un osservatorio sulla dimensione dei motori si trova invece qui).Per cui,anche considerando tutti i motori insieme solo poco piu' del 50% del Web e' classificato. Se poi consideriamo tutta l'informazione online che ormai e' basata per lo piu' su database, allora scopriamo che la percentuale classificata e' solo 1/1000 ! Al momento attuale uno dei maggiori problemi dei motori di ricerca e' di come classificare questo Web invisibile che tra l'altro cresce molto di piu' di quello visibile.Con la crescita attuale del Web e' probabile che la percentuale di materiale classificato diventera' sempre di meno.
Un robot non fa che seguire in maniera sistematica tutti i link nei documenti che incontra creando un database.Se pubblicate un documento che sia attaccato ad una pagina Web , dopo qualche giorno riceverete la visita di questi visitatori che leggeranno il vostro documento classificandolo.
Come si vede da questo sito che studia i motori di ricerca, ognuno dei 8 motori principali, riesce ad aggiornare il proprio data base per tener conto di documenti non piu' esistenti,nuovi o con indirizzo cambiato, ogni mese. Questi motori classificano il Web creandosi un data base con una copia di tutto il testo contenuto nel documento inclusi i comandi html.I documenti in formato non html non sono di solito classificati (questi sono in totale almeno 4 volte la parte html del Web e comprendono suoni,immagini,applet,documenti pdf,etc).I robot non riescono nemmeno a classificare le informazioni contenute nei database che sono circa 500 volte la parte html.Ed a rendere le cose ancora piu' difficili, ormai tutti i siti piu' moderni pubblicano pagine HTML a partire da un database ed anche queste sono impossibili da classificare.
Cosi' come non sono classificati documenti html presenti su grossi siti che forniscono notizie come Repubblica, Cnn, TimeWarner,etc... Questi siti proibiscono l'accesso dei robot al loro materiale. Ad essi vanno aggiunti anche le principali case editrici che pubblicano riviste scientifiche e che, nonostante producano sempre piu' spesso versioni online delle riviste cartacee, permettono l'accesso ad esse solo agli abbonati.
I messaggi ai gruppi di discussioni e le notizie di agenzia piu' recenti sono classificate a parte da qualche motore di ricerca.
Materiali non classificati,come ad esempio i documenti pdf, possono essere sempre ritrovati se sono attaccati a una pagina Web classificata. In questo modo funziona la ricerca su questi materiali particolari possibile ad esempio su Altavista e Hotbot.
Tutti i magnifici 9 lavorano a livello mondiale . Una selezione geografica del materiale e' possibile almeno su 2 di essi (Google e Hotbot) e Google permette anche la selezione della lingua ed ha un servizio di traduzione. Esistono servizi di ricerca regionali (a livello per esempio europeo o italiano) ma al momento attuale, anche se vanno considerati per una ricerca a tappeto, sono peggiori dei servizi mondiali.Altri servizi di ricerca sono invece specializzati in alcuni settori particolari. Questi sono listati da particolari siti riportati nella riga "Databases" del tabellone:ad esempio da "The BigHub".La maggioranza dei servizi in questa categoria si limitano a catalogare database online che possono essere ricercate (catalogano gli indirizzi non il contenuto!) e in questo modo permettono di accedere a quel Web invisibile che e' ormai centinaia di volte piu' grande di quello visibile. Solo un decimo dell'informazione di questi database e' a pagamento e corrisponde ai servizi online tipo Lexis-Nexis esistenti da molto prima del Web.
Vanno menzionati anche i servizi di ricerca in parallelo che non catalogano la rete e non hanno un data base proprio, ma si limitano a smistare la vostra domanda a piu' motori insieme , ritornando un'unica pagina di risultati dopo aver eliminato i doppioni.Questi vengono chiamati anche meta motori.
Ormai solo Google classifica i messaggi mandati ai newsgroups ed inoltre,avendo acquistato l'archivio di Deja, ha i messaggi di oltre dieci anni.
I principali servizi classificano anche notizie(le piu' recenti provenienti da agenzie) e potete fare ricerche tra di esse. Ma alcune grandi testate come Time/Warner permettono di cercare negli ultimi anni delle loro pubblicazioni. Quasi sempre il servizio e' disponibile solo a pagamento.
Man mano che elenchi telefonici e pagine gialle vanno online, e' possibile ritrovare in rete le stesse informazioni ottenibili su carta ma per tutte le nazioni e con possibilita' per esempio, anche di avere la mappa della zona dell'indirizzo cercato. Ci sono inoltre cataloghi di indirizzi di posta elettronica e cataloghi di software scaricabile via rete.
Rilevanti per l'INFN sono infine i depositi di lavori di ricerca, non classificati dai motori di ricerca, che per alcuni campi particolari come appunto la Fisica delle Alte Energie, contengono quasi tutto cio' che viene scritto e lo rendono disponibile ancor prima che sia pubblicato. Questi hanno motori di ricerca propri.
Un campo a parte sono i cataloghi di librerie e biblioteche disponibili anch'essi online.
Quindi,in conclusione, volendo dare un quadro completo di cio' che e' disponibile online su un particolare argomento , occorrerebbe dare:
Una tale lista dettagliata viene chiamata trailblazer page o
pagina guida sull'argomento e di solito viene scritta e aggiornata da
qualche esperto. Nel fare una ricerca , dovreste come prima cosa cercare
di trovare una tale pagina. Questo risolverebbe tutti i vostri problemi.
Come si fa? Basta trovare l'url di qualche pagina Web fondamentale
per l'argomento dato. Dopodiche' ,usando una richiesta
particolare, (su Altavista e' link:url) richiedete tutti i documenti
che hanno attaccata quella pagina. Se una trailblazer page esiste,
sara' tra quelle tornate da questa ricerca.
Protezione da hacker,etc...
Per comprendere in maniera corretta il problema posto da Internet bisogna
considerare che Internet e' fatta da persone. E' come essere insieme
nella stessa piazza con milioni di sconosciuti: e' probabile che con alcune
di queste persone preferireste non avere a che fare.
Per valutare la pericolosita' di Internet per i minori, bisogna considerare che non e' una specie di televisione dove potete solo guardare, ma e' un sistema di comunicazione completo che permette ad estranei di contattarvi. Per questo si danno ai minori questi consigli. Potete,se volete, pensare ad Internet come a un nuovo quartiere della vostra citta': mandereste i vostri figli da soli in un nuovo quartiere ,o non sarebbe raccomandabile almeno le prime volte andare assieme, per rendersi conto dei possibili pericoli?
Anche agli adulti e' consigliabile tenere informazioni che permettano di contattarvi riservate. Questo serve non solo a proteggere la nostra privacy ma anche ad ostacolare pratiche fastidiose come l'invio di messaggi non richiesti.
Bisogna tener conto anche di problemi legati alla possibile
intrusioni di hackers.
Quando siete collegati a Internet, anche con un modem da casa, il vostro
computer ha tutte le possibilita' di comunicare di un qualsiasi altro computer collegato a Internet.Questo fatto puo' essere sfruttato dagli hacker con l'uso
di speciali programmi detti cavalli di Troia.Un cavallo di Troia
infetta il vostro computer come un programma virus magari attaccato a qualche
gioco su un dischetto e quindi non necessariamente caricato dalla rete, pero' a differenza del virus non fa nessun tentativo di
moltiplicarsi e di nuocere al computer. Invece sta li tranquillo aspettando
che vi colleghiate a Internet. Quando vi collegate, usa magari ICQ o qualche
altro mezzo di comunicazione, per avvisare l'hacker che il computer e' online.
A questo punto l'hacker puo' usare il programma per spiare quello che fate
col computer e ,se vuole, puo' anche farvi degli scherzi piu' o meno spiacevoli
tipo cancellare file,etc... Insomma,finche siete collegati a Internet e ,senza
che voi lo sappiate, questo programma gira,l'altro puo' pilotare il vostro
computer. Se vi accorgete del problema tutto puo' risolversi con la cancellazione del programma, ma non e' facile accorgersi della cosa, almeno per un normale
utente(quanti programmi girano sul vostro computer adesso? decine: e di quanti sapete cosa fanno?). A questo indirizzo trovate maggiori notizie, assieme a dei link che possono aiutarvi a diagnosticare il problema. Questi funzionano sfruttando la "porta" usata dal cavallo
di Troia, se vedono che e' "aperta" allora vuol dire che questo e' attivo.
Un'altro scherzo spiacevole che potrebbe farvi un programma scaricato dalla
rete, potrebbe essere quello di pilotare il modem, disconnetendolo dal provider
e connettendolo a un numero magari oltreoceano. Vi ritrovereste cosi' con una
bolletta telefonica astronomica. Anche qui l'unico consiglio e' di non installare programmi provenienti da siti che potrebbero essere inaffidabili.
Infine e' bene ricordare come
risulta da questo Internet hoaxes che l'idea che leggere un particolare mail possa infettare il
nostro computer e' solo uno scherzo che viene tentato con successo
con tutti i principianti.Non si puo' prendere un virus leggendo
un semplice testo, sia questo un mail, una pagina Web o un messaggio a
un gruppo di interesse. Questo purtroppo non si puo' dire se state usando software Microsoft per leggere posta o navigare in rete:il software Microsoft
puo' infettare il vostro computer automaticamente solo leggendo alcuni mail infetti o pagine Web infettate.Questo e' dovuto alle debolezze di questi programmi
sfruttati da virus/worm come il NIMDA. Si puo' prendere un virus anche leggendo un documento Word(a causa dei macrovirus) oppure eseguendo un programma attaccato a un mail ,un messaggio o una pagina Web.
In effetti sta diventando sempre piu' chiaro che uno dei modi migliori per proteggersi dagli hacker e' quello di non usare programmi Microsoft(o perlomeno di limitarne l'uso al minimo indispensabile). Questo non perche' questi programmi siano "cattivi" ma proprio perche' sono buoni ed hanno il quasi monopolio del mercato. Cosi' come succede nella evoluzione animale dove la selezione di razze animali troppo perfette produce ceppi fragili che possono facilmente perire per qualche nuovo virus, cosi' i programmi Microsoft si stanno dimostrando sempre piu' vulnerabili ai nuovi virus di rete. Inoltre il quasi monopolio del browser potrebbe essere una tentazione troppo forte per pratiche al limite dell'illegalita' (immaginate la tentazione di un padrone di reti televisive che ha anche il monopolio dei televisori, di "adattare" i televisori in modo da favorire le proprie reti).
Parlando di scherzi o meglio di tentativi di truffa bisogna ricordare quello di richiedere con qualche pretesto la password.
Sempre riguardo la sicurezza, gli applet Java si sono dimostrati finora sicuri. Meno i controlli Activex. Sia gli applet che gli Activex sono programmi caricati via rete ed eseguiti sul vostro computer. Volendo potete disabilitarli, configurando il navigatore in modo da non eseguirli. Cosi' come potete disabilitare i cookies che sono piccoli file scritti sul vostro disco quando navigate in alcuni siti. Questi permettono al server remoto di ricordarsi che voi siete stati gia' prima a visitarli e sono essenziali per alcune applicazioni Web come giochi online(per ricordare a che punto del gioco siete) o commercio online(cosa avete ordinato finora?).
Un server Web infatti, scorda tutto di voi una volta che ha inviato cio' che gli avete chiesto( cosi' e' il protocollo). Pero' esso annota ogni richiesta in speciali file detti log files. Percio' e' possibile ricostruire da questi log files tutti i posti dove siete stati. In generale dovete sapere che ogni uso della rete potrebbe essere registrato.
Altri problemi riguardo la rete sono legati alla facilita' con cui potete copiare materiali online includendoli magari nei documenti che pubblicate. Ebbene,il copyright esiste anche in rete, e se ad esempio prendete un'immagine da un altro documento e volete inserirla in una vostra pagina Web pubblica, allora dovete chiedere il permesso al proprietario.
Sempre riguardo al copyright, un discorso diverso va fatto rispetto alla
possibilita' di scambiarsi files contenenti musica(mp3) o altro materiale
con copyright attraverso servizi cosiddetti P2P(peer to peer:da collega a collega) tipo Napster o Gnutella.
Qui la cosa e' identica allo scambio tra amici di un libro o un CD. Solo
che attraverso Internet e' possibile scambiarsi il materiale con milioni
di "amici"!Dato che,come abbiamo detto, su Internet ogni computer ha la possibilita' di fornire qualsiasi servizio, incluso quello di rendere files condivisibili con altri, non c'e' nulla che possa impedire questo scambio di materiali.
Anzi questo problema diventera' critico quando tutti gli utenti Internet
avranno la possibilita' di avere un collegamento a larga banda 24/24. A quel
punto ogni materiale che e' possibile caricare in maniera digitale sul computer
(DVD,CD musicali,programmi,giochi,etc) sara' condivisibile e quindi "gratis".
Come sara' risolto il problema? Per ora non si sa.
Comunicazione su Internet:non solo mail
Man mano che le capacita' di comunicazione di Internet miglioreranno
assisteremo alla nascita di modi di comunicazione sempre piu' sofisticati.
Se adesso la comunicazione in tempo reale via testo e' cosa normale attraverso
i chat e le buddy lists come ICQ, modalita' piu' avanzate di trasmissione si possono sperimentare con i videogiochi via rete,le telefonate via Internet e le videoconferenze.
Nonostante la crescita impressionante del numero di utilizzatori di Internet,che faceva prevedere il collasso della stessa,la velocita' dei collegamenti
non solo non e' diminuita ma e' in costante miglioramento. Tutto al momento attuale fa presagire che tale tendenza continuera' ,con la
possibilita' in pochi anni di avere collegamenti almeno 10/100 volte migliori di quelli attuali. Come mai? Perche' a questo non ci sono ostacoli tecnici (vedi
uso di fibre ottiche,tecnologia ASDL su cavi telefonici normali e uso di satelliti)
e perche' le esigenze del commercio online spingono in maniera inesorabile
in questa direzione.
Un Web sempre piu' interattivo e multimediale
Un ipertesto HTML non e' altro che un semplice testo
con dei comandi inframmezzati(i tag HTML racchiusi tra parentesi angolari <>) che permettono di formattarlo,indicando ad esempio, che una
frase va scritta con un font grande perche' si tratta di un titolo.
Certo,avete delle immagini, ma il massimo dell'interattivita' consiste nel cliccare su un link saltando ad un altro documento.
Sin dai primi anni del Web si e' sentita la necessita' di permettere la trasmissione via rete di materiali sempre piu' multimediali e interattivi, simili a quelli che ora trovate su CD-ROM e videogiochi, per sfruttare appieno le possibilita' offerte dalle moderne macchine.
Per quale ragione questi materiali ora cosi' comuni non dovrebbero essere disponibili via rete? Il problema e' il seguente:per trasferire questi materiali occorre trasferire dei programmi di computer. Ma trasferire un programma invece di un semplice documento, tra 2 computer via rete, comporta 2 problemi:
Questo problema e' stato risolto nell'arco di alcuni anni da 4 diverse tecnologie:
I CGI script sono quelli che usate quando interrogate un motore di ricerca. Fate una richiesta che inviate a un computer magari in California, dove parte un programma (il CGI script appunto) che esamina la vostra richiesta e per rispondere prepara un html con il risultato. L'html non esisteva prima ed e' stato preparato a volo dallo script(script in inglese significa copione ed e' un altro modo di chiamare i programmi di computer) usando il protocollo CGI.
Qui esempi e altre informazioni sui CGI script.
Il programma in questo caso gira sul computer remoto(il server) , cio' che risolve i 2 problemi prima visti della compatibilita' e dei virus, ma ne crea degli altri.
Immaginate di voler far ruotare un oggetto 3D sul vostro computer.Indicate nel modulo di richiesta la rotazione ,la inviate al computer remoto , questo calcola l'immagine ruotata e la ritorna indietro. Ora immaginate che 1000 persone facciano la stessa cosa assieme: il risultato e' che avete intasato la rete, il computer remoto va in tilt mentre il vostro computer , che potrebbe senza problemi far ruotare l'immagine, e' fermo ad aspettare senza fare niente.
Con i plugin , il problema viene risolto dal browser che apre nel documento una finestra e al suo interno fa girare un particolare programma(il plugin che come uno spinotto si inserisce nella finestra) che viene caricato una volta per tutte.
Questi plugin permettono di leggere documenti non html come Acrobat Reader che visualizza i pdf. Ma anche materiali interattivi e multimediali come Cosmo Player che permette di esplorare mondi virtuali 3D simili a quelli di videogiochi tipo Quake oppure Shockwave per i materiali prodotti con Flash della Macromedia. Quasi tutti i plugin sono fatte da grandi case di software che li forniscono gratis garantendone anche la sicurezza.
Il problema coi plugin e' che la loro installazione e' fastidiosa e crea talvolta problemi. Inoltre per produrre questi materiali dovete acquistare programmi relativamente costosi come Director(ma questo non e' sempre vero:ad esempio per produrre animazioni Flash sono ormai disponibili anche programmi gratis). In ogni caso alcuni tipi di materiali su Internet ormai sono cosi' numerosi che vale la pena perdere un po' di tempo per caricare i relativi programmi. In particolare ormai i seguenti plugin sono "obbligatori"(di questi alcuni sono gia' preinstallati nel browser):
La terza soluzione e' simile ai plugin: il navigatore apre una finestra ma ad eseguire al suo interno e' un applet Java cioe' un programma scritto apposta per la rete nel linguaggio Java.
Java e' un linguaggio di programmazione simile a C++ ,prodotto dalla Sun. Ma perche' gli applet sono scritti in Java e non in C++ o VB ? Per 3 motivi particolari. Il primo e' che e' gratis. Il linguaggio Java e' stato donato dalla Sun a Internet e dal sito della Sun potete scaricare tutto cio' che vi occorre. Il secondo motivo e' che un programma Java e' compatibile con qualsiasi computer. Il terzo e' che un applet e' sicuro.
Come un applet riesce ad essere compatibile e sicuro dipende dal fatto che il programma Java non viene preparato (o compilato come si dice in gergo) per un computer particolare, ma per un computer generico: la Macchina Virtuale Java. E' il programma per questa macchina che viene caricato sul vostro computer. A differenza dei programmi normali che si impossessano della CPU e possono combinare guai se contengono un virus, l'applet Java viene messo come un bambino irrequieto in un box (una sand box ) . Da qui, un particolare programma presente nel Navigatore, e chiamato interprete provvede a leggere le istruzioni una a una e ad eseguirle sul vostro computer. Nel fare questo, si accerta che non venga fatto alcun danno.
Purtroppo per scrivere un applet occorre essere un programmatore. Pero' volendo potete decorare la vostra pagina con applet scritte da altre persone, includendo l'applet all'incirca come fareste con un'immagine.
Maggiori approfondimenti su Java
Essendo Java un linguaggio di programmazione moderno, e' anch'esso ad oggetti: cioe' descrive tutto cio' che gli serve per trattare un particolare problema come una collezione di oggetti. Cosi' all'interno della finestra dove gira l'applet ogni cosa e' un oggetto. L'idea di base della soluzione DHTML o HTML dinamico e' di trasformare tutto il documento in un'applet dove ogni cosa e' un oggetto manipolabile. Cosi' l'HTML passa da essere un linguaggio di formattazione a linguaggio di programmazione coi documenti che diventano programmi.
Il DHTML si basa su tre nuove tecnologie che si aggiungono all'HTML:
Maggiori informazioni sul DHTML
Per concludere infine cos'e' questo XML di cui si parla tanto e perche' non e' il caso (almeno per adesso) di preoccuparsene.