AltaVista | MSN | Lycos | Teoma | AllTheWeb | Yahoo | ||
Dimensione (milioni) | 1500 | 1000 | 2000 | 1500 | 2000 | 4280 | 3000 |
Tipo | Automatico | Automatico | Automatico | Automatico | Automatico | Automatico | Automatico |
Catalogo | Looksmart | LookSmart | SI (a2z) | NO | NO | Open Directory | SI |
AND | + AND | + AND | spazio Form | spazio | spazio spazio + | spazio | Form |
OR | spazio OR | spazio OR | Form | OR | Form | OR | Form |
NOT | - AND NOT | - AND NOT | Form | - | - | - | - |
Frase | "..." | "..." | NO | "..." | "..." | Scrivere la frase inserendo + davanti alle "stopword" | "..." |
Vicinanza | NEAR | NO | NO | NO | NO | NO | NO |
Varianti | * | NO | NO | NO | NO | "parola * parola" | * |
Maiuscole | SI | SI | NO | NO | NO | NO | NO |
Ricerca parziale | anchor: domain: applet: host: image: link: text: title: url: | title link | NO | Form intitle: inurl: site: geoloc: | link: filetype: site: inurl: allinurl: intitle: allintitle: intext: inanchor: | t: u: | |
Estrazione di concetti | Refine | NO | NO | Refine Resources | NO | GoogleScout | NO |
Usenet | newsgroups: from: subject: summary: keywords | NO | NO | NO | NO | SI | NO |
Commenti | Appartiene a Yahoo | Usa il database Inktomi (Inktomi appartiene a Yahoo) | Usa come AlltheWeb il database FAST | Associato a Ask Jeves | Usa come Lycos il database FAST Appartiene a Yahoo | Yahoo ha cominciato a fornire risultati con un proprio database a Febbraio 2004 |
Prima di cominciare ...
- Ricerche generiche
- Ricerche specializzate
- Cerca mentre navighi!
- Se non avete una meta precisa
- Semaforo rosso,semaforo verde
- Pubblicare su Internet al tempo dei robot
- Non credere a niente di quello che trovi!
- Miti sulla ricerca in rete
- Motori di ricerca come oracolo?
- Il futuro dei motori di ricerca
- Il Web invisibile
- L'informazione su Internet spiegata in 10 righe ai principianti
La rete e' enorme e cresce sempre di piu'. E' lenta. Cambia in continuazione.
Gli indirizzi cambiano in continuazione. Un documento che ieri si leggeva
senza problemi, oggi e' di difficile accesso o viceversa.
I consigli validi per chi
accede a Internet da Milano non valgono per chi accede da Bari, etc,etc
Tenete conto di questo,prima di leggere i consigli che seguono.
Ricerche generiche
Avete bisogno di un'informazione,di un documento, di un programma, di contattare una persona esperta in un dato campo,etc...Internet e' il posto migliore dove cercare. Inoltre col rapido sviluppo di servizi commerciali, comincia ad essere possibile comprare via Internet. Il problema e' avere l'indirizzo giusto. Questo non sempre e' facile ma per fortuna Internet mette a disposizione degli strumenti per facilitare la ricerca. Vengono suggeriti nove approcci possibili alla ricerca di informazioni in rete:
- Servizi di ricerca (e' come chiedere a un bibliotecario di trovare un libro su un argomento che vi interessa).Tenete conto che esistono servizi di ricerca generici e servizi specializzati.
- Classificazioni sistematiche per soggetto (che ne dite di guardare voi stessi il catalogo della biblioteca).
- Partendo dai newsgroups e dalle relative FAQ (che ne dite di seguire per un po' le discussioni degli esperti nel campo e ascoltare i loro consigli ai principianti?)
- Alcune testate giornalistiche o gruppi editoriali rendono accessibili i loro articoli per fare delle ricerche.Questo puo' essere un ottimo punto di partenza in alcuni casi.Attenzione,spesso questi servizi sono a pagamento!
- Cerca l'esperto! Singoli individui o organizzazioni interessate al campo della vostra ricerca possono creare delle ottime documentazioni sul materiale in rete sull'argomento. Un modo per trovare questi documenti di solito collegati alla home page della persona o dell'organizzazione e' quello di usare la possibilita' offerta da alcuni servizi di cercare pagine con una data URL. In AltaVista si usa la parola chiave link:. Le pagine con un link a un sito rilevante per il vostro campo di ricerca, contengono con molta probabilita' altri link interessanti sullo stesso campo.
- Costruisci tu stesso la URL del sito che contiene la risposta! Nel dare i nomi ai computers vengono seguite certe regole che puoi applicare nel costruire l'URL. Eccone alcune:
- Una multinazionale xxx ha un server dal nome www.xxx.com
- L'universita' statunitense xxx ha un server www.xxx.edu
- l'organizzazione governativa statunitense xxx sara': www.xxx.gov
- Una universita' italiana nella citta' di sigla AA ha il server www.uniAA.it - il suo dipartimento di matematica sara' www.dm.uniAA.it
- Una ditta italiana di nome xxx sara' www.xxx.it
- L'utente rossi che lavora sul computer yyy.xxx.it ha una home page di indirizzo http://www.xxx.it/~rossi/
- Consulta l'equivalente in rete dei testi di consultazione tipo dizionari ed enciclopedie: ad esempio l'enciclopedia Britannica e' online.
- Consulta un servizio di database a pagamento.
- Consulta i cataloghi di biblioteche e librerie.
Servizi di ricerca
Molti di questi servizi sono collegati a (tentativi) di classificazione sistematica manuale (cioe' fatta da persone) di tutto il materiale su Internet. Il piu' famoso di questi e' Yahoo.
Invece altri servizi di ricerca non sono legati a classificazioni sistematiche ma a "robot" di ricerca cioe' speciali programmi di computer che esaminano in continuazione tutti i siti di Internet, seguendo in maniera sistematica gli hyperlink. Alta Vista e' uno di questi.Di solito i servizi di ricerca del primo tipo ritornano meno documenti ma questi sono piu' rilevanti. I servizi di ricerca basati su robot ritornano spesso molti documenti irrilevanti.Inoltre data l'impossibilita' di poter classificare manualmente tutto il materiale in rete,alcuni servizi come Infoseek usano ambedue i metodi di classificazione.
Alcuni consigli sull'utilizzo di questi servizi:
- Dato che ognuno usa metodi diversi e ha una diversa base di documenti conviene usarli tutti partendo da quelli piu' veloci.
- Se il numero di documenti ritornati e' enorme, imparate a raffinare la ricerca richiedendo ad esempio la presenza contemporanea di piu' di una parola.
- Alcuni di questi servizi ritornano questi documenti in ordine di rilevanza, per cui anche se il numero dei documenti e' enorme e' possibile che quelli buoni siano tra i primi.
- Leggete le istruzioni su come usare il servizio;queste cambiano da servizio a servizio e vi possono essere utili per restringere la ricerca.
- Usando un particolare servizio cercate di classificarlo(prima dell'indice in questo documento,trovate una classificazione dei principali servizi) chiedendovi:
- Come avviene la raccolta dati(in maniera automatica, manuale o ambedue)?
- Quale parte di Internet e' stata classificata?(Web,articoli di riviste,newsgroups...)
- Quale percentuale di Internet ha classificato?
- Ogni quanto tempo i link sono verificati(per tener conto di siti che non esistono piu') e la ricerca e' rifatta?
- Come viene fatta la ricerca?
- Come vengono ordinati i documenti in risposta alla vostra domanda(ogni motore di ricerca usa una sua ricetta particolare e da questa dipende se i documenti piu' rilevanti appariranno o no nelle prime pagine)?
- Quali operatori e' possibile usare?
- Se si scrivono piu' parole, il motore cerca i documenti che contengono tutte le parole o solo una?Ci sono parole che il motore elimina automaticamente dalla ricerca perche' troppo comuni(stop words)?
- E' possibile limitare la ricerca solo ad alcune parti di un documento?(titolo,hyperlinks,etc)
- Qual'e' la dimensione massima oltre la quale il documento non viene classificato tutto?
- Il motore di ricerca include anche i risultati da un catalogo?
- Una volta trovato un documento utile,e' possibile avere una lista di documenti simili?Oppure una lista di parole chiavi che possono essere utili per restringere la ricerca? (Questo aiuto da parte del motore si basa di solito su tecniche di intelligenza artificiale che permettono di estrarre dei "concetti" dai documenti e di classificarli in qualche modo).
- E' possibile avere una vista piu' ad alto livello dei documenti trovati (talvolta migliaia) magari raggruppati ad albero per sito?
- E' possibile cercare materiale non in formato testo (applet,immagini, multimedia,etc)?
Classificazioni sistematiche(Cataloghi)
Alcuni servizi di ricerca (per lo piu' del tipo a classificazione manuale) oltre a permettere la ricerca, hanno delle classificazioni sistematiche che e' possibile scorrere come il catalogo di una biblioteca.Si tratta degli indici o repertori (directory in inglese).
Il piu' famoso catalogo e' Yahoo che e' anche il servizio di ricerca piu' usato di Internet. Altre classificazioni non si propongono di essere sistematiche ma solo di fornire una lista di ottimi "punti di partenza" per le proprie esplorazioni. Sono quelle indicate come Starting Points nel tabellone. In questo caso si hanno anche delle brevi recensioni dei siti scelti.Newsgroups e FAQ
Un'enorme serbatoio di informazioni sono i Newsgroups di USENET Ci sono gruppi di discussione su ogni possibile argomento. Parecchi gruppi mantengono una FAQ o lista di domande frequenti con risposta. Questi documenti vengono impostati al gruppo con regolarita'(ogni settimana o mese di solito). Qui e' l'accesso a tutte le FAQ di Usenet Vedi anche il newsgroup news.answers contenente le FAQ piu' recenti uscite sulla rete. Mandando un intervento al gruppo con richiesta di aiuto,si ottiene entro poche ore una risposta da esperti del campo in tutto il mondo. A partire dai newsgroups si possono avere informazioni sulle mailing lists esistenti per vari argomenti e alle quali ci si puo' abbonare.(Una mailing list e' come un newsgroup solo che e' necessario iscriversi e i vari interventi sono mandati a un singolo computer che provvede a spedirli alle persone iscritte all lista). Altri servizi di ricerca come Google vi permettono di cercare in tutti i messaggi spediti ai Newsgroups in un certo periodo di tempo. Google permette anche di leggere i newsgroups ed ha anche un servizio che vi permette di trovare il gruppo piu' appropriato per un certo argomento.Invece per cercare una mailing list di vostro interesse potreste cominciare da questa lista di mailing lists italiane dove troverete anche una serie di link su altre fonti di informazione.
Un'alternativa ai newsgroups e alle mailing lists stanno diventando i Web Forum, cioe' siti Web che permettono ai visitatori di lasciare messaggi su argomenti predefiniti e di accedere ai messaggi lasciati da altri visitatori.Reference.com ha una lista dei principali forum che uno puo' ricercare per scegliere il Forum che gli interessa. Di solito i messaggi ai forum sono disponibili sul sito e possono essere trovati con una normale ricerca a un motore come AltaVista.
Metamotori
I metamotori di ricerca come Profusion , non hanno un loro database ma mandano la vostra richiesta a piu' motori nello stesso tempo e poi provvedono a inviarvi i risultati di solito dopo aver eliminato i doppioni. Anche se stanno migliorando col tempo, per adesso hanno molte limitazioni(ad esempio si limitano ai primi risultati) e possono servire per una prima ricerca superficiale.Accesso a databases online
Databases online (per lo piu' a pagamento) esistono da decine d'anni.Alcuni servizi di ricerca ora propongono oltre all'accesso gratis al Web e Newsgroup anche la possibilita' di accedere a questi Database a pagamento. Una visita a questi servizi vi dara' un'idea di cosa e' disponibile (sono centinaia di basi di dati sugli argomenti piu' diversi). Talvolta la ricerca e' gratis, cosi' pagate solo se sono stati trovati documenti utili e volete ordinarli.
I servizi piu' famosi in questo campo sono Dialog, Dow Jones Interactive e Lexis-Nexis.In alcuni casi eccezionali (ad es. database Medline) l'accesso e' gratis. L'uso di questi servizi e' essenziale se volete estendere la ricerca a materiale degli ultimi decenni prima della nascita del Web.
In questa categoria vanno inclusi anche i motori di ricerca specializzati che classificano solo il materiale Web in un settore specifico. Spesso questi motori sono collegati a singoli database e vengono usati quando il materiale da mettere online e' troppo grande per essere servito da singole pagine Web. Il numero e la grandezza di questi database (che sono solo marginalmente classificati dai motori di ricerca generali) e' ormai a livelli di decine o addirittura centinaia di volte piu' grandi del Web "visibile" .Questi database e i motori specializzati sono listati da alcuni siti come "Complete Planet" . Essi diventeranno sempre piu' importanti man mano che il materiale online aumenta .Purtroppo il loro materiale e' difficilmente classificabile in quanto la sua estrazione richiede una ricerca con parole chiavi. Solo l'uso di un agente (programma specializzato) che conosca bene cio' che ci interessa puo' aiutarci a estrarre il materiale disponibile in questi database.Questi database sono la componente essenziale del Web invisibile.
Persone
Stanno nascendo dei servizi di registrazione e ricerca di persone con indirizzi di posta elettronica;provate ad esempio Yahoo People Search. Gli elenchi telefonici intanto stanno a poco a poco andando in rete.Quello italiano e' su Virgilio e (in una versione piu' vecchia) su Infospace. Yahoo ha una lista aggiornata sotto Reference:White Pages Questi servizi di ricerca danno le stesse informazioni di un elenco telefonico.Conviene in ogni caso usare anche i servizi di ricerca generici prima visti specificando il nome della persona. Da notare che se la persona cercata scrive ai Newsgroups,allora potrete cercare di trovare i messaggi scritti negli ultimi tempi, usando servizi come Google.
Infine se conoscete il computer dove la persona lavora allora potete usare finger per avere maggiori informazioni. Ad esempio:
finger @computer.name vi da tutti gli utenti che stanno lavorando finger username@computer.name vi dice cosa sta facendo l'utente usernameCommercio
Man mano che la parte commerciale di Internet cresce, stanno sorgendo sempre piu' siti specializzati nella catalogazione di siti commerciali sull'esempio delle Pagine Gialle telefoniche che a loro volta stanno andando online.Software
La ricerca di software o in generale di files viene assicurato da servizi Web come shareware.com.Multimedia e applet
Cominciano ad apparire cataloghi specializzati di suoni,immagini,applet e altri materiali multimediali come Gamelan. Molti servizi generici favoriscono la ricerca di questo materiale che non contenendo testo non e' indicizzabile direttamente. Ad esempio Hotbot permette di selezionare il "media type".Cercare citta'
Per cercare una citta' o in generale un luogo geografico partite dalla classificazione geografica di Yahoo.Alcuni motori di ricerca permettono di restringere la ricerca a un particolare dominio(Hotbot e Google).Quasi tutti classificano i documenti anche per linguaggio .
Ricerche in Italia ed Europa
Al momento attuale non esistono servizi di ricerca italiani paragonabili a quelli nordamericani, anche per le ricerche di documenti italiani. Alcuni servizi di ricerca nordamericani come AltaVista e HotBot inoltre permettono di restringere la ricerca ai server italiani. Detto questo,occorre aggiungere che in alcuni casi particolari i servizi italiani possono essere molto utili, e in ogni caso vanno usati se si vuole procedere a una ricerca a tappeto.Anche altre nazioni europee hanno servizi locali di ricerca. Questi non vanno confusi con le versioni in lingua straniera di alcuni dei principali servizi nordamericani.Questi sono quasi sempre dei mirror con gli stessi documenti indicizzati del sito origine.Ricerche sui giornali
Alcune testate hanno le ultime annate online con la possibilita' di fare ricerche nel testo degli articoli.
La ricerca in rete non si limita all'uso dei motori di ricerca, ma si stanno sviluppando delle nuove tecniche che cercano di fare a meno dei motori integrando la ricerca nel browser. Ecco alcune delle nuove tecniche:
- Netscape 4.5 ha un pulsante "Whats related" che permette di accedere a un database creato da Alexa che fornisce una serie di siti correlati a quello che si sta visitando. I servizi di Alexa si possono usare anche con un programma a parte, e in tal caso, mentre si naviga si possono avere altre interessanti informazioni sul sito che si guarda come popolarita' e facilita' di accesso.
- Esistono migliaia di siti in rete che,essendo sullo stesso argomento, sono collegati in un Webring e possono essere visitati uno a uno oppure in maniera random.Webring fornisce un catalogo di queste catene di siti a tema.
- Siti di ricerca persone e grandi organizzazioni talvolta offrono il loro catalogo nel formato LDAP che puo' essere integrato nella rubrica di Netscape. Dopodiche' potete fare la ricerca direttamente dal programma di gestione della posta.
L'equivalente di girare tra gli scaffali senza cercare niente di preciso e' difficile da ottenere in rete data la sua enorme mole e la sua invisibilita'. La cosa piu' vicina e' quella di far scegliere un documento a caso(dal computer) oppure quella di guardare i documenti piu' richiesti in rete. Ecco alcuni suggerimenti: Non solo yahoo ma molti degli altri servizi di ricerca hanno link a documenti random o popolari o anche "cool"(interessanti).
Un'altro modo di esplorare la rete e' quello di partire da una delle innumerevoli personal home pages : alcune di queste sono tra le cose migliori in rete e in ogni caso vi presentano la rete da un punto di vista originale. Da dove cominciare? Dalla lista di personal home pages di Yahoo ad esempio. Cercando tra i messaggi dei Newsgroup. Molti messaggi hanno l'indirizzo dell'home page dell'autore. Potete connettervi a una universita' o altra istituzione e cercare il link alle personal home pages. Dalle organizzazioni che offrono spazio gratis per poter costruire home pages personali come geocities.
Infine un'istituzione Internet sono i weblog dei quali trovate qui una lista in ordine di popolarita'. I Weblog sono specie di diari aggiornati giornalmente dove singoli individui o anche comunita' scrivono cio' che c'e' di nuovo sulla rete in quel giorno. Cioe' delle liste di link commentati e "pubblicati" quasi ogni giorno.
Non c'e' dubbio che cercare sia l'attivita' piu' popolare su Internet. Come mostrano searchterms e metaspy le parole piu' ricercate sono quelle relative al sesso.I motori di ricerca quasi sempre non fanno alcuna censura sul materiale classificato. Questo puo' creare dei problemi se il motore di ricerca e' usato da minori. Per questo alcuni motori forniscono delle versioni per famiglia dei loro cataloghi. Ad esempio AskJeves for kids e Lycos Safety Net.
In passato un articolo,dopo essere stato presentato in maniera piu' o meno informale a colleghi e conferenze, veniva sottoposto a una rivista dove subiva l'esame degli esperti del campo. Veniva pubblicato molti mesi dopo avendo subito spesso molte modifiche. L'autorevolezza dell'articolo dipendeva dalla rivista su cui veniva pubblicato e dal numero di citazioni fatte in seguito ad esso.Adesso un articolo scritto su un computer collegato a Internet con server Web, e' di fatto gia' disponibile a tutta Internet appena salvato su disco. Inoltre con la classificazione automatica fatta da robot, dopo poco tempo esso e' accessibile a tutti senza nemmeno la necessita' che gli facciate pubblicita' mandando mail a colleghi o interventi a newsgroups. Questo processo puo' essere accelerato sottomettendo l'URL dell'articolo per l'inclusione in uno dei servizi di ricerca. In questa operazione puo' esservi utile il servizio Submit-it.
Ecco alcune regole per aiutare i robot a classificare il vostro documento.
Potete scoprire quanto il vostro documento e' popolare contando il numero di accessi ma soprattutto vedendo quanti documenti in rete lo citano attaccandolo con un link. Questo e' anche un modo per stabilire l'autorevolezza di un documento altrui: se una o piu' persone esperte del campo citano il documento,questo con molta probabilita' e' un buon documento.
In alternativa alla scrittura in formato html su server Web, potete "pubblicare" il vostro articolo anche inviandolo a uno degli e-print server (in questo caso il formato sara' postscript o pdf) o anche a uno dei newsgroups di Usenet. Nel primo caso i robot non si accorgono dell'articolo perche' in un formato non indicizzabile,nel secondo caso l'articolo dopo qualche tempo viene quasi sempre cancellato.
Una particolare menzione va fatta al formato pdf (portable document format di Adobe) la cui popolarita' e' dovuta al fatto che permette di avere una copia fedele di un documento cartaceo.Per questo viene usato per creare versioni elettroniche di libri e riviste su carta.
I motori di ricerca non fanno nessun controllo sulla qualita' del materiale classificato. Se,seguendo il consiglio trovato nel risultato di una ricerca, avete dei danni, la colpa e' tutta vostra!Prima di credere a cio' che leggete fate qualche controllo basato sul buon senso:
- Da dove viene l'informazione? Controllate l'autore e l'organizzazione dalla quale proviene.
- Quando e' stata scritta? Controllate la data di aggiornamento.
- Fonti di informazioni autorevoli come giornali o Universita' cosa dicono? Se l'informazione proviene da fonti sconosciute cercate di controllarla con qualche fonte conosciuta e affidabile.
- Piu' l'informazione e' vitale per voi, piu' e' necessario confermarla usando se necessario fonti offline come biblioteche o telefonate ad amici.
Se non avete una buona conoscenza del Web e di come funziona, e' difficile che possiate fare delle ricerche efficaci. In particolare e' importante conoscere le limitazioni di Internet e del Web. Ecco alcune false nozioni su Internet che molti pensano siano vere.Alla vista di questa desolante situazione riguardante la pessima qualita' del materiale in rete e la quantita' modestissima ora disponibile, ci si chiede perche' continuare a usare il Web e non tornare nelle biblioteche. Ci sono due motivi per non fare questo:
- Tutta l'informazione e' online- Purtroppo solo una piccolissima parte dell'informazione disponibile ad esempio nelle biblioteche, e' online.
- Tutta l'informazione online e' gratis - la verita' e' che una quantita' enorme di informazione e' si online ma disponibile solo a pagamento: sono i cosiddetti database che raccolgono e rendono online informazione da oltre venti anni prima del Web.
- I motori di ricerca classificano tutta l'informazione online ottenibile gratis - Almeno 4/5 dei documenti online accessibili ai motori di ricerca non viene classificata perche' inclassificabile(ad esempio materiali pdf, multimediali oppure documenti resi inaccessibili ai motori di ricerca da chi li produce).Il rapporto tra Web invisibile e Web visibile diventa un incredibile 500/1 se si considera tutto il materiale memorizzato nei data base online(vedi in seguito il capitolo sul web invisibile.
- I motori di ricerca classificano tutto il materiale html loro accessibile - Anche questo FALSO. I migliori arrivano al massimo a classificare il 40%. Inoltre se un documento supera una certa dimensione, il resto non viene classificato.
- Se il documento che vi interessa e' stato classificato ,allora puo' essere trovato in pochissimo tempo - Anche questo FALSO : se non avete le parole chiave giuste potete cercare giorni senza ricavare niente.
- Facciamo finta che Internet sia fatta degli scarti delle grandi biblioteche mondiali. Quando fate una ricerca accedete pero' agli scarti ,non di una singola biblioteca, ma di tutte.Questo significa che la possibilita' di trovare materiale utile e' sempre alta.
- Se invece consideriamo Internet come luogo dove accedere non ai documenti originali ma alle cosiddette sorgenti secondarie(bibliografie,riassunti,etc) allora essa e' insuperabile. Non solo avete la possibilita' di accedere ai cataloghi delle maggiori biblioteche, ma essendo Internet fatta da persone(e dai loro messaggi) se un certo materiale e' assolutamente necessario in un certo campo, lo troverete citato in centinaia di pagine.
Data la scarsa rilevanza delle risposte che spesso si ottengono da un motore di ricerca, ci si chiede se l'unico suo uso possibile sia come oracolo: fate una domanda e la risposta (a caso) vi aiuta per decidere cosa fare riguardo al problema della domanda. A parte gli scherzi, e' chiaro che uno dei problemi che devono affrontare i motori di ricerca,oltre a quello di classificare,e' di capire con esattezza cosa vuole chi fa la ricerca. Per questo viene sviluppata una nuova tecnologia gia' disponibile su alcuni motori(Ask Jeves, Alta Vista) che data una domanda (in inglese) espressa nel linguaggio normale cerca di scoprire cosa state cercando e vi risponde in maniera quasi sempre appropriata(I know the answers to these questions...).
I motori di ricerca non riescono a star dietro alla crescita del Web. D'altra parte hanno necessita' di far soldi subito attraendo sempre piu' utenti. Il risultato e' che si stanno trasformando in una specie di parchi di divertimento. Divertenti da usare ma dove le informazioni vengono incluse col solo scopo di attrarre persone. Meglio non fare affidamento su di essi per trovare l'informazione realmente disponibile su Internet.
Questa e' un'affermazione pessimistica sul futuro di questi servizi fatta da qualcuno che io in parte condivido. E' vero che ormai quasi nessuno dei servizi di ricerca maggiori sta piu' seguendo la crescita di Internet, il che significa che sempre piu' materiale non e' classificato e non sappiamo quale criterio viene usato per escluderlo... Sembrerebbe invece che ci sia un miglioramento nella qualita' del materiale trovato (ad es. aggiornamenti piu' frequenti del data base) e un miglioramento dell'interfaccia.
Vedremo...
Un lavoro apparso a Luglio 2000 sul Deep Web ha chiarito un apparente paradosso dello sviluppo del Web.Negli ultimi anni il numero di pagine HTML non e' aumentato di molto dopo l'esplosiva crescita avutasi nel 94-97. In effetti Google con le sue 1.300.000.000 pagine classificate puo' tranquillamente dire di classificare una buona percentuale delle pagine Web. Vero? Si, se per pagine Web si intendono solo quelle statiche, falso se si considerano anche quelle dinamiche provenienti da database.Cio' che e' successo e' che man mano che i siti crescevano sono passati dalle pagine statiche a quelle dinamiche ed ora la parte dinamica di Internet e' cresciuta fino a diventare 500 volte piu' grande di quella statica. Cioe' ormai anche Google, non riesce a classificare piu' di 1/500 di tutto il Web. In questi ultimi anni la crescita esplosiva e' continuata ma prevalentemente nella parte dinamica di Internet.
Questo studio da' per la prima volta un'idea precisa del fenomeno e permette anche di misurare la parte gratis di Internet rispetto a quella a pagamento dei "vecchi" database online che esistono da decine di anni. Ebbene siamo a livelli di terabyte se non petabyte.
Prima di cominciare a vedere le cifre diciamo che un CD e' grosso modo 1 gigabyte. Un Terabyte e' 1000 Gigabyte e quindi 1000 CD. Un petabyte e' un milione di CD! A Luglio 2000 tutte le pagine HTML del Web potevano essere 1 miliardo corrispondenti a 19.000 CD . Contemporaneamente la parte invisibile del Web (perche' non classificabile) e' stata stimata essere 500 volte tanto (7.500.000 CD).Essa e' di qualita' molto migliore del Web visibile ed inoltre per il 95% gratis. Ed essa cresce molto di piu' del Web visibile.
Nel lavoro citato viene mostrato come un campione di 60 di questi siti "invisibili" rappresentano 750.000 CD di cui 75.000 (1 decimo) sono a pagamento. Il sito "invisibile" piu' grosso contiene dati climatici della NASA ed e' 366.000 CD! Invece il famoso Lexis-Nexis e' 30.000 CD.
Come si fa a trovare questo Web invisibile e come si presenta? Ad esempio come una biblioteca digitale che fornisce oltre 1000 testi online, ma se voi cercate su Google le parole presenti in questi 1000 testi non troverete nessuna traccia della biblioteca! Le 3 maggiori componenti di questo Web invisibile sono nell'ordine:
- data base su un argomento particolare
- megasiti solo parzialmente classificati dai motori di ricerca(es. Cern):questa parziale classificazione puo' avvenire per svariati motivi come sito con pagine dinamiche, sito che non permette la classificazione delle proprie pagine o ancora la classificazione del motore di ricerca si ferma dopo 2 o 3 livelli.
- siti contenenti pubblicazioni online
Comunque alcuni servizi di ricerca (qui classificati nella riga Database ) provvedono per lo meno a classificare i nomi (non i contenuti) dei maggiori siti invisibili creando dei cataloghi di database suddivisi per argomento.
L'informazione su Internet di solito risiede su un certo numero di computers detti server (fornitori di informazione). A seconda di come forniscono l'informazione abbiamo server ftp e web . Da notare che la stessa informazione puo' essere fornita in tutti e due i modi e uno stesso computer puo' fare da server ftp e web. L'insieme dei server ftp e web e' tutta l'informazione "statica" disponibile su Internet. I newsgroups invece viaggiano su un gruppo di computers chiamato Usenet con i messaggi piu' vecchi cancellati periodicamente. Infine le mailing lists sono gestite da singoli computers. Per dare un'idea: in Italia all'inizio del 2001 c'erano almeno 1.600.000 computers collegati a Internet di cui forse solo 300.000 fornitori di informazioni o server Web, qualche migliaio di server ftp e qualche centinaio circa facenti parte di Usenet.
Per una descrizione piu' dettagliata della rete guardate questra Introduzione al Web e ai suoi motori di ricerca.
Infine per chi non riesce a seguire il gergo,e' disponibile un glossario dei termini tecnici.
Ultimo aggiornamento: