Un motore
di ricerca è un sistema automatico
che analizza un insieme di dati spesso da
lui stesso raccolti e restituisce un indice
dei contenuti disponibili classificandoli
in base a formule matematiche che ne indichino
il grado di rilevanza data una determinata
chiave di ricerca.
Uno
dei campi in cui i motori di ricerca trovano
maggiore utilizzo è quello del web.
Esistono
molti motori di ricerca nel web, dei quali
quello attualmente più utilizzato su
scala mondiale (con un indice che supera gli
8 miliardi di pagine) è Google [1];
ma sono molto usati anche MSN [2] (motore
di ricerca della Microsoft) e Yahoo! [3].
I motori di ricerca italiani maggiormente
utlizzati sono Arianna [4] e Virgilio [5].
Talvolta
i motori di ricerca forniscono anche risultati
sponsorizzati, ovvero mostrano in maggiore
evidenza nelle SERP (Search Engine Report
Pages, Pagine di report dei motori di ricerca)
siti web di aziende che pagano per risultare
tra i primi risultati quando si cercano termini
(detti keyword o parole chiave) che sono in
relazione all'ambito di competenza dell'azienda
stessa.
La
possibilità di raffinazione della ricerca
varia da motore a motore, ma la maggior parte
permette di utilizzare operatori booleani:
ad esempio è possibile cercare "Ganimede
AND satellite NOT coppiere" per cercare
informazioni su Ganimede inteso come pianeta
e non come figura mitologica.
Su
Google è possibile raffinare la ricerca
a seconda della lingua della pagina, delle
parole o frasi presenti o assenti, del formato
dei file (Microsoft Word, PDF, PostScript,
ecc.), a seconda della data di ultimo aggiornamento
della pagina, e altro ancora. È anche
possibile cercare contenuti presenti in un
determinato sito, ad esempio "Ganimede
site:nasa.gov" cerca le informazioni
su Ganimede presenti sul sito della NASA [6].
[modifica]
Funzionamento
La maggior parte dei motori di ricerca che
operano sul web è gestito da compagnìe
private che utilizzano algoritmi (regole matematiche)
proprietari e database tenuti gelosamente
segreti. Esistono comunque diversi tentativi
di dar vita a motori di ricerca fondati sul
software libero: alcuni esempi sono HTdig
[7], Nutch [8], Egothor [9] e OpenFTS [10].
Il
lavoro dei motori di ricerca sul web si divide
principalmente in tre fasi:
analizzare
il web (tramite l'uso di programmi appositi);
catalogare il materiale ottenuto dalla navigazione;
rispondere alle richieste degli utenti;
Per analizzare il web i motori di ricerca
utilizzano dei programmi detti web crawler
(o spider o robots), che si occupano di visitare
automaticamente i siti contenuti nel database
del motore di ricerca e seguire tutti i link
che trovano al loro interno, inserendo di
volta in volta nel database tutte le informazioni
"sensibili" della pagina (tutto
il contenuto testuale, varie informazioni
su di essa come la data di ultimo aggiornamento,
e molto altro). La parte testuale archiviata
verrà in seguito analizzata per fornire
le risposte alle ricerche degli utenti. Molti
motori di ricerca sul web, spesso, rendono
anche disponibile una copia dei dati testuali
di ogni pagina archiviata, in modo da renderla
disponibile anche quando la risorsa originale
sia irraggiungibile: questa funzione è
detta Copia cache.
Rispondere
alle richieste degli utenti genera la necessità
di elencare i siti in ordine di rilevanza
rispetto alla richiesta effettuata. Per stabilire
la rilevanza di un sito vengono generalmente
cercate nel database quelle pagine che contengono
le parole chiave inserite dall'utente, dopodichè
ogni motore di ricerca sfrutta propri algoritmi
per classificare le pagine, controllando,
per esempio, quante volte le parole chiave
vengono ripetute, quanti siti del database
contengono link verso quella pagina, o quante
volte un utente ha visitato quel sito dopo
una ricerca.
Le
più recenti innovazioni nella produzione
di algoritmi e di sistemi di Information Retrieval
si basano sull'analisi semantica dei termini
e sulla conseguente creazione di reti semantiche.
Lo stesso Google ha adottato sistemi per la
prevenzione dell'errore e la contestualizzazione
dei risultati. É lecito prevedere che,
nel giro di alcuni anni, i motori di ricerca
baseranno le loro tecnologie sia sull'analisi
quantitativa dei contenuti (le parole in sè),
sia su quella qualitativa (il senso delle
parole). I motori di ricerca saranno, ad esempio,
in grado di distinguere il senso della parola
"pesca" a seconda di quale sia il
contesto in cui la parola è contenuta
(per capire se sia il frutto, la disciplina
sportiva, o altro).
Questo
articolo è licenziato in base alla
GNU Free Documentation License
. Esso utilizza materiale tratto dall' articolo di Wikipedia
"Motore di ricerca" .
inpagina