Una pagina web può stare su più computer diversi
Primi motori di ricerca
Altavista
Interfaccia testuale
In moltissimi casi funziona bene!
Calcolo parallelo e distribuito
Pagerank
Si parte dalle pagine più importanti per avere più probabilità di raggiungerne molte (alcune non sono mai raggiunte)
Crawler
Spyder
Lavorano incessantemente e contemporaneamente
Le pagine in comune sono la 2 e la 3
Tutto è complicato dal fatto che le grandezze in gioco sono enormi
Gli hit possono essere moltissimi!
Tecniche note prima di Google
Un cluster è composto da migliaia di computer e contiene varie repliche di tutto il web
Una query a Google in media
Legge centinaia di Megabyte di dati
Consuma decine di miliardi di cicli di CPU
Deve fornire risposta in pochi millisecondi
Google gestisce milioni di query/sec
La nostra query viene smistata al cluster più vicino o, se è molto occupato, a quello più sgombro
sale&pepe
Strategia immediata per dare il voto
Contare il numero di riferimenti da altre pagine alla pagina in questione
Se contiamo il numero di riferimenti le due pagine coincidono
Ma una cosa è la menzione di un tizio qualsiasi altra cosa la menzione di un personaggio famoso
Deve contare la popolarità (rank) della pagina che contiene la citazione e quante citazioni fa
R(Sale&pepe) = R(Mario)/# link(Mario) = 1/2
R(giallozafferano) = R(chef)/#link(chef) = 100/100 = 1
Nel nostro esempio il personaggio famoso è anche uno chef, quindi
autorevole
Ma poteva essere anche un calciatore famoso
Il risultato sarebbe stato uguale
Altri tenuti rigorosamente segreti
Le home page hanno rank più alto
Il fatto che una pagina sia fresca
...molti altri