Oltre la personalizzazione dei risultati di ricerca

Autore:  Michele Caivano

Un saluto ai lettori… questo è l’ultimo post di approfondimento prima della pausa estiva. Il sito comunque verrà aggiornato con le Flash News e – per chi volesse approfondire – anche con le risorse segnalate su Social Breed, per cui se volete potete abbonarvi ai rispettivi feed rss.

Oggi vi presento un brevetto molto interessante, “Model generation for ranking documents based on large data sets” assegnato a Google in data 22 Giugno 2010.

Questo brevetto merita un’attenta analisi, perché introduce nuove modalità per il ranking di grandi quantità di documenti (e ricordiamo che il nuovo indice di Google – Caffeine – è stato progettato anche per questa ragione).

Tutti i fattori di ranking esistenti possono essere condensati da Google in un unico singolo fattore: nella probabilità che l’utente u, data la query q, scelga il documento d.

L’utente diventa centrale nel ranking dei documenti

Per calcolare il posizionamento di un sito Google prende in considerazione la terna (utente, query, documento) ed è proprio l’utilizzo di una terna a costituire l’aspetto più innovativo.

Il documento non viene più valutato in termini assoluti; non si tratta più unicamente di personalizzazione dei risultati di ricerca. Google si spinge oltre: cerca di generare un modello di ranking ad hoc per ogni specifico utente che effettua una specifica query.

Generazione del modello

Partiamo da un’istanza (u, q, d). Ossia: c’è un utente u, che effettua una query q e seleziona un documento d. Di ogni istanza vengono memorizzate le caratteristiche (feature) più importanti in un feature-to-istance index.

personalizzazione risultati ricerca

I dati memorizzati da Google possono essere i seguenti:

  • paese di provenienza dell’utente u;
  • ora del giorno in cui l’utente u effettua la query q;
  • lingua parlata nel paese di provenienza dell’utente u;
  • le tre query effettuate dall’utente u prima dell’attuale query q;
  • il linguaggio della query q;
  • l’esatta stringa della query q, i singoli termini che la compongono e il numero di parole;
  • i termini contenuti nel documento d;
  • i termini contenuti nell’url del documento d;
  • gli ancor text dei link che puntano al documento d;
  • le parole nel titolo del documento d e nei documenti mostrati al di sotto e al di sopra di d nei risultati di ricerca;
  • il numero di volte in cui una parola della query q è contenuta nel documento d;
  • il numero di volte in cui l’utente u ha avuto accesso al documento d.

A partire da questi dati viene generato un ranking model specifico, che valuta appunto la probabilità che l’utente u, effettuando la query q decida di cliccare proprio sul documento d. Ed è proprio questa probabilità a costituire lo score, il punteggio in base al quale viene effettuato l’ordinamento dei risultati di ricerca.

Facciamo un esempio

L’utente accede a Google per la prima volta ed effettua una ricerca. In assenza di dati pregressi sul suo comportamento (l’utente non ha mai effettuato query analoghe in passato) viene calcolata una probabilità a priori.

Cosa accade quando l’utente, servito con un determinato set di risultati di ricerca clicca su un dato documento d?

Le probabilità a priori calcolate in precedenza vengono aggiornate tenendo conto di questa nuova probabilità misurata a posteriori (cioè dopo che l’utente ha scelto). E conseguentemente viene aggiornato il modello di ranking.

Grazie ai dati raccolti nel feature-to-istance index il motore di ricerca è in grado di aggiornare continuamente i propri modelli stabilendo non solo i pesi per ponderare ciascun criterio di ranking ma anche quali criteri utilizzare in funzione della specifica istanza.

Questo brevetto è fondamentale per capire:

  1. come funzionano i meccanismi della personalizzazione dei risultati di ricerca;
  2. come Google utilizza i dati degli utenti per perfezionare i propri algoritmi.

Se siete loggati in Google, effettuate una query e cliccate su un dato documento, Google utilizzerà quell’informazione per aggiornare il modello di ranking.

Ma l’aggiornamento del modello non riguarda solo voi. Google utilizza le informazioni memorizzate nel feature-to-istance index come training data per perfezionare il modello da utilizzare per tutti gli utenti con caratteristiche simili alle vostre.

Conclusione

Se vi loggate in Google, fate una ricerca e cliccate su un sito, il sito in questione guadagna posizioni nei vostri risultati di ricerca personalizzati.

Ma non solo. La vostra scelta influenza in qualche modo anche il ranking per gli utenti “simili” a voi.

Alla prossima. ;)