Information retrieval
L'information retrieval (IR) (lett: recupero d'informazioni) è l'insieme delle tecniche utilizzate per il recupero mirato dell'informazione in formato elettronico. Per "informazione" si intendono tutti i documenti, i metadati, i file presenti all'interno di banche dati o nel world wide web. Il termine è stato coniato da Calvin Mooers alla fine degli anni '40 del Novecento, ma oggi è usato quasi esclusivamente in ambito informatico.
L'IR è un campo interdisciplinare che nasce dall'incrocio di discipline diverse. L'IR coinvolge la psicologia cognitiva, l'architettura informativa, la filosofia (vedi la voce ontologia), il design, il comportamento umano sull'informazione, la linguistica, la semiotica, la scienza dell'informazione e l'informatica. Molte università e biblioteche pubbliche utilizzano sistemi di IR per fornire accesso a pubblicazioni, libri ed altri documenti.
Per recuperare l'informazione, i sistemi IR usano i linguaggi di interrogazione basati su comandi testuali. Due concetti sono di fondamentale importanza: query ed oggetto:
- Le query ("interrogazioni") sono stringhe di parole-chiavi rappresentanti l'informazione richiesta. Vengono digitate dall'utente in un sistema IR (per esempio, un motore di ricerca).
- Un oggetto è un'entità che mantiene o racchiude informazioni in una banca dati. Un documento di testo, per esempio, è un oggetto di dati.
Una tipica ricerca di IR ha come input un comando dell'utente. Poi la sua query viene messa in relazione con gli oggetti presenti nella banca dati. In risposta, il sistema fornisce un insieme di record che soddisfano le condizioni richieste.
Spesso i documenti stessi non sono mantenuti o immagazzinati direttamente nel sistema IR, ma vengono rappresentati da loro surrogati. I motori di ricerca del Web come Google e Yahoo sono le applicazioni più note ed ovvie delle teorie di Information Retrieval.
Indice |
Misure di prestazione [modifica]
Ci sono molti modi per misurare quanto bene l'informazione intesa si associa all'informazione recuperata.
Precisione [modifica]
La precisione (in inglese precision) è la proporzione di documenti pertinenti fra quelli recuperati:
- P = (numero di documenti pertinenti recuperati) / (numero di documenti recuperati)
Nella classificazione binaria la precisione è analoga al valore positivo di previsione. La precisione può anche essere valutata rispetto a un certo valore soglia, indicato con P@n, piuttosto che relativamente a tutti i documenti recuperati: in questo modo, si può valutare quanti fra i primi n documenti recuperati sono rilevanti per la query.
Si noti che il significato e l'uso del termine "precisione" nel campo dell'IR differiscono dalla definizione di accuratezza e precisione tipiche di altre discipline scientifiche e tecnologiche.
Recupero [modifica]
Il recupero, o richiamo, (in inglese recall) è la proporzione fra il numero di documenti rilevanti recuperati e il numero di tutti i documenti rilevanti disponibili nella collezione considerata:
- R = (numero di documenti rilevanti recuperati) / (numero di documenti rilevanti)
Nella classificazione binaria, questo valore è chiamato sensitività.
Misura F [modifica]
La misura F (in inglese F-measure) è la media armonica pesata fra precisione e recupero. La versione tradizionale, detta anche bilanciata, è data da:
Questa misura è anche detta
, perché sia la precisione che il recupero nella formula precedente hanno appunto il peso 1.
In generale, la formula è:
Altre due formule comuni sono
, che assegna alla precisione un peso doppio rispetto al recupero, e la
, che al contrario pesa il recupero al doppio della precisione.
Tassonomia dei modelli [modifica]
Per concludere con successo una ricerca di informazioni, è necessario rappresentare i documenti in qualche modo. C'è un certo numero di modelli aventi tale scopo. Essi possono essere classificati secondo due criteri, come mostrato nella figura a destra: in base ad un criterio matematico e in base alle proprietà del modello (tradotto da fonte originale logos-verlag.de).
Classificazione matematica dei modelli [modifica]
- Modelli Set-theoretic rappresentano i documenti mediante insiemi. Le somiglianze derivano in genere da operazioni teoriche su questi insiemi. I modelli più comuni sono:
- Modelli Algebrici rappresentano i documenti e le query con vettori, matrici o tuple, che, utilizzando un numero finito di operazioni algebriche, vengono trasformati in una misura numerica, la quale esprime il grado di somiglianza dei documenti con la query.
- Modello a Spazio Vettoriale
- Modello a Spazio Vettoriale Generalizzato
- Topic-based vector space model (literature: [1], [2])
- Modello Booleano Esteso
- Enhanced topic-based vector space model (literature: [3], [4])
- Latent semantic indexing aka latent semantic analysis
- Modelli Probabilistici trattano il processo di recupero dei documenti come un esperimento aleatorio multi-livello. Le somiglianze sono quindi rappresentate come probabilità. I teoremi probabilistici come il teorema di Bayes sono spesso usati in questi modelli.
- Binary independence retrieval
- Uncertain inference
- Language models
- Divergence from randomness models
Classificazione in base alle proprietà dei modelli [modifica]
- Modelli senza interdipendenza dei termini trattano diversi termini/parole come non interdipendenti. Ciò viene rappresentato spesso nei modelli a spazi vettoriali affermando che i vettori dei termini siano ortogonali, o nei modelli probabilistici affermando che le variabili dei termini siano indipendenti.
- Modelli con interdipendenza dei termini intrinseca consentono una rappresentazione diretta delle interdipendenze tra termini. Comunque il grado di interdipendenza tra due termini è definito dal modello stesso. In genere, esso è direttamente o indirettamente derivato (vedi per es. dimensional reduction) dalla co-occorrenza di questi termini nell'intero insieme di documenti.
- Modelli con interdipendenza dei termini trascendente consentono una rappresentazione diretta delle interdipendenze tra termini, ma essi non riportano come l'interdipendenza tra due termini sia definita. Si riferiscono ad una fonte esterna per stabilire il grado di interdipendenza tra due termini (ad esempio un umano o degli algoritmi sofisticati).
Bibliografia [modifica]
- Maristella Agosti (Ed), Information Access through Search Engines and Digital Libraries, Springer, Heidelberg, Germany, 2008
- Ricardo Baeza-Yates e Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999
- Renato Battistin, Gli algoritmi per il web: il PageRank e l'HITS, in «Login», Gruppo Editoriale Informedia, nov. 2005
- Daniel Brown, Mastering Information Retrieval and Probabilistic Decision Intelligence Technology, Chandos Publishing (Oxford), 2004
- S. Chakrabarti, Mining the Web: discovering knowledge from hypertext data, Morgan Kaufmann, 2003
- Fabio Crestani, Information retrieval uncertainty and logistics, Kluwer, 1998
- Robert Korfhage, Information Storage and Retrieval, Wiley, 1997
- Luca Spinelli, Panoramica sul web semantico, in «Login», Gruppo Editoriale Infomedia, nov. 2005
- Luca Spinelli, Il mondo dei desktop search, in «Login», Gruppo Editoriale Infomedia, nov. 2005
- C. J. van Rijsbergen, Information Retrieval, on line book, 1980
Voci correlate [modifica]
- Algoritmo
- Data mining
- Information brokering
- OPAC
- Motore di ricerca
- PageRank
- Sistema informativo
- Thesaurus
- Web invisibile
- Common Query Language
- Coseno di similitudine
- Ricerca Full Text
- CBIR
Collegamenti esterni [modifica]
- Information retrieval nel Nuovo Soggettario della BNCF
Sistemi di Information Retrieval in campo scientifico
- (EN) iHOP Sistema di IR nel settore biomedico
- (EN) Sphinx motore che effettua ricerche su interi testi
- (EN) Lemur Toolkit di modellizzazione del linguaggio
- (EN) Wumpus motore di ricerca multi utente
- (EN) Zebra motore di ricerca che accetta in input anche e-mail, XML, MARC e operatori booleani
- (EN) Zettair motore di ricerca testuale già noto col nome di Lucy
Software di Information Retrieval Open Source
- Terrier TERabyte RetrIEveR, motore di ricerca con funzioni di IR
- GalaTex versione open source dello standard XQuery (ricerca testuale su documenti in XML)
- ht://dig software per effettuare ricerche mirate dentro intranet o singoli domini web
- Toolkit Mumps software per effettuare esperimenti di IR
- Lucene (Apache) tecnologia per la ricerca testuale
- MG-1.3 serve per indicizzare e compattare i documenti ricercati
- Xapian piattaforma IR scritta in Open Muscat
Principali gruppi di ricerca sull'Information Retrieval
- (EN) Text Retrieval Conference (TREC)
- (EN) Glasgow Information Retrieval Group presso l'Università di Glasgow. C'è anche la Wiki
- (EN) Center for Intelligent Information Retrieval presso l'Università del Massachusetts
- (EN) IIT Information Retrieval Lab presso l'Istituto di Tecnologia dell'Illinois
- (EN) Progetti di Information Retrieval presso l'Università Carnegie Mellon
- (EN) Gruppo di Information Retrieval presso il Microsoft Research Cambridge (USA)
- (EN) Intelligent Information Systems Laboratorio di ricerca (USA)
- (EN) BCS IRSG: British Computer Society - Gruppo di specialisti di Information Retrieval
- (EN) ACM SIGIR: Gruppo d'interesse speciale sull'Information Retrieval presso l'Università Queen Mary di Londra
- (EN) Gruppo di Information Retrieval presso l'Università di Neuchâtel (CH)
- (EN) Centre for Information Retrieval Ungheria
- (EN) Information Management Systems Università di Padova, Italia
- (EN) Semantic Web Access and Personalization Research Group Università degli Studi di Bari, Italia
Approfondimenti
- Definizione e analisi sull'Information Retrieval
- (EN) The Anatomy of a Large-Scale Hypertextual Web Search Engine
- (EN) Innovations in Search Conferenza del 27-29 settembre 2005
- (EN) Risorse per l'elaborazione di testi, discorsi e lingue naturali
- (EN) Corso di Information Retrieval e Web Mining Università di Stanford
- (ES) Usabilidad y Accesibilidad en la Recuperación de Información (archiviato dall'url originale)
- (ES) Metadatos y documentos XML/RDF para recuperacion (archiviato dall'url originale)

