Information retrieval

L'information retrieval (IR), talvolta, meno di frequente, reso in lingua italiana come reperimento dell'informazione,^[1]^[2]^[3]^{[N 1]} è l'insieme delle tecniche utilizzate per gestire la rappresentazione, la memorizzazione, l'organizzazione e l'accesso ad oggetti contenenti informazioni quali documenti, pagine web, cataloghi online e oggetti multimediali. Il termine è stato coniato da Calvin Mooers alla fine degli anni quaranta del Novecento ed oggi è usato quasi esclusivamente in ambito informatico.

È un campo interdisciplinare che nasce dall'incrocio di discipline diverse coinvolgendo la psicologia cognitiva, l'architettura informativa, la filosofia (vedi la voce ontologia), il design, il comportamento umano sull'informazione, la linguistica, la semiotica, la scienza dell'informazione e l'informatica. Molte università e biblioteche pubbliche utilizzano sistemi di information retrieval per fornire accesso a pubblicazioni, libri ed altri documenti.

Scopo dell'information retrieval

Lo scopo dell'information retrieval è di soddisfare il cosiddetto "bisogno informativo dell'utente", ovvero garantire a quest'ultimo, in seguito ad una sua ricerca, i documenti e le informazioni che rispondono alla sua richiesta.

Due concetti sono di fondamentale importanza per analizzare un sistema di information retrieval: query ed oggetto.

Le query ("interrogazioni") sono stringhe di parole-chiave rappresentanti l'informazione richiesta. Vengono digitate dall'utente in un sistema IR (per esempio, un motore di ricerca) e sono la concretizzazione del reale bisogno informativo dell'utente.
Un oggetto è un'entità che possiede informazioni le quali potrebbero essere risposta dell'interrogazione dell'utente. Un documento di testo, per esempio, è un oggetto di dati.

Task

Comunemente, si definisce task di un sistema di information retrieval una situazione tipica che un sistema di questo genere deve risolvere.

Nel momento in cui un utente intende usare un qualsiasi sistema di reperimento dell'informazione (per esempio, un motore di ricerca) per acquisire informazioni su un determinato argomento, questi deve tradurre tale necessità in una query; il sistema di information retrieval ha il compito di restituire, a partire da essa, tutti i documenti rilevanti alla richiesta effettuata.

Misure di prestazione

Ci sono molti modi per misurare quanto l'informazione intesa si associa bene all'informazione recuperata.

Precisione

La precisione (in inglese precision) è la proporzione di documenti pertinenti fra quelli recuperati:

P = (numero di documenti pertinenti recuperati) / (numero di documenti recuperati)

Nella classificazione binaria la precisione è analoga al valore positivo di previsione. La precisione può anche essere valutata rispetto a un certo valore soglia, indicato con P@n, piuttosto che relativamente a tutti i documenti recuperati: in questo modo, si può valutare quanti fra i primi n documenti recuperati sono rilevanti per la query.

Il significato e l'uso del termine precisione nel campo dell'information retrieval differiscono quindi dalla definizione di accuratezza e precisione tipiche di altre discipline scientifiche e tecnologiche.

Recupero

Il recupero o richiamo (in inglese recall) è la proporzione fra il numero di documenti rilevanti recuperati e il numero di tutti i documenti rilevanti disponibili nella collezione considerata:

R = (numero di documenti rilevanti recuperati) / (numero di documenti rilevanti)

Nella classificazione binaria, questo valore è chiamato sensitività.

Misura F

La misura F (in inglese F-measure) è la media armonica pesata fra precisione e recupero. La versione tradizionale, detta anche bilanciata, è data da:

F=2\times \mathrm {precisione} \times \mathrm {recupero} /(\mathrm {precisione} +\mathrm {recupero} ).

Questa misura è anche detta $F_{1}$ , perché sia la precisione che il recupero nella formula precedente hanno appunto il peso 1.

In generale, la formula è:

F_{N}=(1+N^{2})\times \mathrm {precisione} \times \mathrm {recupero} /((N^{2}\times \mathrm {precisione} )+\mathrm {recupero} ).

Altre due formule comuni sono $F_{0.5}$ , che assegna alla precisione un peso doppio rispetto al recupero, e la $F_{2}$ , che al contrario pesa il recupero al doppio della precisione.

Tassonomia dei modelli

classificazione dei modelli IR (tradotto da fonte originale logos-verlag.de.)

Per concludere con successo una ricerca di informazioni, è necessario rappresentare i documenti in qualche modo. C'è un certo numero di modelli aventi tale scopo. Essi possono essere classificati secondo due criteri, come mostrato nella figura a destra: in base ad un criterio matematico e in base alle proprietà del modello (tradotto da fonte originale logos-verlag.de.).

Classificazione matematica dei modelli

Modelli Set-theoretic rappresentano i documenti mediante insiemi. Le somiglianze derivano in genere da operazioni teoriche su questi insiemi. I modelli più comuni sono:
Modelli Algebrici rappresentano i documenti e le query con vettori, matrici o tuple, che, utilizzando un numero finito di operazioni algebriche, vengono trasformati in una misura numerica, la quale esprime il grado di somiglianza dei documenti con la query.
- Modello a Spazio Vettoriale
- Modello a Spazio Vettoriale Generalizzato
- Topic-based vector space model (literature: [1], [2])
- Modello Booleano Esteso
- Enhanced topic-based vector space model (literature: [3], [4])
- Latent semantic indexing aka latent semantic analysis
Modelli Probabilistici trattano il processo di recupero dei documenti come un esperimento aleatorio multi-livello. Le somiglianze sono quindi rappresentate come probabilità. I teoremi probabilistici come il teorema di Bayes sono spesso usati in questi modelli.
- Binary independence retrieval
- Uncertain inference
- Language models
- Divergence from randomness models

Classificazione in base alle proprietà dei modelli

Modelli senza interdipendenza dei termini trattano diversi termini/parole come non interdipendenti. Ciò viene rappresentato spesso nei modelli a spazi vettoriali affermando che i vettori dei termini siano ortogonali, o nei modelli probabilistici affermando che le variabili dei termini siano indipendenti.
Modelli con interdipendenza dei termini intrinseca consentono una rappresentazione diretta delle interdipendenze tra termini. Comunque il grado di interdipendenza tra due termini è definito dal modello stesso. In genere, esso è direttamente o indirettamente derivato (vedi per es. dimensional reduction) dalla co-occorrenza di questi termini nell'intero insieme di documenti.
Modelli con interdipendenza dei termini trascendente consentono una rappresentazione diretta delle interdipendenze tra termini, ma essi non riportano come l'interdipendenza tra due termini sia definita. Si riferiscono ad una fonte esterna per stabilire il grado di interdipendenza tra due termini (ad esempio un umano o degli algoritmi sofisticati).

Note

Annotazioni

^ «La traduzione letterale in italiano è sicuramente più chiara, Information Retrieval vuol dire reperimento delle informazioni.»^[4]

Fonti

^ Terminologia dell’Unione Europea — Information Retrieval, su IATE, iate.europa.eu. URL consultato il 13 marzo 2023.
^ Giorgio Maria Di Nunzio, Università di Padova, Tecnologie per la Traduzione 2020/2021, Reperimento dell’Informazione (PDF), su ssu.elearning.unipd.it. URL consultato il 13 marzo 2023.
^ Alberto Costa, LSPR: un modello di reperimento dell’informazione (PDF), su lix.polytechnique.fr. URL consultato il 13 marzo 2023.
^ Andrea Minini, Information Retrieval ( IR ), su andreaminini.com, 13 marzo 2023.

Bibliografia

Maristella Agosti (Ed), Information Access through Search Engines and Digital Libraries, Springer, Heidelberg, Germany, 2008
Ricardo Baeza-Yates e Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999
Renato Battistin, Gli algoritmi per il web: il PageRank e l'HITS, in «Login», Gruppo Editoriale Informedia, nov. 2005
Daniel Brown, Mastering Information Retrieval and Probabilistic Decision Intelligence Technology, Chandos Publishing (Oxford), 2004
S. Chakrabarti, Mining the Web: discovering knowledge from hypertext data, Morgan Kaufmann, 2003
Fabio Crestani, Information retrieval uncertainty and logistics, Kluwer, 1998
Robert Korfhage, Information Storage and Retrieval, Wiley, 1997
Luca Spinelli, Panoramica sul web semantico, in «Login», Gruppo Editoriale Infomedia, nov. 2005
Luca Spinelli, Il mondo dei desktop search, in «Login», Gruppo Editoriale Infomedia, nov. 2005
C. J. van Rijsbergen, Information Retrieval, on line book, 1980

Voci correlate

Altri progetti

Wikimedia Commons contiene immagini o altri file su information retrieval

Collegamenti esterni

(EN) information retrieval, su Enciclopedia Britannica, Encyclopædia Britannica, Inc.

Sistemi di Information Retrieval in campo scientifico

(EN) iHOP (archiviato dall'url originale il 17 ottobre 2005). Sistema di information retrieval nel settore biomedico
(EN) Sphinx. motore che effettua ricerche su interi testi
(EN) Lemur. Toolkit di modellizzazione del linguaggio
(EN) Wumpus. motore di ricerca multi utente
(EN) Zebra. motore di ricerca che accetta in input anche e-mail, XML, MARC e operatori booleani
(EN) Zettair. motore di ricerca testuale già noto col nome di Lucy

Software di Information Retrieval Open Source

Terrier. TERabyte RetrIEveR, motore di ricerca con funzioni di information retrieval
GalaTex. versione open source dello standard XQuery (ricerca testuale su documenti in XML)
ht://dig (archiviato dall'url originale l'8 aprile 2008). software per effettuare ricerche mirate dentro intranet o singoli domini web
Toolkit Mumps. software per effettuare esperimenti di information retrieval
Lucene (Apache). tecnologia per la ricerca testuale
MG-1.3. URL consultato il 5 maggio 2018 (archiviato dall'url originale il 18 aprile 2006). serve per indicizzare e compattare i documenti ricercati
Xapian. piattaforma IR scritta in Open Muscat

Principali gruppi di ricerca sull'Information Retrieval

(EN) Text Retrieval Conference (TREC), su trec.nist.gov.
(EN) Wiki. URL consultato il 14 dicembre 2019 (archiviato dall'url originale il 13 marzo 2016).presso l'Università di Glasgow. C'è anche la Wiki. URL consultato il 14 maggio 2006 (archiviato dall'url originale il 24 novembre 2015).
(EN) Center for Intelligent Information Retrieval. presso l'Università del Massachusetts
(EN) IIT Information Retrieval Lab (archiviato dall'url originale il 24 aprile 2006). presso l'Istituto di Tecnologia dell'Illinois
(EN) Progetti di Information Retrieval. URL consultato il 2 ottobre 2017 (archiviato dall'url originale il 6 agosto 2010). presso l'Università Carnegie Mellon
(EN) Gruppo di Information Retrieval. presso il Microsoft Research Cambridge (USA)
(EN) Intelligent Information Systems. URL consultato l'8 giugno 2020 (archiviato dall'url originale il 26 aprile 2006). Laboratorio di ricerca (USA)
(EN) BCS IRSG: British Computer Society - Gruppo di specialisti di Information Retrieval, su irsg.bcs.org.
(EN) ACM SIGIR: Gruppo d'interesse speciale sull'Information Retrieval. presso l'Università Queen Mary di Londra
(EN) Gruppo di Information Retrieval (archiviato dall'url originale il 9 settembre 2005). presso l'Università di Neuchâtel (CH)
(EN) Centre for Information Retrieval. URL consultato il 13 marzo 2018 (archiviato dall'url originale il 4 gennaio 2007). Ungheria
(EN) Information Management Systems. Università di Padova, Italia
(EN) Semantic Web Access and Personalization Research Group. Università degli Studi di Bari, Italia

Approfondimenti

Definizione e analisi sull'Information Retrieval, su laterza.it.
(EN) The Anatomy of a Large-Scale Hypertextual Web Search Engine, su www-db.stanford.edu.
(EN) Innovations in Search. URL consultato il 10 settembre 2018 (archiviato dall'url originale il 13 giugno 2006). Conferenza del 27-29 settembre 2005
(EN) Risorse per l'elaborazione di testi, discorsi e lingue naturali, su cs.technion.ac.il. URL consultato il 14 maggio 2006 (archiviato dall'url originale il 15 agosto 2010).
(EN) Corso di Information Retrieval e Web Mining (archiviato dall'url originale il 3 maggio 2006). Università di Stanford
(ES) Usabilidad y Accesibilidad en la Recuperación de Información, su es.geocities.com (archiviato dall'url originale il 1º gennaio 2008).
(ES) Metadatos y documentos XML/RDF para recuperacion, su es.geocities.com (archiviato dall'url originale il 1º gennaio 2008).

Controllo di autorità	Thesaurus BNCF 46118 · LCCN (EN) sh85066148 · GND (DE) 4072803-1 · BNE (ES) XX535604 (data) · BNF (FR) cb122132635 (data) · J9U (EN, HE) 987007550614905171 · NDL (EN, JA) 00575010

Portale Telematica: accedi alle voci di Wikipedia che parlano di reti, telecomunicazioni e protocolli di rete

[5] «La traduzione letterale in italiano è sicuramente più chiara, Information Retrieval vuol dire reperimento delle informazioni.»^[4]

[1] Terminologia dell’Unione Europea — Information Retrieval, su IATE, iate.europa.eu. URL consultato il 13 marzo 2023.

[padova-2] Giorgio Maria Di Nunzio, Università di Padova, Tecnologie per la Traduzione 2020/2021, Reperimento dell’Informazione (PDF), su ssu.elearning.unipd.it. URL consultato il 13 marzo 2023.

[tesi-pd-3] Alberto Costa, LSPR: un modello di reperimento dell’informazione (PDF), su lix.polytechnique.fr. URL consultato il 13 marzo 2023.

[aminini-4] Andrea Minini, Information Retrieval ( IR ), su andreaminini.com, 13 marzo 2023.

[1]

[2]

[3]

[N 1]

[4]

Information retrieval

Indice

Scopo dell'information retrieval

Task