Information retrieval

Da Wikipedia, l'enciclopedia libera.

L'information retrieval (IR) (lett: reperimento delle informazioni) è l'insieme delle tecniche utilizzate per gestire la rappresentazione, la memorizzazione, l'organizzazione e l'accesso ad oggetti contenenti informazioni quali documenti, pagine web, cataloghi online e oggetti multimediali. Il termine è stato coniato da Calvin Mooers alla fine degli anni '40 del Novecento, ma oggi è usato quasi esclusivamente in ambito informatico.

L'IR è un campo interdisciplinare che nasce dall'incrocio di discipline diverse. L'IR coinvolge la psicologia cognitiva, l'architettura informativa, la filosofia (vedi la voce ontologia), il design, il comportamento umano sull'informazione, la linguistica, la semiotica, la scienza dell'informazione e l'informatica. Molte università e biblioteche pubbliche utilizzano sistemi di IR per fornire accesso a pubblicazioni, libri ed altri documenti.

Scopo dell'IR[modifica | modifica sorgente]

Scopo di tale importante branca dell'informatica è quello di soddisfare il cosiddetto "bisogno informativo dell'utente", ovvero, garantire a quest'ultimo, in seguito ad una sua ricerca, tutti quelli che sono i documenti e le informazioni rilevanti per quella che è stata la richiesta da egli effettuata.

Due concetti sono di fondamentale importanza per analizzare un sistema di IR, query ed oggetto:

  • Le query ("interrogazioni") sono stringhe di parole-chiavi rappresentanti l'informazione richiesta. Vengono digitate dall'utente in un sistema IR (per esempio, un motore di ricerca) e rappresentano la concretizzazione di quello che è il reale bisogno informativo dell'utente.
  • Un oggetto è un'entità che possiede informazioni le quali potrebbero essere risposta dell'interrogazione dell'utente. Un documento di testo, per esempio, è un oggetto di dati.

Task dell'IR[modifica | modifica sorgente]

Comunemente è possibile dare la definizione di quello che prende il nome di task di un sistema di information retrieval, ovvero, una situazione tipica che un sistema di questo genere deve risolvere.

Un utente nel momento in cui intende usare un qualsiasi sistema di ritrovamento dell'informazione (un motore di ricerca) per poter acquisire informazioni su un determinato argomento (macchine da corsa) deve tradurre tale necessità in quella che è una query e, a partire da questa, il sistema di IR ha il compito di restituire tutti quelli che sono i documenti che risultano essere rilevanti per la richiesta effettuata.

Misure di prestazione[modifica | modifica sorgente]

Ci sono molti modi per misurare quanto bene l'informazione intesa si associa all'informazione recuperata.

Precisione[modifica | modifica sorgente]

La precisione (in inglese precision) è la proporzione di documenti pertinenti fra quelli recuperati:

P = (numero di documenti pertinenti recuperati) / (numero di documenti recuperati)

Nella classificazione binaria la precisione è analoga al valore positivo di previsione. La precisione può anche essere valutata rispetto a un certo valore soglia, indicato con P@n, piuttosto che relativamente a tutti i documenti recuperati: in questo modo, si può valutare quanti fra i primi n documenti recuperati sono rilevanti per la query.

Si noti che il significato e l'uso del termine "precisione" nel campo dell'IR differiscono dalla definizione di accuratezza e precisione tipiche di altre discipline scientifiche e tecnologiche.

Recupero[modifica | modifica sorgente]

Il recupero o richiamo (in inglese recall) è la proporzione fra il numero di documenti rilevanti recuperati e il numero di tutti i documenti rilevanti disponibili nella collezione considerata:

R = (numero di documenti rilevanti recuperati) / (numero di documenti rilevanti)

Nella classificazione binaria, questo valore è chiamato sensitività.

Misura F[modifica | modifica sorgente]

La misura F (in inglese F-measure) è la media armonica pesata fra precisione e recupero. La versione tradizionale, detta anche bilanciata, è data da:

F = 2 \times \mathrm{precisione} \times \mathrm{recupero} / (\mathrm{precisione} + \mathrm{recupero}).

Questa misura è anche detta F_1, perché sia la precisione che il recupero nella formula precedente hanno appunto il peso 1.

In generale, la formula è:

F_N = (1 + N^2) \times \mathrm{precisione} \times \mathrm{recupero} / ((N^2 \times \mathrm{precisione}) + \mathrm{recupero}).

Altre due formule comuni sono F_{0.5}, che assegna alla precisione un peso doppio rispetto al recupero, e la F_2, che al contrario pesa il recupero al doppio della precisione.


Tassonomia dei modelli[modifica | modifica sorgente]

classificazione dei modelli IR (tradotto da fonte originale logos-verlag.de)

Per concludere con successo una ricerca di informazioni, è necessario rappresentare i documenti in qualche modo. C'è un certo numero di modelli aventi tale scopo. Essi possono essere classificati secondo due criteri, come mostrato nella figura a destra: in base ad un criterio matematico e in base alle proprietà del modello (tradotto da fonte originale logos-verlag.de).

Classificazione matematica dei modelli[modifica | modifica sorgente]

Classificazione in base alle proprietà dei modelli[modifica | modifica sorgente]

  • Modelli senza interdipendenza dei termini trattano diversi termini/parole come non interdipendenti. Ciò viene rappresentato spesso nei modelli a spazi vettoriali affermando che i vettori dei termini siano ortogonali, o nei modelli probabilistici affermando che le variabili dei termini siano indipendenti.
  • Modelli con interdipendenza dei termini intrinseca consentono una rappresentazione diretta delle interdipendenze tra termini. Comunque il grado di interdipendenza tra due termini è definito dal modello stesso. In genere, esso è direttamente o indirettamente derivato (vedi per es. dimensional reduction) dalla co-occorrenza di questi termini nell'intero insieme di documenti.
  • Modelli con interdipendenza dei termini trascendente consentono una rappresentazione diretta delle interdipendenze tra termini, ma essi non riportano come l'interdipendenza tra due termini sia definita. Si riferiscono ad una fonte esterna per stabilire il grado di interdipendenza tra due termini (ad esempio un umano o degli algoritmi sofisticati).

Bibliografia[modifica | modifica sorgente]

  • Maristella Agosti (Ed), Information Access through Search Engines and Digital Libraries, Springer, Heidelberg, Germany, 2008
  • Ricardo Baeza-Yates e Berthier Ribeiro-Neto, Modern Information Retrieval, Addison Wesley, 1999
  • Renato Battistin, Gli algoritmi per il web: il PageRank e l'HITS, in «Login», Gruppo Editoriale Informedia, nov. 2005
  • Daniel Brown, Mastering Information Retrieval and Probabilistic Decision Intelligence Technology, Chandos Publishing (Oxford), 2004
  • S. Chakrabarti, Mining the Web: discovering knowledge from hypertext data, Morgan Kaufmann, 2003
  • Fabio Crestani, Information retrieval uncertainty and logistics, Kluwer, 1998
  • Robert Korfhage, Information Storage and Retrieval, Wiley, 1997
  • Luca Spinelli, Panoramica sul web semantico, in «Login», Gruppo Editoriale Infomedia, nov. 2005
  • Luca Spinelli, Il mondo dei desktop search, in «Login», Gruppo Editoriale Infomedia, nov. 2005
  • C. J. van Rijsbergen, Information Retrieval, on line book, 1980

Voci correlate[modifica | modifica sorgente]

Collegamenti esterni[modifica | modifica sorgente]

Sistemi di Information Retrieval in campo scientifico

  • (EN) iHOP Sistema di IR nel settore biomedico
  • (EN) Sphinx motore che effettua ricerche su interi testi
  • (EN) Lemur Toolkit di modellizzazione del linguaggio
  • (EN) Wumpus motore di ricerca multi utente
  • (EN) Zebra motore di ricerca che accetta in input anche e-mail, XML, MARC e operatori booleani
  • (EN) Zettair motore di ricerca testuale già noto col nome di Lucy


Software di Information Retrieval Open Source

  • Terrier TERabyte RetrIEveR, motore di ricerca con funzioni di IR
  • GalaTex versione open source dello standard XQuery (ricerca testuale su documenti in XML)
  • ht://dig software per effettuare ricerche mirate dentro intranet o singoli domini web
  • Toolkit Mumps software per effettuare esperimenti di IR
  • Lucene (Apache) tecnologia per la ricerca testuale
  • MG-1.3 serve per indicizzare e compattare i documenti ricercati
  • Xapian piattaforma IR scritta in Open Muscat


Principali gruppi di ricerca sull'Information Retrieval


Approfondimenti

Telematica Portale Telematica: accedi alle voci di Wikipedia che parlano di reti, telecomunicazioni e protocolli di rete