Induzione di significati

Da Wikipedia, l'enciclopedia libera.

In linguistica computazionale, l'induzione (o discriminazione) di significati è un problema aperto di elaborazione del linguaggio naturale che consiste nell'identificazione automatica dei significati di una parola. Essendo l'output di un sistema di induzione di significati è un insieme di sensi (inventario) per la parola obiettivo, questo task è strettamente correlato a quello della disambiguazione, che si fonda invece su un inventario di significati predefinito e mira a risolvere il problema della ambiguità delle parole in un contesto.

Metodi[modifica | modifica sorgente]

L'output di un sistema di induzione di significati è un clustering di contesti in cui la parola obiettivo appare o, in alternativa, un clustering di parole correlate alla parola obiettivo (co-occorrenze). Sono stati proposti in letteratura tre approcci principali[1]:

  • Clustering di contesti
  • Clustering di parole
  • Grafi di co-occorrenze

Clustering di contesti[modifica | modifica sorgente]

Nel clustering di contesti ciascuna occorrenza di una parola obiettivo è rappresentata come un vettore di contesto. Tali vettori sono quindi raggruppati in cluster, uno per ogni diverso significato della parola obiettivo. Un approccio storico di questo tipo è basato sul concetto di spazio delle parole (word space)[2], ovvero vettori le cui dimensioni sono parole.

Clustering di parole[modifica | modifica sorgente]

Un secondo approccio consiste nel raggruppamento di parole che sono semanticamente simili e convogliano quindi un significato specifico della parola obiettivo. Metodi di questo tipo includono l'algoritmo di Lin[3] e l'algoritmo Clustering by Committee[4].

Grafi di co-occorrenze[modifica | modifica sorgente]

Il terzo approccio all'induzione di significati è basato sulla nozione di grafo di co-occorrenze, ovvero un grafo i cui vertici sono parole correlate alla parola obiettivo e i cui archi collegano parole che co-occorrono tra loro all'interno di corpora di riferimento. Metodi di questo tipo includono: l'uso del Markov clustering algorithm[5], HyperLex[6] e relative varianti[7].

Applicazioni[modifica | modifica sorgente]

Voci correlate[modifica | modifica sorgente]

References[modifica | modifica sorgente]

  1. ^ (EN) R. Navigli. Word Sense Disambiguation: A Survey, ACM Computing Surveys, 41(2), 2009, pp. 1-69
  2. ^ (EN) H. Schutze. Dimensions of meaning. In Proc. of the 1992 ACM/IEEE Conference on Supercomputing. IEEE Computer Society Press, Los Alamitos, CA, 1992, pp. 787-796
  3. ^ (EN) D. Lin. Automatic retrieval and clustering of similar words. In Proc. of the 17th International Conference on Computational linguistics (COLING), Montreal, Canada, 1998, pp. 768-774.
  4. ^ (EN) D. Lin and P. Pantel. Discovering word senses from text. In Proc. of the 8th International Conference on Knowledge Discovery and Data Mining (KDD), Edmonton, Canada, 2002, pp. 613-619.
  5. ^ (EN) D. Widdows and B. Dorow. A graph model for unsupervised lexical acquisition. In Proc. of the 19th International Conference on Computational Linguistics (COLING), Taipei, Taiwan, 2002, pp. 1-7
  6. ^ a b (EN) J. Véronis. Hyperlex: Lexical cartography for information retrieval. Computer Speech and Language, 18(3), 2004, pp. 223–252
  7. ^ (EN) E. Agirre, D. Martinez, O. Lopez De Lacalle, A. Soroa. Two graph-based algorithms for state-of-the-art WSD. In Proceedings of the 2006 Conference on Empirical Methods in Natural Language Processing (EMNLP), Sydney, Australia, pp. 585-593
  8. ^ R. Navigli, G. Crisafulli. Inducing Word Senses to Improve Web Search Result Clustering. Proc. of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010), MIT Stata Center, Massachussets, USA.