Lexical Markup Framework

Da Wikipedia, l'enciclopedia libera.

Lexical Markup Framework (LMF) è un progetto in corso all’interno dell’Organizzazione Internazionale per la Standardizzazione (International Organisation for Standardisation - ISO), e più in particolare all’interno di ISO/TC37, allo scopo di definire uno standard per la rappresentazione di dizionari elettronici e lessici computazionali per il trattamento automatico della lingua (TAL). Scopo del progetto è la standardizzazione dei principi e dei metodi relativi alle risorse linguistiche nel contesto della comunicazione multilingue e della diversità culturale.

Obiettivi di LMF[modifica | modifica sorgente]

Gli scopi di LMF sono: fornire un modello comune per la creazione e l’uso di risorse lessicali; gestire lo scambio di dati tra queste risorse; consentire la fusione di risorse elettroniche singole per formare una vasta rete a livello globale. Tipi di singole istanziazioni di LMF possono includere risorse lessicali monolingui, bilingui o multilingui. Le stesse specifiche possono essere usate per lessici di piccole o grandi dimensioni, semplici o complessi, e per rappresentazioni lessicali scritte o parlate. Le descrizioni linguistiche comprendono informazioni morfologiche, sintattiche, semantiche e multilingui. Le lingue coperte non si limitano alle lingue europee ma coprono tutte le lingue naturali. La gamma di applicazioni di NLP non è limitata. LMF è in grado di rappresentare la maggior parte dei lessici, inclusi WordNet, EDR e PAROLE.

Storia di LMF[modifica | modifica sorgente]

In passato, la standardizzazione dei lessici è stata studiata e sviluppata da una serie di progetti come GENELEX, EDR, EAGLES, MULTEXT, PAROLE, SIMPLE e ISLE. Successivamente, le delegazioni nazionali di ISO/TC37 hanno deciso di trattare standards dedicati alla rappresentazione di lessici elettronici e per TAL. Il lavoro su LMF è cominciato nell’estate 2003 per mezzo di una nuova proposta di lavoro (New work Item Proposal) avanzata dalla delegazione statunitense. Nell’autunno 2003, la delegazione francese ha emanato una proposta tecnica per un modello di dati dedicato ai lessici per TAL. All’inizio del 2004, il comitato ISO/TC37 ha deciso di formare un progetto comune ISO con Nicoletta Calzolari (Italia) come convenor e Gil Francopoulo (Francia) e Monte George (US) come editori. Da allora 13 versioni sono state scritte, inviate agli esperti nazionali, commentate e discusse durante varie riunioni tecniche ISO.

Stato attuale[modifica | modifica sorgente]

Il numero ISO è 24613. La specifica di LMF è attualmente (Dicembre 2007) allo stato di DIS (Draft for International Standard). Il programma prevede di raggiungere lo stadio di FDIS (Final Draft for International Standard) in Febbraio 2008 e la pubblicazione finale in Settembre 2008. LMF e gli altri membri della famiglia di standard ISO/TC37 Gli standard ISO/TC37 sono attualmente elaborati come specifiche di alto livello e trattano la segmentazione delle parole (ISO 24614), annotazioni (ISO 24611 o MAF, ISO 24612 o LAF, ISO 24615 o SynAF, e ISO 24617-1 o SemAF/Time), feature structures (ISO 24610), contenitori multimediali (ISO 24616 o MLIF), and lessici (ISO 24613). Questi standard sono basati su specifiche di basso livello dedicate a costanti, ovvero data categories (revisione di ISO 12620), codici linguistici (ISO 639), scripts codes (ISO 15924), country codes (ISO 3166) e Unicode (ISO 10646). Questa organizzazione a due livelli costituisce una famiglia coerente di standard con regole comuni e semplici: 0. La specifica di alto livello fornisce gli elementi strutturali che sono integrati dalle costanti standardizzate; 0. Le specifiche di basso livello forniscono le costanti standardizzate come metadati.

Standard usati da LMF[modifica | modifica sorgente]

Le costanti linguistiche come /feminine/ (“femminile”) o /transitive/ (“transitivo”) non sono definite all’interno di LMF ma sono registrate nel Registro di Data Categories (Data Category Registry, DCR), che viene mantenuto come risorsa globale da ISO/TC37 in conformità con ISO/IEC 11179-3:2003 [1]. Queste costanti sono usate per integrare gli elementi strutturali di alto livello. La specifica LMF è conforme ai principi di modellazione di UML (Unified Modeling Language), così come definiti da OMG (Object Management Group). La struttura è specificata per mezzo di diagrammi di classi UML. Gli esempi sono presentati da diagrammi di esempi (o oggetti) UML. Una DTD XML è inoltre fornita in un annesso del documento LMF.

Modello strutturale[modifica | modifica sorgente]

LMF è formato dai componenti seguenti: 0. Un pacchetto centrale che rappresenta lo scheletro strutturale che descrive la gerarchia di base dell’informazione in un’entrata lessicale. 0. Estensioni del pacchetto centrale, espresse in un sistema che descrive il riutilizzo dei componenti centrali in unione con i componenti aggiuntivi richiesti per una risorsa lessicale specifica. Le estensioni sono dedicate alla morfologia, dizionari elettronici (MRD), sintassi NLP, semantica NLP, annotazioni multiligui NLP, schemi di paradigma NLP, espressioni polirematiche, e constraint expression patterns.

Un esempio[modifica | modifica sorgente]

Nell’esempio seguente, l’entrata lessicale è associata ad un lemma (clergyman) e a due forme flesse (clergyman e clergymen). La codifica della lingua è effettuata per l’intera risorsa lessicale. Il valore scelto per descrivere la particolare lingua trattata è fissato per l’intero lessico, come indicato nel seguente diagramma UML.

LMFMorphoClergymanInflected.svg

Gli elementi Lexical Resource, Global Information, Lexicon, Lexical Entry, Lemma, e Word Form definiscono la struttura del lessico, e sono specificati nel documento LMF. Al contrario, languageCoding, language, partOfSpeech, commonNoun, writtenForm, grammaticalNumber, singular, plural sono data categories prese dal registro di data categories, e servono ad integrare la struttura. I valori ISO 639-3, clergyman, clergymen sono semplici stringhe di caratteri. Il valore eng è tratto dalla lista di lingue così come definite in ISO 639-3.

Con alcune informazioni aggiuntive come dtdVersion e feat, gli stessi dati possono essere espressi dal seguente frammento XML:

<LexicalResource dtdVersion="14">
    <GlobalInformation>
        <feat att="languageCoding" val="ISO 639-3"/>
    </GlobalInformation>
    <Lexicon>
        <feat att="language" val="eng"/>
        <LexicalEntry>
            <feat att="partOfSpeech" val="commonNoun"/>
            <Lemma>
                <feat att="writtenForm" val="clergyman"/>
            </Lemma>
            <WordForm>
                 <feat att="writtenForm" val="clergyman"/>
                 <feat att="grammaticalNumber" val="singular"/>
            </WordForm>
            <WordForm>
                <feat att="writtenForm" val="clergymen"/>
                <feat att="grammaticalNumber" val="plural"/>
            </WordForm>
        </LexicalEntry>
    </Lexicon>
</LexicalResource>

Nonostante questo esempio sia piuttosto semplice, LMF può rappresentare descrizioni linguistiche molto più complesse; in tal caso, la rappresentazione XML cresce in complessità.

Collegamenti esterni[modifica | modifica sorgente]

Siti web correlati[modifica | modifica sorgente]

Comunicazioni scientifiche recenti su LMF[modifica | modifica sorgente]

  • Gesellschaft für linguistische Datenverarbeitung GLDV-2007/Tubingen: Lexical Markup Framework ISO standard for semantic information in NLP lexicons [2]
  • Language Resources and Evaluation LREC-2006/Genoa: Lexical Markup Framework (LMF) [3]

Comunicazioni scientifiche correlate[modifica | modifica sorgente]

  • Language Resources and Evaluation LREC-2006/Genoa: The relevance of standards for research infrastructures [4]