Utente:Tresoldi

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

Sono molto interessato alla linguistica computazionale, in particolare alla traduzione statistica. I miei primi risultati si possono trovare sulla mia pagina nella Wikipedia in lombardo[1] (in fondo, il mio grande sogno è aiutare con buoni - nonché liberi - corpora per tutti i dialetti italiani, il più presto possibile anche quello siciliano).

Dunque, il piano:

  • creare un modello linguistico ("language model") a partire dalla Wikipedia italiana, utilizzando programmi quali il CMU-LM, IRSTLM o SRILM;
  • il modello permetterebbe, utilizzando lo stesso corpus da cui è stato tratto, di individuare le collocazioni più tipiche e atipiche che dovrebbero essere tradotte per iniziare il corpus parallelo

Anche per il glossario:

  • con due modelli linguistici, e utilizzando due corpora da Wikipedia, si potrebbe creare un glossario statistico