Utente:Tresoldi

Sono molto interessato alla linguistica computazionale, in particolare alla traduzione statistica. I miei primi risultati si possono trovare sulla mia pagina nella Wikipedia in lombardo[1] (in fondo, il mio grande sogno è aiutare con buoni - nonché liberi - corpora per tutti i dialetti italiani, il più presto possibile anche quello siciliano).

Dunque, il piano:

creare un modello linguistico ("language model") a partire dalla Wikipedia italiana, utilizzando programmi quali il CMU-LM, IRSTLM o SRILM;
il modello permetterebbe, utilizzando lo stesso corpus da cui è stato tratto, di individuare le collocazioni più tipiche e atipiche che dovrebbero essere tradotte per iniziare il corpus parallelo

Anche per il glossario:

con due modelli linguistici, e utilizzando due corpora da Wikipedia, si potrebbe creare un glossario statistico

Utente:Tresoldi

Menu di navigazione

Ricerca