Utente:Tresoldi
Vai alla navigazione
Vai alla ricerca
Sono molto interessato alla linguistica computazionale, in particolare alla traduzione statistica. I miei primi risultati si possono trovare sulla mia pagina nella Wikipedia in lombardo[1] (in fondo, il mio grande sogno è aiutare con buoni - nonché liberi - corpora per tutti i dialetti italiani, il più presto possibile anche quello siciliano).
Dunque, il piano:
- creare un modello linguistico ("language model") a partire dalla Wikipedia italiana, utilizzando programmi quali il CMU-LM, IRSTLM o SRILM;
- il modello permetterebbe, utilizzando lo stesso corpus da cui è stato tratto, di individuare le collocazioni più tipiche e atipiche che dovrebbero essere tradotte per iniziare il corpus parallelo
Anche per il glossario:
- con due modelli linguistici, e utilizzando due corpora da Wikipedia, si potrebbe creare un glossario statistico