Vai al contenuto

Tatoeba

Da Wikipedia, l'enciclopedia libera.
Tatoeba
sito web
Schermata della pagina iniziale di Tatoeba in italiano
URLwww.tatoeba.org
Tipo di sitoDizionario di frasi aperto, collaborativo e multilingue
LinguaInterfaccia in 20 lingue; contenuti in 178 lingue
RegistrazioneFacoltativa
CommercialeNo
ProprietarioTrang Ho
Creato daTrang Ho
Lancio2006
Stato attualeonline (beta), in progresso
SloganTatoeba: Perché una lingua è più della somma delle sue parole.

Tatoeba.org è un database online gratuito di esempi di frasi, orientato verso gli studenti di lingue straniere.

Il nome del progetto deriva dal termine giapponese 例えば tatoeba, che significa "per esempio". A differenza di altri dizionari online, che si concentrano sulle parole, Tatoeba si concentra su frasi complete, sulle loro proprietà grammaticali e sulle loro traduzioni in altre lingue.

La registrazione è facoltativa per la consultazione ma obbligatoria per potere contribuire al progetto, aperto a tutti i contributi a prescindere dalle conoscenze linguistiche degli utenti.

Il progetto Tatoeba è stato fondato da Trang Ho nel 2006 e fu inizialmente ospitato su Sourceforge sotto il nome del progetto "Multilangdict". Trang Ho mantiene e gestisce il progetto assieme ad Allan Simon, che si è unito al progetto nel 2009[1]. Tatoeba è ospitato e sostenuto dalla Free Software Foundation francese[2].

A settembre del 2014 il corpus di Tatoeba contiene più di 3360000 frasi in 178 lingue. Può essere trovato un elenco di quante frasi sono presenti per ciascuna lingua nella pagina delle statistiche di Tatoeba. L'interfaccia è disponibile in 20 diverse lingue, tra cui l'italiano. Ci sono delle procedure da seguire per aggiungere nuove lingue di interfaccia e di contenuto.

Tatoeba ospita anche il Tanaka Corpus, una volta di pubblico dominio, che contiene circa 150.000 coppie di frasi inglese-giapponese. Compilato dal professore della Università di Hyogo Yasuhito Tanaka, il corpus è stato pubblicato per la prima volta nel 2001 e sta ricevendo le sue revisioni più recenti su Tatoeba[3][4].

Ogni utente, anche se non registrato, può cercare parole in qualsiasi lingua all'interno del database e ottenere una lista di frasi contenenti quella data parola. Ogni frase nel database di Tatoeba viene visualizzata assieme a traduzioni in altre lingue; traduzioni dirette e indirette sono differenziate. Le frasi vengono etichettate in base ai contenuti quali il soggetto, la varietà linguistica o il registro, ma anche le discussioni sono utilizzate per facilitare le correzioni da parte di altri utenti e per aggiungere note culturali. Al momento quasi 142.00 frasi in 15 lingue contengono letture audio. Le frasi possono anche essere ricercate per lingua, etichetta o audio.

Gli utenti registrati possono aggiungere nuove frasi, tradurre o revisionare quelle esistenti, anche se la loro lingua di destinazione non è la loro lingua materna. Le traduzioni sono legate automaticamente alla frase originale. Gli utenti possono liberamente modificare le loro frasi, "adottare" e correggere le frasi senza un proprietario e commentare le frasi altrui. I contribuenti avanzati, un grado sopra i nuovi utenti, possono etichettare, collegare e scollegare le frasi. Solo gli utenti che hanno ricevuto lo status di "responsabile del corpus" e gli amministratori possono eliminare le frasi.

Struttura del database

[modifica | modifica wikitesto]
Un diagramma semplificato della struttura dei dati di Tatoeba.

La struttura dei dati di base di Tatoeba è una serie di nodi e collegamenti. Ogni frase è un nodo; ogni collegamento unisce due o più frasi con lo stesso significato[5].

L'intero database di Tatoeba è pubblicato sotto la licenza Creative Commons Attribution 2.0[6], rendendolo libero per un utilizzo accademico o educativo.

Riconoscimenti

[modifica | modifica wikitesto]

Tatoeba ha ricevuto nel dicembre 2010 una borsa di studio[7][8] da Mozilla Drumbeat.

I corpora paralleli come Tatoeba servono per l'elaborazione del linguaggio naturale, come ad esempio la traduzione automatica. I dati di Tatoeba sono stati utilizzati come dati per un treebanking del giapponese[9] e per la traduzione statistica delle macchine[10], così come per il dizionario giapponese-inglese WWWJDIC.

  1. ^ (FR) Tatoeba.org, base de données de phrases d'exemple, in linuxfr.org, 17 luglio 2010. URL consultato il 23 giugno 2011.
  2. ^ (FR) Tatoeba, un dictionnaire de langues pour phrases d'exemples [Tatoeba, a dictionary of example sentences in several languages], in fsffrance.org, Paris, FSF France, 24 febbraio 2011. URL consultato il 23 giugno 2011.
  3. ^ Tanaka Corpus, in EDRDG Wiki, Electronic Dictionary Research and Development Group, 3 febbraio 2011. URL consultato il 23 giugno 2011.
  4. ^ Jim Breen, WWWJDIC - Information, in WWWJDIC, Monash University, 2 marzo 2011. URL consultato il 23 giugno 2011.
  5. ^ Trang Ho, How to be a good contributor in Tatoeba, in Tatoeba Project Blog, 23 febbraio 2010. URL consultato il 23 giugno 2011.
  6. ^ Terms of use, in Tatoeba.org. URL consultato il 23 giugno 2011.
  7. ^ Trang Ho, Grant from Mozilla Drumbeat, in Tatoeba Project Blog, 17 gennaio 2011. URL consultato il 23 giugno 2011.
  8. ^ Henrik Moltke, Best Drumbeat Projects: Tatoeba – a free and open database of sentences, in Yoyodyne.cc, 30 dicembre 2010. URL consultato il 23 giugno 2011 (archiviato dall'url originale il 2 gennaio 2011).
    «...the Mozilla Foundation wants to encourage and help the Tatoeba project by giving it a USD 2.5K Mozilla Drumbeat Grant.»
  9. ^ Francis Bond, 栗林 孝行 [Takayuki Kuribayashi], 橋本 力 [Hashimoto Chikara] (2008) HPSGに基づくフリーな日本語ツリー バンクの構築 [A free Japanese Treebank based on HPSG]. In 14th Annual Meeting of The Association for Natural Language Processing, Tokyo.
  10. ^ Eric Nichols, Francis Bond, Darren Scott Appling and Yuji Matsumoto (2010) Paraphrasing Training Data for Statistical Machine Translation. Journal of Natural Language Processing, 17(3), pages 101-122.

Altri progetti

[modifica | modifica wikitesto]

Collegamenti esterni

[modifica | modifica wikitesto]
  • Pagina iniziale di Tatoeba in italiano, su tatoeba.org.
  • Blog ufficiale di Tatoeba, su blog.tatoeba.org.
  • Il video di presentazione di Tatoeba su YouTube
  • Tatoeba su Twitter
  • Tatoeba[collegamento interrotto] su Mozilla Drumbeat
  Portale Linguistica: accedi alle voci di Wikipedia che trattano di Linguistica