Tatoeba

Da Wikipedia, l'enciclopedia libera.
Tatoeba

Tatoeba banner (Italian).png

Schermata della pagina iniziale di Tatoeba in italiano
Schermata della pagina iniziale di Tatoeba in italiano
URL http://www.tatoeba.org
Commerciale No
Tipo di sito Dizionario di frasi aperto, collaborativo e multilingue
Lingua Interfaccia in 17 lingue; contenuti in 90 lingue
Registrazione Opzionale
Proprietario Trang Ho
Creato da Trang Ho
Lancio 2006
Stato attuale online (beta), in progresso
Slogan Tatoeba: Perché una lingua è più della somma delle sue parole.

Tatoeba.org è un database online gratuito di frasi di esempio, orientato verso gli studenti di lingue straniere.

Il nome del progetto deriva dal termine giapponese 例えば tatoeba, che significa "per esempio". A differenza di altri dizionari online, che si concentrano sulle parole, Tatoeba si concentra su frasi complete, sulle loro proprietà grammaticali e sulle loro traduzioni in altre lingue.

La registrazione è facoltativa per la consultazione ma obbligatoria per potere contribuire al progetto, aperto a tutti i contributi a prescindere dalle conoscenze linguistiche degli utenti.

Il progetto Tatoeba è stato fondato da Trang Ho nel 2006 e fu inizialmente ospitato su Sourceforge sotto il nome del progetto "Multilangdict". Trang Ho mantiene e gestisce il progetto assieme ad Allan Simon, che si è unito al progetto nel 2009[1]. Tatoeba è ospitato e sostenuto dalla Free Software Foundation francese[2].

Contenuti[modifica | modifica sorgente]

A dicembre del 2013 il corpus di Tatoeba contiene quasi 3 milioni di frasi in 131 lingue. Una lista di quante frasi sono presenti per ciascuna lingua può essere trovata nella pagina delle statistiche di Tatoeba. L'interfaccia è disponibile in 19 diverse lingue, tra cui l'italiano. Ci sono procedure da seguire per aggiungere nuove lingue di interfaccia e di contenuto.

Tatoeba ospita anche il Tanaka Corpus, una volta di pubblico dominio, che contiene circa 150.000 coppie di frasi inglese-giapponese. Compilato dal professore della Università di Hyogo Yasuhito Tanaka, il corpus è stato pubblicato per la prima volta nel 2001 e sta ricevendo le sue revisioni più recenti su Tatoeba[3][4].

Interfaccia[modifica | modifica sorgente]

Ogni utente, anche se non registrato, può cercare parole in qualsiasi lingua all'interno del database e ottenere una lista di frasi contenenti quella data parola. Ogni frase nel database di Tatoeba viene visualizzata assiene a traduzioni in altre lingue; traduzioni dirette e indirette sono differenziate. Le frasi vengono etichettate in base ai contenuti quali il soggetto, la varietà linguistica o il registro, ma anche le discussioni sono utilizzate per facilitare le correzioni da parte di altri utenti e per aggiungere note culturali. Al momento quasi 10.000 frasi in 8 lingue contengono letture audio. Le frasi possono anche essere ricercate per lingua, etichetta o audio.

Gli utenti registrati possono aggiungere nuove frasi, tradurre o revisionare quelle esistenti, anche se la loro lingua di destinazione non è la loro lingua materna. Le traduzioni sono legate automaticamente alla frase originale. Gli utenti possono liberamente modificare le loro frasi, "adottare" e correggere le frasi senza un proprietario e commentare le frasi altrui. I contribuenti avanzati, un grado sopra i nuovi utenti, possono etichettare, collegare e scollegare le frasi. Solo gli utenti che hanno ricevuto lo status di "responsabile del corpus" e gli amministratori possono eliminare le frasi.

Struttura del database[modifica | modifica sorgente]

Un diagramma semplificato della struttura dei dati di Tatoeba.

La struttura dei dati di base di Tatoeba è una serie di nodi e collegamenti. Ogni frase è un nodo; ogni collegamento unisce due o più frasi con lo stesso significato[5].

Licenza[modifica | modifica sorgente]

L'intero database di Tatoeba è pubblicato sotto la licenza Creative Commons Attribution 2.0[6], rendendolo libero per un utilizzo accademico o educativo.

Riconoscimenti[modifica | modifica sorgente]

Tatoeba ha ricevuto nel dicembre 2010 una borsa di studio[7][8] da Mozilla Drumbeat.

Utilizzo[modifica | modifica sorgente]

I corpora paralleli come Tatoeba servono per l'elaborazione del linguaggio naturale, come ad esempio la traduzione automatica. I dati di Tatoeba sono stati utilizzati come dati per un treebanking del giapponese[9] e per la traduzione statistica delle macchine[10], così come per il dizionario giapponese-inglese WWWJDIC.

Note[modifica | modifica sorgente]

  1. ^ (FR) Tatoeba.org, base de données de phrases d'exemple in linuxfr.org, 17 luglio 2010. URL consultato il 23 giugno 2011.
  2. ^ (FR) Tatoeba, un dictionnaire de langues pour phrases d'exemples [Tatoeba, a dictionary of example sentences in several languages] in fsffrance.org, Paris, FSF France, 24 febbraio 2011. URL consultato il 23 giugno 2011.
  3. ^ Tanaka Corpus in EDRDG Wiki, Electronic Dictionary Research and Development Group, 3 febbraio 2011. URL consultato il 23 giugno 2011.
  4. ^ Jim Breen, WWWJDIC - Information in WWWJDIC, Monash University, 2 marzo 2011. URL consultato il 23 giugno 2011.
  5. ^ Trang Ho, How to be a good contributor in Tatoeba in Tatoeba Project Blog, 23 febbraio 2010. URL consultato il 23 giugno 2011.
  6. ^ Terms of use in Tatoeba.org. URL consultato il 23 giugno 2011.
  7. ^ Trang Ho, Grant from Mozilla Drumbeat in Tatoeba Project Blog, 17 gennaio 2011. URL consultato il 23 giugno 2011.
  8. ^ Henrik Moltke, Best Drumbeat Projects: Tatoeba – a free and open database of sentences in Yoyodyne.cc, 30 dicembre 2010. URL consultato il 23 giugno 2011.
    «...the Mozilla Foundation wants to encourage and help the Tatoeba project by giving it a USD 2.5K Mozilla Drumbeat Grant.».
  9. ^ Francis Bond, 栗林 孝行 [Takayuki Kuribayashi], 橋本 力 [Hashimoto Chikara] (2008) HPSGに基づくフリーな日本語ツリー バンクの構築 [A free Japanese Treebank based on HPSG]. In 14th Annual Meeting of The Association for Natural Language Processing, Tokyo.
  10. ^ Eric Nichols, Francis Bond, Darren Scott Appling and Yuji Matsumoto (2010) Paraphrasing Training Data for Statistical Machine Translation. Journal of Natural Language Processing, 17(3), pages 101-122.

Collegamenti esterni[modifica | modifica sorgente]

Linguistica Portale Linguistica: accedi alle voci di Wikipedia che trattano di Linguistica