Corpus

Da Wikipedia, l'enciclopedia libera.

Un corpus è una collezione di testi selezionati e organizzati per facilitare le analisi linguistiche. Il termine è noto fin dai tempi più antichi; a tal proposito può essere utile pensare al Corpus Iuris Civilis[1], al Corpus Inscriptionum Latinarum[2] e a molti altri che sono andati sviluppandosi nel tempo. I corpora possono essere creati su carta oppure oralmente, ma oggi il ruolo del computer nell'uso dei corpora è diventato così cruciale che ormai il termine stesso di “corpus” è spesso sinonimo di "corpus elettronico". Un esempio di corpus elettronico consultabile via web è quello riferito al quotidiano "La Repubblica". Il settore della linguistica in cui vengono usati i corpora è anche noto come Linguistica dei corpora. Altre aree menzionabili in cui i corpora sono utilizzati: Linguistica storica e comparativa in Italia, Comparative grammar negli Stati Uniti, Comparative philology nel Regno Unito.

Indice

Linguistica dei Corpora[modifica | modifica sorgente]

La linguistica dei corpora rappresenta una disciplina scientifica matura, che in cinquant'anni è riuscita a conquistare una posizione di indiscussa centralità nel panorama scientifico nazionale e internazionale, e in cui sono attivi ormai innumerevoli gruppi di ricerca. Servendosi di strumenti di analisi quantitativa e statistica, esplora le regolarità linguistiche che emergono dai testi e che costituiscono la base per la descrizione della struttura del linguaggio. L'obiettivo principale è quello di sviluppare modelli del funzionamento del linguaggio umano che possono essere tradotti in programmi eseguibili dal calcolatore e che gli consentono di acquisire le competenze necessarie per comunicare direttamente nella nostra lingua. Si tratta di un ambito di ricerca e di lavoro tipicamente interdisciplinare. Infatti, da un lato si intreccia con l'informatica e con l'ingegneria, per qualificare le attività rivolte allo sviluppo di applicazioni informatiche basate sulle tecnologie del linguaggio, mentre dall'altro lato essa dialoga, appunto, con la linguistica, le scienze cognitive, la psicologia, la filosofia e le scienze umane in generale, con le quali condivide l'obiettivo di indagare la struttura, il funzionamento e l'uso del linguaggio e il suo rapporto con le altre facoltà cognitive dell'uomo.

La storia[modifica | modifica sorgente]

La linguistica dei corpora nasce nella seconda metà del Novecento, come disciplina di frontiera sia rispetto al mondo umanistico che rispetto alle applicazioni più centrali delle scienze dell'informazione. Tra i primi risultati della disciplina troviamo lo sviluppo di programmi per lo spoglio elettronico dei testi, il calcolo della frequenza delle parole, la compilazione di indici e concordanze[3] e la creazione di ripetitori lessicali elettronici, conosciuti anche come dizionari elettronici. Negli anni cinquanta e sessanta Roberto Busa S. J. realizza il primo corpus elettronico delle opere di Tommaso d'Aquino presso il Centro per l'Automazione dell'Analisi Linguistica di Gallarate: si tratta di un corpus di circa 10 milioni di parole, una cifra enorme per le capacità dei computer del tempo. Nel 1957, parallelamente al diffondersi della grammatica generativa, in area anglosassone ha continuato a svilupparsi una tradizione di ricerca linguistica ancorata ad una metodologia di derivazione empirista, che fonda l'indagine linguistica sulla raccolta e l'analisi di corpora. Successivamente, nel 1964, alla Brown University negli Stati Uniti, Henry Kucera e W. Nelson Francis realizzano il primo corpus elettronico progettato e costruito per lo studio di una particolare varietà linguistica contemporanea, nel caso specifico l'inglese americano degli anni sessanta: il Brown Corpus, lungo circa 1 milione di parole. La dimensione dei corpora è andata sempre più crescendo e la loro disponibilità è diventata una variabile fondamentale in ogni fase di sviluppo e di valutazione degli strumenti per il TAL[4]. Al tempo stesso, la crescita del web, con la sua grande quantità di materiale testuale multiforme e in continua evoluzione, ha reso necessario lo sviluppo di tecnologie linguistiche in grado di confrontarsi con testi reali e non più con testi da laboratorio. La crescente disponibilità di corpora testuali ha facilitato l'innovazione metodologica in linguistica dei corpora, fornendo i dati linguistici[5] necessari per un uso intensivo dei metodi statistici. Inoltre, l'emergere dei linguaggi standard di marcatura del testo come XML, ha migliorato il processo di creazione, uso e interscambio dei corpora: oggi, infatti, il computer permette di immagazzinare quantità di dati testuali prima inimmaginabili e di interrogare in maniera avanzata il contenuto del corpus. Al tempo stesso, ha reso possibile l'annotazione linguistica[6] del testo su ampia scala, che consente di rappresentare in maniera esplicita e dettagliata la struttura e l'organizzazione linguistica del testo stesso, offrendo l'occasione per una riflessione rigorosa sulla natura dei dati annotati e sui modelli interpretativi più adatti per darne conto.

Classificazione[modifica | modifica sorgente]

La scelta dei testi può essere fatta su criteri diversi.

Generalità[modifica | modifica sorgente]

Il grado di generalità di un corpus dipende dalla misura in cui i suoi testi sono stati selezionati rispetto a varietà diverse di una lingua. I corpora specialistici sono orientati alla descrizione di una particolare varietà linguistica (sublanguage) o ad un ristretto dominio applicativo (si pensi al linguaggio giornalistico, infantile, giuridico, medico, ecc.); per questo motivo hanno il grado minimo di generalità. Al contrario, i testi dei corpora generali appartengono a diverse varietà linguistiche e sono selezionati per comporre il quadro descrittivo della lingua nel suo complesso. Si tratta, quindi, di corpora plurifunzionali che sono spesso progettati come risorse traversali di riferimento per lo studio di una lingua, ad esempio come fonte di dati per sviluppare un dizionario. Spesso i corpora generali sono articolati in vari sottocorpora, ovvero in sottoinsiemi di testi che appartengono ad una particolare varietà.

Modalità[modifica | modifica sorgente]

La grande diversità che caratterizza a tutti i livelli la lingua scritta e quella parlata rende la modalità (scritta e orale) di produzione dei testi un parametro estremamente rilevante per definire la fisionomia del corpus e anche deciderne gli usi più opportuni. Rispetto a questa dimensione possiamo suddividere i corpora in:

  • corpora di lingua scritta;
  • corpora di lingua parlata;
  • corpora misti.

I corpora di lingua scritta contengono solo testi prodotti originariamente in forma scritta, come libri o articoli di giornale, ecc. (si pensi, ad esempio, al Brown Corpus). I corpora di lingua parlata contengono solo testi originariamente prodotti in modalità orale e successivamente trascritti, come conversazioni spontanee, trasmissioni radiofoniche, ecc. (ad esempio il corpus CHILDES).

Da questi ultimi si distinguono i corpora audio, ovvero i campioni di linguaggio parlato in forma di segnale acustico, eventualmente accompagnati dalla loro trascrizione. Questi stanno acquistando sempre più importanza come strumenti per lo sviluppo di applicazioni per il riconoscimento o la sintesi automatica del parlato, in cui è necessario accedere a dati acustici. Un tipo di corpus ancora più di frontiera, ma in rapida diffusione, è il corpus multimediale (o corpus audio-visivo), che contiene le registrazioni audio-video di scambi comunicativi. Queste consentono di acquisire dati importanti non solo sulla struttura linguistica, ma anche sugli aspetti gestuali, facciali, emozionali e ambientali della comunicazione. I corpora misti contengono in proporzioni variabili sia testi prodotti in modalità scritta sia trascrizioni di lingua parlata (ad esempio è composto in questo modo il British National Corpus).

Cronologia[modifica | modifica sorgente]

I corpora differiscono anche per il modo in cui i testi sono selezionati rispetto all'asse temporale. In base alla cronologia è possibile distinguere corpora sincronici e corpora diacronici. I corpora sincronici includono testi che appartengono a una stessa finestra temporale, selezionata per lo studio di una particolare fase della lingua. I corpora diacronici comprendono, invece, testi appartenenti a periodi diversi, con lo scopo di descrivere il mutamento linguistico.

Lingua[modifica | modifica sorgente]

In base alla lingua esistono corpora monolingui e corpora bilingui (o multilingui), che possono essere ulteriormente distinti in corpora paralleli e corpora comparabili. I corpora monolingui contengono testi di una sola lingua. I corpora bilingui (o multilingui) contengono testi di due (o più) lingue. I corpora paralleli comprendono testi sia nella loro lingua originaria sia in traduzione in un'altra lingua. Se le unità linguistiche dei testi nella loro lingua originaria sono esplicitamente collegate alle unità linguistiche nei testi in traduzione in un'altra lingua che ne costituiscono le traduzioni, si parla di corpora paralleli allineati: l'unità tipica di allineamento è la frase. I corpora comparabili non contengono, invece, testi in traduzione, ma testi originali in lingue diverse. Questi corpora permettono di confrontare due o più lingue rispetto allo stesso genere testuale o dominio tematico; dal momento che i testi sono tutti originali, i dati raccolti possiedono un maggiore grado di naturalezza, evitando le artificiosità che talvolta conseguono dall'opera di traduzione.

Integrità[modifica | modifica sorgente]

I corpora possono contenere testi interi oppure porzioni di testi di lunghezza prefissata. Ad esempio, il Brown Corpus include campioni di 2000 parole, mentre i testi in "Parole" e in "Coris" sono integrali.

Codifica digitale dei testi[modifica | modifica sorgente]

Un ulteriore elemento di differenziazione tra corpora è il modo in cui sono rappresentati i testi digitali. Nei corpora codificati ad alto livello i testi sono arricchiti con etichette (codici) che rendono espliciti vari tipi di informazione, come ad esempio la struttura testuale e la composizione. Tipi particolari di corpora codificati sono i corpora annotati, nei quali le informazioni codificate riguardano la struttura linguistica del testo a livelli diversi di rappresentazione.

Bilanciamento[modifica | modifica sorgente]

Nella linguistica dei corpora il bilanciamento è assunto come condizione essenziale per garantire la rappresentatività di un corpus che voglia essere plurifunzionale e traversale rispetto alle diverse varietà di una lingua. Il bilanciamento presuppone la creazione di una descrizione accurata della popolazione linguistica di riferimento: è necessario dunque definire una mappa della lingua tracciando i confini spaziali e temporali (quali testi sono inclusi o esclusi dalla popolazione) e la tipologia dei testi (l'articolazione in strati della popolazione). Un bilanciamento corretto richiede una quantità consistente di testi selezionati per le diverse tipologie individuate nella popolazione. Se la selezione dei testi di un corpus è fatta bene, esso è ben bilanciato e quindi può essere rappresentativo.

Rappresentatività[modifica | modifica sorgente]

È rappresentativo un corpus che tiene traccia dell'intero ambito di variabilità dei tratti e delle proprietà di una lingua. Ciò significa che un corpus deve fornire un modello delle proprietà linguistiche del linguaggio analizzato, ovvero deve essere in grado di restituire un quadro delle varietà e delle tendenze linguistiche nel modo più accurato possibile, rispettandone le proporzioni e permettendo, in questo modo, di generalizzare le proprietà linguistiche del corpus all'intera popolazione[7]. Tuttavia non si può dimostrare che un corpus sia veramente rappresentativo di una determinata sezione del linguaggio e di conseguenza le informazioni ricavate dall'analisi di un corpus devono essere considerate al massimo delle ragionevoli assunzioni.

Dimensione[modifica | modifica sorgente]

La dimensione del corpus è determinata dal numero di parole contenute nel corpus stesso, per quanto riguarda i corpora di lingua scritta, e dal numero di ore di registrazione, per quanto riguarda i corpora di lingua parlata. È possibile distinguere corpus chiusi e corpus aperti. Il primo rappresenta il corpus standard tradizionale, in cui la quantità dei testi e delle parole è prefissata all'inizio del progetto. I corpora chiusi ci restituiscono una sorta di “fotografia” di una lingua attraverso i testi selezionati, ma non sono adatti a seguire i mutamenti e le evoluzioni che in una lingua avvengono come conseguenza della sua natura intrinsecamente dinamica. Per superare questo limite, John Sinclair ha proposto di estendere la nozione tradizionale di corpus in uno strumento di monitoraggio linguistico. Un corpus di monitoraggio (monitor corpus) è una collezione “aperta” di testi che muta nel tempo, introducendo nuovi testi selezionati secondo gli stessi criteri usati per determinare la collezione iniziale. Questo tipo di corpus permette per esempio di monitorare le dinamiche del lessico della lingua e dunque può essere usato in contesti lessicografici come fonte di dati per mantenere aggiornati i dizionari.

Evoluzione[modifica | modifica sorgente]

I corpora di prima generazione, negli anni sessanta e Settanta contenevano milioni di parole. Negli anni ottanta e Novanta, nei corpora di seconda generazione, troviamo decine di milioni di parole; dopo il 2000 si contano centinaia di milioni di parole. Nei corpora di ultima generazione, oggi si contano miliardi di parole.

  1. “I linguisti da sempre hanno utilizzato la parola corpus per descrivere una raccolta di esempi di uso naturale di una lingua, costituita a partire da poche frasi fino ad una serie di testi scritti o registrazioni, raccolti per condurre studi linguistici.” (Hunston, 2002: 2)
  2. “Una raccolta di testi scritti e/o parlati archiviati su un computer e adoperati per la ricerca linguistica e per scrivere dizionari.” (Macmillan English Dictionary, Second Edition, 2008)
  3. “Insieme di testi parlati o scritti utilizzati per compiere ricerche finalizzate a stabilire determinate caratteristiche del codice linguistico in esame e del suo uso.” (Corda, Marello 2004: 220)

Tipologia[modifica | modifica sorgente]

I corpora possono derivare dalla lingua scritta o dalla lingua parlata. Esempi di corpora di lingua scritta sono i libri, i giornali, le riviste e le pagine web. Le conversazioni telefoniche o faccia a faccia, invece, rappresentano corpus di lingua parlata.

Corpora di lingua italiana[modifica | modifica sorgente]

Corpora di lingua italiana scritta[modifica | modifica sorgente]

Parole[modifica | modifica sorgente]

Corpus di riferimento bilanciato sincronico, dell'italiano scritto contemporaneo. Il corpus è stato sviluppato nel progetto europeo “Parole” ed è comparabile con altri corpora per lingue europee.

CORIS/CODIS[modifica | modifica sorgente]

Il Corpus di Italiano Scritto contemporaneo (CORIS/CODIS) è un corpus di riferimento bilanciato sincronico dell'italiano scritto contemporaneo. Si tratta di un progetto iniziato nel 1998 dall'Università di Bologna, ideato e coordinato da R. Rossini Favretti e Fabio Tamburini. CORIS/CODIS contiene 130 milioni di parole, e viene aggiornato con cadenza triennale tramite un corpus di monitoraggio. È costituito da una raccolta di testi autentici e ricorrenti nell'uso, selezionati come rappresentativi dell'italiano attuale. Il corpus generale è strutturato in sottocorpora, che rappresentano le diverse varietà dell'italiano scritto. Accanto al CORIS si aggiunge il Corpus Dinamico dell'Italiano Scritto (CODIS). Quest'ultimo permette la selezione di sottocorpora e contiene gli stessi materiali del Coris, ma l'interfaccia di ricerca consente di selezionarli per gruppi e con dimensioni variabili dei gruppi.

LIF[modifica | modifica sorgente]

Il Lessico italiano di frequenza (LIF), elaborato al Centro Nazionale Universitario di Calcolo elettronico di Pisa nel 1971, rappresenta il primo grande progetto di costruzione di un lessico di frequenza per la lingua italiana. Esso è il risultato dello spoglio di un corpus di 500.000 occorrenze della lingua italiana contemporanea, dal quale sono stati ricavati dati statistici di diverso tipo su circa 5.000 lemmi. Il LIF è stato la base per la compilazione del Vocabolario di Base (VDB) della lingua italiana di Tullio De Mauro, che è composto, nella versione attuale, da 7.950 lemmi classificati in tre livelli.

LIZ[modifica | modifica sorgente]

Letteratura Italiana Zanichelli (LIZ) è una banca dati testuale che comprende integralmente 1000 testi letterari italiani, dalle Laudes creaturarum di Francesco d'Assisi alle opere di Pirandello e D'Annunzio. Gli autori maggiori sono presenti con le opere complete, i minori con i testi più significativi. LIZ consente di fare un elevato numero di ricerche, producendo concordanze, co-occorrenze, ricerche sequenziali, liste di frequenza, indices locorum, rimari, indici inversi ecc.

TLIO[modifica | modifica sorgente]

Il Tesoro della lingua italiana delle origini (TLIO) è un database testuale composto da circa 1.780 testi per circa 20 milioni di parole, tratte da scritti in lingua italiana prima del 1375, in prosa e in poesia. Basato sul corpus testuale dell'italiano antico dell'OVI (Opera del Vocabolario Italiano), il TLIO è nato nel 1995 ed è stato inaugurato nel 1998. Rappresenta, inoltre, la prima sezione cronologica del vocabolario storico italiano.

VELI[modifica | modifica sorgente]

Il Vocabolario elettronico della lingua italiana (VELI) è un progetto nato nel 1989 e guidato da Tullio De Mauro. È costituito da circa 10.000 lessemi ordinati per frequenza nella lingua italiana, di cui sono possibili le consultazioni con analisi grammaticale, forme flesse, sinonimi e sillabazione.

CoLFIS[modifica | modifica sorgente]

Il Corpus e Lessico di Frequenza dell'Italiano Scritto (CoLFIS) è stato costruito da costruito da Bertinetto, Burani, Laudanna, Marconi, Ratti, Rolando e Thornthon. È costituito da 3.150.075 occorrenze lessicali tratte da quotidiani del periodo 1992 - 1994 ('La Repubblica', 'La Stampa', 'Il Corriere della Sera'), periodici e libri di varia natura. Nel campionare i testi, gli autori hanno ponderato i dati dell'ISTAT relativi alle letture preferite dagli italiani, per ottenere un corpus che fosse il più possibile rappresentativo di ciò che gli italiani effettivamente leggono. Il lessico di frequenza tratto dal corpus include due sottoparti: il formario e il lemmario. Il formario contiene la frequenza di ciascuna forma presente nel corpus, senza distinguere fra i vari lemmi a cui la forma si può ricondurre. Il lemmario contiene invece le frequenze delle forme lemmatizzate, cioè ricondotte al lemma di provenienza e indica, inoltre, la frequenza delle parole “sintagmatiche”. COLFIS si distingue dai precedenti lessici di frequenza per il bilanciamento delle fonti, che conferisce un carattere di non casualità alle rilevazioni numeriche estraibili dall'archivio lessicale, e per la sua ampiezza, nel senso che non esistono molti altri esempi di corpora di queste dimensioni interamente lemmatizzati.

La Repubblica[modifica | modifica sorgente]

Questo corpus include le annate del quotidianoLa Repubblica” dal 1985 al 2000. Si tratta di un ampio corpus di italiano giornalistico composto da circa 380 milioni di tokens. Dalle macchine del LARL (Laboratorio di Analisi di Risorse Linguistiche) è possibile accedervi con username e password.

ItalNet[modifica | modifica sorgente]

Si tratta di un corpus generale diacronico della lingua italiana scritta. ItalNet è un consorzio internazionale, fondato nel 1995, che organizza e distribuisce database ed altri materiali di ricerca pertinenti agli studi italianistici, rendendoli accessibili via Internet agli studiosi di tutto il mondo.

DiaCORIS[modifica | modifica sorgente]

DiaCORIS è un corpus diacronico che comprende testi prodotti tra il 1861 e il 2001, suddivisi in periodi storici omogenei, rappresentativi della lingua italiana scritta. Può essere considerato come un'estensione della struttura e delle possibilità di ricerca del corpus sincronico dell'italiano scritto CORIS/CODIS.

Corpora di lingua italiana parlata[modifica | modifica sorgente]

AVI/API/IPar[modifica | modifica sorgente]

API/AVIP/IPar sono progetti di raccolta di materiale fonico spontaneo di lingua italiana, cui hanno partecipato variamente il laboratorio di linguistica della Scuola Normale Superiore di Pisa, il CIRASS e l'Istituto Orientale di Napoli, il Politecnico di Bari e l'Università del Piemonte Orientale.

CIT[modifica | modifica sorgente]

Il Corpus di Italiano Televisivo (CIT) è una raccolta di testi trascritti in formato elettronico da trasmissioni televisive selezionate (sono state escluse le fiction, i film, i telefilm, gli sceneggiati, le telenovelas, ecc.), mirata all'analisi delle caratteristiche lessicali e grammaticali dell'italiano trasmesso in televisione. Composto da 250.000 parole e successivamente programmato un ampliamento del corpus a 500.000 parole, il progetto ha avuto inizio nell'agosto 1998 e si propone di affiancare gli altri corpora elettronici dell'italiano che sono stati creati, specialmente in questi ultimi anni, per permettere di effettuare analisi linguistiche dell'italiano contemporaneo fondate su dati quantitativi strutturati e affidabili.

CLIPS[modifica | modifica sorgente]

Corpora Linguistici per l'Italiano Parlato e Scritto (CLIPS) rappresenta il corpus audio dell'italiano parlato di varie tipologie (dialogico, letto, parlato televisivo, conversazioni telefoniche e corpora speciali), bilanciato dal punto di vista diafasico e diatopico. È il secondo degli otto progetti del Cluster C18 "LINGUISTICA COMPUTAZIONALE: RICERCHE MONOLINGUI E MULTILINGUI", finanziato dal Ministero dell'Istruzione, dell'Università e della Ricerca (MIUR). È costituito da circa 100 ore di parlato, equamente ripartito tra voci maschili e voci femminili, in parte trascritto ortograficamente ed etichettato foneticamente. Le registrazioni sono state effettuate in quindici località italiane scelte in base a criteri di rappresentatività linguistica e socioeconomica: Bari, Bergamo, Bologna, Cagliari, Catanzaro, Firenze, Genova, Lecce, Milano, Napoli, Palermo, Parma, Perugia, Roma, Venezia. Per ogni località è stato raccolto il parlato radiotelevisivo, quello dialogico, quello letto da parlanti non professionisti, quello telefonico e quello letto da 20 parlanti professionisti e registrato in camera anecoica.

LABLITA[modifica | modifica sorgente]

Il Laboratorio Linguistico del Dipartimento di Italianistica (LABLITA) è nato nel 1973 e si occupa della raccolta e gestione di corpora con lo standard di trascrizione chat. Il fine è quello di studiare la lingua italiana orale sulla base di corpora di parlato spontaneo e conduce ricerche teoriche e sperimentali sull'intonazione dell'italiano. In questo corpus i testi sono trascritti, ma l'audio è disponibile in formato digitalizzato (wav).

LIP[modifica | modifica sorgente]

Il Lessico di frequenza dell'italiano parlato (LIP) costituisce la raccolta di testi dell'italiano parlato più importante e più utilizzata nella ricerca linguistica ed è la controparte del LIF per l'italiano parlato. Il corpus, costituito come il primo lessico di frequenza dell'italiano parlato nel 1990-1992, da un gruppo di linguisti diretto da Tullio De Mauro, è composto da circa 500.000 parole grafiche, trascrizioni di registrazioni effettuate a Milano, Firenze, Roma e Napoli, pari a quasi 57 ore di parlato. I lemmi dei suoi 469 testi furono raccolti in quattro città (Milano, Firenze, Roma e Napoli) e sono consultabili secondo frequenza e secondo ordine alfabetico.

Corpora di lingua italiana trasmessa[modifica | modifica sorgente]

LIR[modifica | modifica sorgente]

Il Lessico di frequenza dell'italiano radiofonico (LIR) è un corpus di circa 60 ore, trascritto ortograficamente e allineato all'audio mediante un apposito software, nato nel 1998. Gestito da LABLITA, LIR rappresenta un progetto di analisi del lessico e del corpus del parlato radiofonico.

Corpora di lingua inglese[modifica | modifica sorgente]

Corpora di lingua inglese scritta[modifica | modifica sorgente]

ANC[modifica | modifica sorgente]

American National Corpus (ANC) è un progetto americano tarato con gli stessi criteri del British National Corpus (BNC). Il corpus contiene 100 milioni di parole divise per vari generi secondo le percentuali del BNC e tratte da testi scritti e da trascrizioni di parlato.

Brown Corpus[modifica | modifica sorgente]

Il Brown Corpus of Standard American English (Brown Corpus) è un corpus di riferimento bilanciato sincronico della lingua inglese americana scritta, creato da W. N. Francis e H. Kucera nel 1961 e reso pubblico nel 1964 alla Brown University (Stati Uniti). Il corpus è costituito da 500 testi, presi da 15 categorie diverse, per un totale di un milione di parole. Dal momento che è stato il primo corpus linguistico elettronico dell'inglese americano, è stato probabilmente quello più usato nella ricerca. Oggi il Brown Corpus è accorpato all'insieme dell'ICAME.

LOB[modifica | modifica sorgente]

Il Lancaster-Oslo/Bergen Corpus (LOB) contiene circa un milione di parole in inglese britannico, in testi che partono dal 1961. Il corpus è stato tarato per essere il corrispondente britannico del Brown Corpus e contiene 500 testi di circa 2.000 parole divisi in 15 categorie diverse. È disponibile sia annotato (per parti del discorso) sia non annotato ed è distribuito nell'insieme di corpora ICAME.

OTA[modifica | modifica sorgente]

The Oxford Text Archive (OTA) è un database di testi elettronici letterari e scientifici e fornisce gratuitamente alcuni corpora di media grandezza.

Corpora di lingua inglese parlata[modifica | modifica sorgente]

CIC[modifica | modifica sorgente]

Il Cambridge International Corpus (CIC) è un database molto ampio, predisposto dalla Cambridge University Press. Comprende al suo interno il corpus di parlato inglese Cancode, composto di 5 milioni di parole; inoltre è costituito da circa 600 milioni di parole di inglese britannico e statunitense scritto e parlato, tratto da giornali, romanzi, saggi, trasmissioni tv e radio.

Corpora di lingua inglese scritta e parlata[modifica | modifica sorgente]

ICAME[modifica | modifica sorgente]

L'International Computer Archive of Modern and Medieval English (ICAME) è un corpus della lingua inglese, specificamente approntato per la ricerca linguistica, dal Norwegian Computing Centre for the Humanities (NCCH) di Bergen in Norvegia. Si tratta di un insieme di diversi corpora di inglese scritto e parlato.

BoE[modifica | modifica sorgente]

Il Bank of English (BoE) è un corpus in continua espansione (monitor corpus) di testi scritti e parlati in inglese britannico. Il progetto procede insieme al lavoro lessicografico del Collins COBUILD English Dictionary for Advanced Learners (2001) e dell'Università di Birmingham.

BNC[modifica | modifica sorgente]

Il British National Corpus (BNC) è un corpus misto, di riferimento bilanciato, sincronico, della lingua inglese britannica. È stato sviluppato tra il 1991 e il 1994 dalla Oxford University Press nel 1991. È composto da più di 100 milioni di parole, di cui il 90% deriva da testi in inglese contemporaneo scritti e il 10% da trascrizioni di parlato. Tutti i testi del corpus sono etichettati per parti del discorso (65 categorie classificate mediante il programma automatico "Claws" dell'Università di Lancaster).

Corpora di lingua francese[modifica | modifica sorgente]

Corpora di lingua francese scritta[modifica | modifica sorgente]

BDLEX[modifica | modifica sorgente]

BDLEX (Lexical Data and Knowledge Base of Spoken and Written French) è una banca dati costituita da circa 440.000 parole (per 50.000 lemmi).

Corpora di lingua francese parlata[modifica | modifica sorgente]

BREF[modifica | modifica sorgente]

BREF è un corpus di parlato continuo, ma non spontaneo, composto da testi tratti dal quotidiano francese “Le Monde”, letti ad alta voce da 120 diversi speakers.

Corpora di lingua spagnola[modifica | modifica sorgente]

Corpora di lingua spagnola scritta e parlata[modifica | modifica sorgente]

Corpus del español[modifica | modifica sorgente]

Il Corpus del español è stato ideato e gestito da Mark Davies e mette insieme una serie di corpora di origine diversa preparati negli anni. Contiene 100 milioni di parole di lingua spagnola scritta e orale dal 1200 ad oggi.

CREA[modifica | modifica sorgente]

Il Corpus de Referencia de la Lengua Española Contemporánea (CREA) della Real Academia Española è costituito da 100 milioni di parole tratte da testi] scritti e parlati (trascritti) dal 1975 ad oggi.

Corpora di lingua tedesca[modifica | modifica sorgente]

Corpora di lingua tedesca scritta[modifica | modifica sorgente]

COSMAS[modifica | modifica sorgente]

COSMAS I e II (Corpus Storage, Maintenance and Access System) è un corpus in sviluppo dal 1992, all'IDS (Institut für Deutsche Sprache) di Mannheim, che oggi conta circa 1.080 milioni di parole.

Negra Corpus[modifica | modifica sorgente]

Negra Corpus è un progetto dell'Università di Saarland, relativo a testi degli anni novanta.

Corpora multilingui e paralleli[modifica | modifica sorgente]

BAF[modifica | modifica sorgente]

French - English Parallel Corpus (BAF) è un corpus di testi istituzionali paralleli (mutue traduzioni) di inglese e francese.

BoLC[modifica | modifica sorgente]

Il Bononia Legal Corpus (BoLC) è un corpus di testi giuridici in lingua italiana e inglese. È il risultato di un progetto di ricerca finalizzato alla costruzione ed all'analisi di corpora giuridici paralleli e comparabili. Il progetto è stato ideato nel 1997, sviluppato al Università di Bologna e coordinato da R. Rossini Favretti; i supporti informatici, invece, sono stati sviluppati da Fabio Tamburini.

CALLHOME[modifica | modifica sorgente]

CALLHOME è un corpus multilingue di parlato conversazionale, che copre spagnolo, cinese, giapponese, inglese americano, tedesco ed arabo.

CHILDES[modifica | modifica sorgente]

Child Language Data Exchage System (CHILDES) è un progetto finalizzato alla composizione di un corpus del parlato dei bambini, delle conversazioni con bambini e di alcune patologie del linguaggio.

C-Oral-Rom[modifica | modifica sorgente]

C-Oral-Rom è un corpus audio della lingua parlata spontanea. Il corpus è stato realizzato nel progetto europeo C-Oral-Rom ed è comparabile con altri corpora di spagnolo, francese e portoghese.

Crater[modifica | modifica sorgente]

Crater è un corpus trilingue di inglese, francese e spagnolo.

ECI/MCI[modifica | modifica sorgente]

European Corpus Initiative Multilingual Corpus (ECI/MCI) è nato nel 1994 con l'obiettivo di creare e diffondere il corpus multilingue.

INTERSECT[modifica | modifica sorgente]

INTERSECT (International Sample of English Contrastive Texts) è un progetto dell'Università di Brighton per la costruzione e l'analisi di testi scritti paralleli Inglese-Francese.

MULTEX[modifica | modifica sorgente]

MULTEXT (Multilingual Text Tools and Corpora) è un corpus specialistico multilingue (inglese, francese, tedesco, spagnolo, italiano) parallelo. I testi sono tratti dall'“Official Journal of the European Community”. L'obiettivo è quello di definire standard per la codifica dei corpora, per lo sviluppo di strumenti applicativi e risorse multilingui.

Real Parallel Corpus[modifica | modifica sorgente]

Real Parallel Corpus (German-English Translation Corpus) raccoglie testi paralleli in inglese (americano e britannico) e tedesco.

TRIPTIC[modifica | modifica sorgente]

TRIPTIC (TRIlingual Parallel Text Information Corpus) è un corpus di inglese, francese e olandese composto da circa 2 milioni di parole, in testi paralleli allineati.

TRACTOR[modifica | modifica sorgente]

TRACTOR (TELRI Research Archive of Computational Tools and Resources) è un progetto mantenuto dal Centre for Corpus linguistics dell'Università di Birmingham. Si tratta di un archivio di materiali e software per l'analisi di corpora. Tra le lingue trattate ci sono le principali lingue europee e anche il bulgaro, il ceco, le lingue baltiche, il rumeno, il russo e altre.

Tatoeba[modifica | modifica sorgente]

Tatoeba è un corpus parallelo open source che raccoglie frasi in 90 differenti lingue, di cui le prime dieci per importanza sono costituite da inglese, giapponese, esperanto, francese, tedesco, spagnolo, polacco, cinese mandarino, russo e italiano

Altri corpora internazionali usati[modifica | modifica sorgente]

CHC[modifica | modifica sorgente]

Il Canadian Hansards Corpus (CHC) è un corpus specialistico bilingue (inglese e francese canadese) parallelo, i cui testi sono tratti dagli atti del Parlamento canadese.

Switchboard Corpus[modifica | modifica sorgente]

Lo Switchboard Corpus è un corpus specialistico dell'inglese americano. Basato sulle conversazioni telefoniche, è usato per addestrare i programmi per il riconoscimento automatico del parlato.

HCRC Map Task Corpus[modifica | modifica sorgente]

L'HCRC Map Task Corpus è un corpus audio di dialoghi semi-spontanei raccolti col metodo “map task” da parlanti adulti di inglese britannico.

Note[modifica | modifica sorgente]

  1. ^ È un'opera monumentale realizzata da una commissione di giuristi diretta da Triboniano, voluta dall'imperatore Giustiniano (527-565) per riordinare il sistema giuridico dell'imperatore. La raccolta è divisa in tre parti: le Istituzioni, che espongono i principi generali del diritto; il Digesto, che contiene gli scritti dei giuristi classici; il Codice, che raccoglie le leggi promulgate dagli imperatori romani, a partire da Adriano.
  2. ^ È una raccolta di iscrizioni latine sino alla caduta dell'impero di Roma, di qualsiasi natura (pubblica, sacra, sepolcrale, onoraria, rupestre, graffiti etc.), e su ogni supporto epigrafico (per lo più pietra e bronzo) tranne che su papiro.
  3. ^ Le concordanze rappresentano una lista delle occorrenze di una parola presente in un contesto linguistico.
  4. ^ Trattamento Automatico del Linguaggio Naturale.
  5. ^ Rappresentano i prodotti del linguaggio che sono oggetto di un processo di analisi e che formano l'evidenza empirica su cui fondare lo sviluppo di modelli e teorie linguistiche. Fra le fonti dei dati linguistici troviamo: dati linguistici controllati, raccolti in contesti sperimentali e in situazioni idealizzate, che si basano sulle intuizioni linguistiche dei parlanti; dati linguistici ecologici, nati da osservazioni degli usi linguistici in contesti e situazioni reali, basati, appunto, su testi prodotti dai parlanti; testo, ovvero qualsiasi prodotto dell'attività linguistica dei parlanti elaborato o trascritto come sequenza dei caratteri.
  6. ^ Annotare un corpus significa aggiungere ad un corpus codici che rendono esplicita e machine readable l'informazione relativa alla struttura linguistica del testo. È possibile individuare diversi livelli di annotazione linguistica: sintattica, morfosintatica, lemmatizzazione, semantica, fonetica (per quanto riguarda i corpora di parlato), e così via.
  7. ^ Popolazione linguistica: linguaggio oggetto di studio.

Bibliografia[modifica | modifica sorgente]

  • Alessandro Lenci, Simonetta Montemagni, Vito Pirrelli. Testo e computer. ISBN 88-430-3425-1. Carocci Editore, Roma, 2005
  • Cresti Emanuela, Panunzi Alessandro. Introduzione ai corpora dell'italiano, Il Mulino, Bologna, 2013.
  • Stefania Spina. Fare i conti con le parole. Introduzione alla linguistica dei corpora. Perugia, Guerra, 2001

Collegamenti esterni[modifica | modifica sorgente]