Text Encoding Initiative

Da Wikipedia, l'enciclopedia libera.
Text Encoding Initiative

La Text Encoding Initiative (TEI) è un consorzio di istituzioni internazionali, di ambito linguistico e letterario, che ha sviluppato uno standard per la rappresentazione dei testi in forma digitale. La missione della TEI è quella di sviluppare e mantenere una serie di linee guida di alta qualità per la codifica di testi umanistici e per sostenere il loro uso da parte di comunità di progetti, istituzioni e singoli individui. Il consorzio ha sede presso l'Institute for Advanced Technology in the Humanities,319 Alderman Library, P.O. Box 400115, University of Virginia, Charlottesville, Virginia 22904-4115

Storia[modifica | modifica wikitesto]

La TEI è stata istituita nel 1987 per sviluppare e mantenere delle linee guida per la codifica digitale di testi letterali e linguistici. Attraverso le cosiddette Guidelines for Electronic Text Encoding and Interchange, la TEI definisce un linguaggio di markup (in XML) per la digitalizzazione dei testi, utile in particolar modo per coloro che intendono costituire archivi e banche dati testuali. L'idea di fondo era quella di creare uno standard per digitalizzare i testi letterari (in particolare testi antichi), per poterli conservare nel tempo in maniera efficiente. Dalla codifica digitale si ottengono anche altri benefici, come la portabilità dei testi, la facilità di archiviazione e la facilità di gestione attraverso gli strumenti informatici. In quell'anno, per mettere ordine tra i molti modelli e linguaggi di rappresentazione esistenti, venne organizzato un incontro al Vassar College, New York, in modo da poter affrontare questi problemi. L'incontro, che riunì gruppi di studiosi di varie discipline e rappresentanti di società professionali, biblioteche, archivi, e progetti in un certo numero di paesi in Europa, Nord America e Asia, fu la base per la fondazione della Text Encoding Initiative (TEI). Fu così che le tre maggiori associazioni mondiali che utilizzavano tecnologie digitali negli studi sulle scienze umane, l'Association for Computers and the Humanities (ACH), lAssociation for Computational Linguistics (ACL) e lAssociation for Literary and Linguistic Computing (ALLC) si riunirono per sponsorizzare il progetto. Ad esso iniziarono a collaborare gruppi di studiosi provenienti da diversi paesi. Dal 2000 la TEI è diventata un consorzio, ospitato e finanziato da alcuni enti ed università tra cui:

Il consorzio ha il compito di mantenere e sviluppare ulteriormente l'uso dello standard TEI. Gli obbiettivi sono:

  • Stabilire e mantenere una sede per la Text Encoding Initiative, con una struttura organizzativa permanente;
  • Garantire la continuità del finanziamento delle attività TEI come la manutenzione e lo sviluppo delle linee guida e DTD (Document Type Definition), attività di formazione e sensibilizzazione e servizi ai soci.

I principi fondamentali su cui è stabilito il consorzio TEI sono:

  • Gratuità delle linee guida, DTD e le altre documentazioni per gli utenti;
  • Partecipazione alle attività TEI (a qualsiasi livello) aperta a tutti gli utenti (iscritti e non);
  • Rendere il consorzio stesso organo di rappresentanza a livello internazionale;

Il Progetto[modifica | modifica wikitesto]

La fase iniziale ha portato alla creazione di un primo progetto, noto come "P1" (la lettera P sta per ‘proposta’), delle linee guida nel giugno del 1990. Una prima revisione, a cui parteciparono altri 15 gruppi di lavoro, si svolse nel periodo 1990-1993, arrivando così TEI “P2”. Questa versione incluse notevoli quantità di nuovi materiali. La prima versione ufficiale, denominata “P3”, venne rilasciata nel maggio del 1994. In seguito alla nascita dell'XML e della rapida adozione di questo nuovo metalinguaggio standard, divenne necessario aggiornare le linee guida TEI (scritte in SGML) per renderle compatibili con questo nuovo formalismo. Venne rilasciato un aggiornamento per rendere la versione P3 compatibile con XML e per consentire agli utenti di lavorare con il relativo set di strumenti. La versione P4 è stata pubblicata nel giugno 2002. Era essenzialmente una versione XML di P3, con poche modifiche sostanziali ai vincoli espressi negli schemi (ad eccezione di quelle rese necessarie per il passaggio a XML), e correggendo gli eventuali errori individuati nella precedente versione. Tuttavia, dato che P3 era stato nel frattempo in uso costante dal 1994, era chiaro che una revisione sostanziale del suo contenuto fosse stata necessaria, e subito sono iniziati i lavori sulla versione P5. Questo è stato progettato come una completa revisione delle versioni precedenti, con lo sviluppo di una nuova serie di settori fondamentali non trattati precedentemente, tra cui la codifica dei caratteri, la grafica, la descrizione manoscritta, biografica e geografica dei dati, markup. La versione P5 è stata rilasciata il 1º novembre 2007.

Le linee guida del progetto[modifica | modifica wikitesto]

Le linee guida TEI fanno raccomandazioni sui modi di rappresentazione adeguati, in grado di mettere in evidenza determinate caratteristiche di un testo, al fine di facilitarne l'elaborazione su un computer, indipendentemente dalla piattaforma utilizzata, descrivendo uno schema di codifica che può essere espresso in diversi linguaggi formali. Sono esplicitamente orientate alla creazione e allo scambio di informazioni testuali, ma considerano anche altre tipologie di informazioni (quali immagini e suoni). In particolare, vengono specificati una serie di marcatori (tag) che possono essere inseriti nel testo, al fine di contrassegnarne la struttura con le caratteristiche di interesse. Lo schema di codifica o linguaggio di markup indica l'insieme completo di norme connesse con l'uso di un linguaggio di marcatura in un determinato contesto. Lo schema di codifica TEI è particolarmente utile per facilitare lo scambio di dati tra utenti o gruppi di ricerca che utilizzano programmi e sistemi informatici diversi. Contiene un inventario con le caratteristiche più utilizzate per rappresentare testi. Le linee guida si applicano a qualsiasi tipo di testo, indipendentemente dalla data e dal genere letterario, senza restrizioni sulla forma o contenuto. Pur rivolgendosi principalmente alle esigenze della comunità accademica, questi orientamenti possono essere utili anche per bibliotecari, editori o per chiunque voglia creare o distribuire un testo elettronico. Anche se si concentrano sul problema di come rappresentare testi cartacei in forma elettronica, le linee guida sono applicabili anche su testi già digitalizzati. Come stabilito durante la conferenza al Vassar College, le linee guida devono avere determinate caratteristiche. In particolare devono:

  • essere semplici, chiare e concrete;
  • essere di semplice utilizzazione da parte degli utenti e ricercatori, senza dover ricorrere a software specializzati;
  • permettere una rigorosa definizione e un'efficiente elaborazione dei testi;
  • essere conformi agli standard esistenti o in procinto di essere adottati.
  • consentire estensioni definite dall'utente;

Le norme e le raccomandazioni sono espresse con il linguaggio di marcatura più diffuso per le risorse digitali di tutti i tipi: L'Extensible Markup Language (XML) e come insieme di caratteri è stato adottato l'ISO 646. Lo schema di codifica TEI non dipende da questo linguaggio, infatti originariamente fu formulato in SGML (ISO Standard Generalized Markup Language), un predecessore di XML. Le linee guida definiscono circa 500 diversi componenti testuali e concetti. L'attuale versione delle linee guida TEI è stata rilasciata il 1º novembre 2007. P5 è una revisione importante del progetto e offre numerose funzionalità nuove e altre migliorate. Con il rilascio di quest'ultimo, le linee guida sono cambiate di nuovo. Alcune delle modifiche più significative sono architettoniche: le linee guida sono scritte e memorizzate utilizzando una tecnologia diversa dalle precedenti e gli schemi TEI sono espressi non solo come DTD, ma anche nella lingua RELAX schema NG. Alcune delle modifiche riguardano il vocabolario e le limitazioni del linguaggio di codifica TEI, con l'aggiunta di nuovi elementi e migliorie ai modelli. Pur rompendo la compatibilità a ritroso con le precedenti versioni, è stata aggiornata in modo significativo la struttura di base degli elementi, suddividendoli in classi, per consentire una più facile e maggiore personalizzazione. Le linee guida TEI per loro natura, richiedono un continuo sviluppo e ricerca, poiché cercano di descrivere un dominio testuale che ancora è oggetto di studio e in costante evoluzione. Questo porta alla creazione di tag del tutto nuovi per specificare caratteristiche che erano state totalmente trascurate o affinare e aggiornare i moduli esistenti. Nella documentazione di P5, dove si preferisce utilizzare schema a scapito delle DTD, vengono fornite tutte le istruzioni per poter migrare al nuovo sistema dal precedente P4. Il consorzio mette a disposizione anche strumenti per la formazione degli utenti, come tutorial e documentazioni.

TEI Lite[modifica | modifica wikitesto]

Il sottoinsieme TEI Lite è stato sviluppato per facilitare l'applicazione dello schema di codifica da parte degli utenti, pur non avendo la conoscenza dell'intera DTD e della relativa documentazione, che in alcune parti potrebbe presentare difficoltà tecniche. Permette la creazione di documenti compatibili con l'intero schema TEI, in modo semplice e rapido. Per arrivare a fare questo, è stato necessario individuare un insieme di elementi essenziali di partenza che sono noti alla maggior parte degli utenti. Gli obbiettivi prefissati al fine di definire questo sottoinsieme sono:

  • Includere la maggior parte dei marcatori fondamentali TEI;
  • Poter trattare in modo adeguato il maggior numero di tipologie di testi;
  • Poter essere utilizzabile con la maggior parte dei software XML esistenti;
  • Essere derivabile dalle DTD TEI, escludendo gli elementi in base alle descrizioni delle guide linea;
  • Essere conciso e semplice, il più possibile;

Il manuale è stato ed è ancora aggiornato direttamente in formato XML, mediante la DTD che esso stesso descrive.

La TEI oggi[modifica | modifica wikitesto]

Oggi il TEI è riconosciuto come uno strumento di fondamentale importanza al livello internazionale, sia per la conservazione a lungo termine dei dati elettronici, che in altri ambiti disciplinari. È lo schema di codifica scelto per la creazione di documenti come critiche, testi scientifici e letterari, e per la gestione e produzione di metadati dettagliati associati a testi elettronici. Il successo della TEI ha aperto la strada per una migliore conservazione e distribuzione del nostro patrimonio culturale. Esso infatti potrà essere disponibile nel mondo della rete, per studenti e persone comuni. Le raccomandazioni del consorzio sono state approvate da molte organizzazioni, tra cui il National Endowment for the Humanities, Arts del Regno Unito e l'Humanities Research Board, Modern Language Association e molte altre agenzie di tutto il mondo per promuovere una sorta di biblioteca digitale e progetti di testo elettronico. Le linee guida TEI sono il prodotto più significativo del lavoro del Consorzio TEI, che si è impegnata a diffonderle nel modo più ampio. Per aumentare e sostenere l'utilizzo delle linee guida, il consorzio ha messo in atto varie attività di formazione e sensibilizzazione per gli utenti. Questi programmi di formazione sono svolti da vari gruppi all'interno della comunità TE. Sono messi a disposizione anche tutorial, documentazioni di progetto.

Voci correlate[modifica | modifica wikitesto]

Fonti[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]

Vedi anche

informatica Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica