Analisi testuale
Le tecniche di analisi testuale consentono di analizzare, esplorare e interrogare raccolte di testi anche molto vasti di particolare interesse come documenti, interviste, rassegne stampa, domande aperte in questionari, forum, newsgroup e altro. A partire dagli anni novanta la crescente diffusione dei software per l'analisi dei testi ha impresso una notevole accelerazione all'uso dei documenti nella ricerca sociale (impiegati anche in ambiti diversi da quello delle comunicazioni di massa), determinando la crescita esponenziale di applicazioni e soluzioni.
Indice |
[modifica] La preparazione del testo e i programmi per l'analisi testuale
Una volta definito l'insieme dei testi da analizzare, è necessario curarne l'organizzazione interna e la trascrizione, prestando attenzione soprattutto ai seguenti requisiti:
a) la comparabilità dei testi;
b) la disponibilità di una o più caratteristiche da associare a ciascun frammento (ad esempio il genere o l'età dell'autore o la data o la testata di un articolo di giornale);
c) le dimensioni del testo: è necessario disporre di testi sufficientemente lunghi (minimo 20.000 parole o occorrenze) che rendano vantaggioso il ricorso a tecniche automatiche di analisi.
I programmi per l'analisi testuale possono essere distinti in due gruppi:
a) i software del tipo CAQDAS (Computer-aided qualitative data analysis software) che consentono di etichettare manualmente porzioni di testo con codici alfanumerici riferiti ai concetti che i ricercatori desiderano evidenziarvi (i più noti sono The Ethnograph, NUD.IST, Atlas, e Nvivo);
b) i software finalizzati all'analisi semi-automatica mediante tecniche statistiche e lessicali (i più noti sono SPAD, Sphinx, Alceste, Lexico, Wordmapper, Taltac e Tlab).
I software del primo gruppo sono utilissimi per navigare il testo ma all'aumentare delle dimensioni dei testi da analizzare il lavoro di codifica diventa molto oneroso. I software del secondo gruppo si basano invece sull'analisi delle parole e delle loro relazioni all'interno del testo e sono particolarmente appropriati per l'analisi sistematica di testi di ampie dimensioni.
[modifica] Operazioni di analisi
In genere il punto di partenza è l'analisi delle parole diverse che compongono il corpus, ordinate per valori decrescenti di frequenza (vocabolario). Tra le parole ad alta frequenza di un vocabolario, oltre a quelle di contenuto strumentale (di, e, che, per, etc.), poco informative e generalmente presenti in tutti i testi, ci si imbatte subito nelle cosiddette “parole tema”, che proprio per via della loro elevata frequenza consentono di cogliere immediatamente gli argomenti principali del testo.
I passi di analisi che consentono di descrivere in modo semi automatico il contenuto di un testo sono i seguenti:
- analisi dei segmenti ripetuti;
- analisi delle co-occorrenze;
- analisi delle parole caratteristiche;
- analisi del linguaggio peculiare;
- analisi delle parole con caratteristiche grammaticali omogenee;
- analisi delle concordanze;
- analisi delle corrispondenze lessicali.
I segmenti ripetuti sono quelle forme composte, costituite da parole che compaiono nel corpus con la stessa sequenza. Alcuni di essi sono particolarmente rilevanti dal punto di vista semantico, poiché consentono di delimitare i significati delle parole presenti nel testo (ad esempio: carta di credito, Capo dello Stato, politica economica, guardia di finanza). L'insieme dei segmenti ripetuti significativi di un testo aiuta a fornire una rappresentazione sintetica dei contenuti del corpus e a individuare rapidamente attori, oggetti e azioni su cui è strutturato il testo.
L'analisi delle co-occorrenze consente di studiare le associazioni tra parole, individuando quelle parole che compaiono più spesso vicine tra loro.
L'analisi delle parole caratteristiche (o specifiche) consente di differenziare le diverse parti di un testo evidenziando quelle parole che sono sovrarappresentate nel linguaggio di una categoria di autori (per esempio le donne, gli articoli di una determinata testata, etc.). In questo modo è possibile caratterizzare il linguaggio, o più semplicemente i riferimenti tematici sovra-rappresentati in determinati gruppi di individui.
Per l'analisi del linguaggio peculiare è necessario disporre di una particolare risorsa linguistica, i lessici di frequenza, generalmente costruiti per rappresentare il linguaggio comune di una determinata comunità linguistica. In queste liste composte da milioni di occorrenze e derivate da fonti diverse (stampa, linguaggio parlato, letteratura, etc.), a ciascuna parola è associata una frequenza, che serve a indicare l'uso atteso di ogni parola nella comunità linguistica a cui il lessico è riferito. Se si confronta il vocabolario del testo in esame con quello del lessico di frequenza prescelto è possibile ottenere una lista di parole sovra-rappresentate che corrispondono al linguaggio peculiare del testo stesso.
Anche l'insieme delle parole con caratteristiche grammaticali omogenee può essere utile per l'analisi: ad esempio l'insieme dei verbi ricondotti al lemma può fornire una graduatoria delle azioni menzionate nel testo, l'insieme degli aggettivi fornisce elementi per valutare il tono di un testo, oppure l'insieme e il tipo di pronomi può dar conto del tipo di interazione presente tra soggetti che caratterizza il testo.
Per ritornare al testo originario è molto utile l'analisi delle concordanze (Key word in context), tecnica che consente di analizzare il contesto d'uso di una parola di interesse (o di gruppi di parole con la stessa radice) visualizzando le n parole precedenti e le n successive alla parola in analisi, tutte le volte che questa compare nel corpus. L'analisi delle concordanze è indispensabile sia per risolvere alcune delle ambiguità semantiche, sia per ricostruire per ogni parola i riferimenti tematici a cui questa rinvia, tracciando una mappa concettuale tra parole e temi affrontati.
L'analisi delle corrispondenze lessicali è una tecnica multivariata che consente di sintetizzare l'informazione contenuta in una grossa matrice di dati testuali, visualizzando sul piano fattoriale l'associazione tra le forme (parole) all'interno del testo in analisi, cercando la migliore rappresentazione simultanea degli elementi di riga e colonna, in modo da studiare l'interdipendenza tra caratteri. Gli assi possono essere interpretati in qualità di dimensioni semantiche attraverso cui leggere il corpus: la vicinanza tra parole sul piano fattoriale rinvia infatti a una loro combinazione o associazione nel testo, e l'esplorazione delle associazioni tra le parole contribuisce alla lettura/descrizione del corpus.
[modifica] Bibliografia
- Bolasco Sergio, Analisi multidimensionale dei dati. Metodi, strategie e criteri d'interpretazione, 1999, Roma, Carocci, ISBN 8843014013.
- della Ratta-Rinaldi Francesca, L'interpretazione sistematica del materiale derivante da focus group attraverso l'analisi testuale, in “Sociologia e Ricerca Sociale”, 2005, XXVI (76-77), pp. 91-104.
- Giuliano Luca - Gevisa La Rocca, L’analisi automatica e semi-automatica dei dati testuali, 2008, Milano, LED Edizioni Universitarie, ISBN 978-887916-382-8
- Lebart Ludovic, Salem André, Analyse statistique des données textuelles. Question ouverte et lexicométrie, 1988, Paris, Dunod, ISBN 2100022393.
- Jenny Jacques, Méthodes et pratiques formalisées d'analyse de contenu et de discours dans la recherche sociologique française contemporaine. Etat des lieux et essai de classification, in “Bulletin de Méthodologie Sociologique”, 1997, 54, pp.64-112.
- Silverman David, Come fare ricerca qualitativa, 2002, Roma, Carocci, ISBN 8843021397.
- Tipaldo Giuseppe, L'analisi del contenuto nella ricerca sociale. Spunti per una riflessione multidisciplinare, 2007, Torino, Stampatori, ISBN 978-88-88057-80-4.
[modifica] Voci correlate
- Analisi sintattica
- Analizzatore lessicale
- Data mining
- Elaborazione dati
- Intelligenza competitiva
- Token (testo)
[modifica] Collegamenti esterni
- Definizione da One Minute Dictionary, dizionario in video di BitMAT