Progetto:Linguistica/Interpretare i dati di Ethnologue

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

Ethnologue è tra le fonti primarie di dati sulle lingue in Wikipedia. Ci sono diversi evidenti vantaggi nell'usare Ethnologue, oltre alla sua accessibilità universale: per molte lingue, è tutto quello che abbiamo; per altre, fornisce un controllo sulle inflazioni del numero di parlanti ai quali assistiamo in certi casi di vandalismo. Tuttavia, i dati di Ethnologue devono essere attentamente valutati e, se possibile, le loro fonti vanno verificate e citate direttamente; oppure fonti migliori possono essere usate al posto di Ethnologue, nel caso in cui queste siano note.

Ci sono, tuttavia, alcuni seri problemi comuni:

  • Gli alberi genealogici sono generati automaticamente, e non ci si deve affidare troppo ad essi. L'auto-generazione è distorta dalle singole voci negli articoli delle lingue. Nella 16^ edizione, per esempio, la famiglia maban è stata indicata come un ramo delle lingue luo, perché una delle lingue luo si chiamava maban. Allo stesso tempo, c'erano due rami separati di luo nel nilotico a causa della mancata corrispondenza dell'ortografia di "luo" tra gli articoli. Ai problemi più evidenti di questo tipo è stato posto rimedio nella 17^ edizione, ma gli alberi non sono ancora da considerarsi una fonte affidabile per la classificazione e la struttura dei nodi stessa potrebbe non essere affidabile. Molti dei nostri articoli dicono che ci sono tot lingue nel ramo X, sulla base di Ethnologue, ma tutto ciò che può essere fatto valere è la classificazione citata negli articoli individuali di Ethnologue e non quella delle pagine che mostra la famiglia.
  • I dati dei parlanti sono incoerenti. Per esempio, nella 14^ edizione, per il gawwada sono stati citati 32.698 madrelingua, tra cui 27.477 monolingui, in base al censimento del 1998. Nella 17^ edizione, i parlanti sono saliti a 68.600 in base al censimento del 2007, ma i monolingui sono rimasti 27.500. Non c'è motivo di pensare che la percentuale di monolingui sia cambiata drasticamente in dieci anni, quindi aggiungere il numero citato di monolingui in un articolo di Wikipedia sarebbe irresponsabile. Allo stesso modo, la dimensione citata del gruppo etnico potrebbe essere solo la metà del numero citato di parlanti, essendo di diversi decenni più vecchio. Se il numero di monolingui o membri del gruppo etnico non è citato da Ethnologue con una data, è inutile e non dovrebbe essere ripetuto qui. Il numero di parlanti e quello delle varietà della lingua potrebbero derivare da fonti diverse, con il risultato che il numero dei parlanti potrebbe non essere il totale di tutti i dialetti. Molto spesso, quando una lingua prende il nome da una delle sue varietà, il numero di parlanti è quella della varietà, non della lingua nel suo complesso. Inoltre, una lingua può essere suddivisa in codici ISO separati con il risultato che un articolo copre una delle varietà ma eredita il numero di parlanti di tutte le varietà del vecchio articolo. Ethnologue ha cercato di rimediare a questo negli ultimi anni, ma non è stata in grado di tornare indietro e correggere tali errori ereditati da vecchie edizioni.
  • L'aritmetica di Ethnologue è consistentemente inappropriata. Ad esempio, Ethnologue riporta per cinque lingue iraniane centrali 7.030 parlanti segnalati nel 2000. Sembra che la loro fonte elencava 35.000 altoparlanti totali e quindi Ethnologue divise la cifra in 5 per i singoli articoli, senza indicazione che il risultato era una congettura. Questo tipo di problema non è raro. Ancora più comunemente, Ethnologue aggiunge in uno stesso articolo dati incompatibili da varie fonti, senza prestare attenzione alle significatività delle cifre riportate. Per esempio, se una fonte ha riferito da 2 a 5 milioni di parlanti in un paese A nel 1975 e un altro 5-10.000 nel paese B nel 2006, Ethnologue segnala il totale come 3.507.500 parlanti (3.5 milioni, cioè la mediana di 2 e 5 milioni sommata a 7.500, la mediana di 5-10.000). Vecchie edizioni come la 14^ sono in realtà più affidabili in questo senso, in quanto tendono a notare che la stima per il paese A è di 2-5 milioni, mentre le edizioni successive semplicemente riportano 3.5 milioni come se fosse la cifra nella fonte. Se la fonte originale non può essere verificata, dovremmo almeno esaminare ciascuna delle cifre che compongono il totale e ripetere il calcolo, in modo da evitare imprecisioni per quanto possibile.
  • Le date non sono indicatori affidabili di quando i dati sono stati presi. A meno che i dati non siano quelli del censimento, il quale ha il problema di tutti i censimenti che i parlanti intenzionalmente riportano informazioni inesatte sulla loro lingua, le date indicate da Ethnologue sono in genere la data di pubblicazione della fonte consultata. Ovviamente possono essere passati diversi decenni da quando i dati sono stati raccolti. Il risultato è che una data più vecchia potrebbe segnalare gli stessi dati o dati più recenti di una data più recente. Per esempio, diverse lingue australiane sono citate come "SIL 2011" nella 17^ edizione. Tuttavia, nella 16^ tutte avevano lo stesso numero di parlanti citati da "Wurm e Hattori 1983." In altri casi, Ethnologue usa come fonte una vecchia edizione di Ethnologue o la fonte che utilizzato in una vecchia edizione. Inoltre, le fonti stesse possono avere problemi che non sono menzionati in Ethnologue. Ad esempio, una fonte del 1990 afferma che i suoi numeri sono copiati da una pubblicazione dal 1980 che si basava sul lavoro sul campo del 1950. Nella voce, tuttavia, è riportata solo la data del 1990. Facendo un altro esempio, i dati delle lingue hindi sono stati aggiornati tra la sedicesima e la diciassettesima edizione, sulla base del nuovo censimento indiano. Tuttavia, il censimento chiarisce che molti parlanti awadhi, per esempio, hanno riportato di parlare hindi piuttosto che awadhi. Il risultato è che la cifra nella 17^ edizione per la lingua hindi è inflazionata da forse 100 milioni di persone che sarebbero dovuti essere elencati in altre lingue, ma Ethnologue non da avviso di tutto ciò. Molte voci sono del tutto senza data. Alcuni di queste sono recenti sviste che saranno risolte nella prossima edizione, ma molti sono ereditati da vecchie edizioni di Ethnologue. In tali casi, citando l'edizione di Ethnologue che per prima ha riferito la cifra potrebbe dare al lettore qualche indicazione che non sono dati recenti.
  • Le cifre possono essere numeri etnici e di un ordine di grandezza maggiore del numero effettivo di parlanti. La sistemazione di questo problema è stata iniziata nella 17^ edizione, benché non sia chiaro quanto questa sistemazione sia completa.

Tutti questi problemi sono pienamente comprensibili: Ethnologue è un enorme progetto con una piccola redazione e un budget limitato. Per anni, data probabilmente la reputazione che Ethnologue aveva di non essere sempre ragionevole, molti linguisti non si sono preoccupati di correggere gli errori che trovavano. Fortunatamente, da circa il 2000 i membri di Ethnologue si sono mostrati riconoscenti del feedback.

LinguistList/Multitree comprende un gran numero di lingue non si trovano in Ethnologue, ma la loro identificazione è altamente inaffidabile e spesso si può notare la loro natura spuria anche solo con una rapida occhiata alla letteratura. Glottolog spesso fa un lavoro migliore rispetto alle altre due fonti, per esempio, nella verifica e nell'aggiornamento delle classificazioni, nella segnalazione delle lingue come spurie quando non è possibile verificarne l'esistenza e nella specificazione delle loro fonti. Tuttavia non può essere tenuta in considerazione per le varietà, casi nei quali hanno essenzialmente copiato Multitree.