Wikipedia:Bar/Discussioni/Statistiche sull'utilizzo dei template relativi alle fonti

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

Statistiche sull'utilizzo dei template relativi alle fonti


Ciao a tutti, qualche giorno fa su Facebook un utente ha lanciato una discussione (screenshot per chi non avesse accesso a Facebook (il post è comunque pubblico)) relativa al fatto che, secondo lui, su Wikipedia in lingua italiana c'è una sovrabbondanza di utilizzi del template {{F}} per indicare la mancanza di fonti in una voce. Come parte del mio lavoro all'Università di Trento sto lavorando con un tesista (laurea triennale in informatica), Mattia Lago, su una tesi che riguarda lo studio dell'evoluzione storica dell'utilizzo dei template quindi posso dare qualche informazione aggiuntiva, seppur preliminare, alla discussione. Questo è il testo del commento originale su Facebook:

«Bazzico le Wikipedie in varie lingue, in italiano riscontro alcune sindromi. Una è la "fontite": un numero incredibile di voci riporta l'avviso sotto. Ipotesi: centinaia di migliaia di voci sono inaffidabili? Oppure c'è la mania degli "avvisi"? Ho uno zinzino approfondito: in molti casi qualcuno ha applicato la mancanza di fonti in tempi lontani , per motivi non chiari, poi nel corso del tempo è stata inserita bibliografia, note, riferimenti in abbondanza, ma sembra che ci sia un timore reverenziale a rimuovere il sacro avviso.»

Questi sono alcuni grafici:

Evoluzione dell'uso del Template:F in itwiki
Evoluzione dell'uso del Template:NN in itwiki
Evoluzione dell'uso del Template:Unreferenced in enwiki
Evoluzione dell'uso del Template:Refimprove in enwiki
Evoluzione dell'uso del Template:Nofootnotes in enwiki

In tutti i grafici, la linea blu scuro (total) indica il numero di utilizzi totali, la linea blu chiaro (uniq) indica gli utilizzi unici. La differenza è importante per i template che possono essere usati più volte in una pagina. Se un template è usato tre volte in una stessa voce total conteggerà 3 mentre uniq solo 1.

Al di là dell'andamento storico (che, per quanto mi riguarda, è la parte principale dello studio che stiamo conducendo) un dato da tenere presente è che il numero totale di voci su enwiki è di circa 5.000.000 (il traguardo è stato superato proprio oggi), mentre per numero totale di voci su itwiki è di circa 1.250.000, ovvero c´è un fattore 4 tra il numero di voci su enwiki e il numero di voci su itwiki. In quest'ottica i template per la citazione fonti sono molto più usati su itwiki che non su enwiki, per esempio il template {{NN}} conta 5063 utilizzi su itwiki e il corrispondente {{Nofootnotes}} conta 1982 utilizzi.

Alcuni caveat:

  • i dump usati sono quelli del 05/08/2015 (enwiki) e del 01/09/2015 (itwiki);
  • questo lavoro è tuttora in corso, quindi questi risultati sono preliminari;
  • in questi grafici non si tiene conto del fatto che un template può comparare in più forme perché, per esempio, possiede dei redirect, per esempio il {{F}} esiste anche nella forma {{Senza fonte}}. Stiamo elaborando i dati per tenere conto anche di questi dati;
  • le statistiche iniziano dai primi dati disponibili nel dump, alcuni template potrebbero essere stati creati (e usati) prima del primo utilizzo mostrato in questi grafici.

Ogni commento è benvenuto. --CristianCantoro - Cieli azzurri! (msg) 15:57, 1 nov 2015 (CET)[rispondi]

L'ho espresso più volte, certi template, soprattutto l'NN, sono destinati a non essere mai rimossi. Scrivere le voci può essere divertente, cercare le note per una lunga voce già scritta è un massacro dei testicoli che pochi possono affrontare. la situazione è aggravata secondo me dalla leggerezza con cui alcuni utenti mettono questi template, non in ragione di seri dubbi, ma solo perché esteticamente notano l'assenza o la ristrettezza del campo note (o sim.). Provare a rimuovere il template prima di aver trovato almeno una nota per ogni singola frase ti espone a un fuoco incrociato di rollback che neanche ai flamer più incalliti. Naturalmente se metti note a caso tutto a posto, tanto nessuno controlla, l'importante è avere le sacre note (l'ho fatto mi pare per un libro che avevo restituito in biblioteca e non potevo più controllare il numero di pagina, l'ho messo un po' a memoria, tutto a posto). --Sailko 16:06, 1 nov 2015 (CET)[rispondi]
[× Conflitto di modifiche] piccolo commento a margine: potrei sbagliarmi sull'interpretazione degli assi (2013 indica gennaio di quell'anno? dal numero di lineette successive mi pare di sì), ma l'aumento delle voci taggate come F mi sembra che più o meno coincida con le discussioni sulla creazione di un FdQ dedicato alle fonti (poi realizzatosi nel gennaio 2014). la cosa incredibile è che il successivo picco si ha proprio con il periodo del festival che avrebbe dovuto ridurre il numero di avvisi. sto leggendo male io il grafico o c'è qualcosa che non quadra? --valepert 16:20, 1 nov 2015 (CET)[rispondi]
A margine: per i dati dettagliati a partire da giugno 2014 si può guardare qui. --Epìdosis 16:30, 1 nov 2015 (CET)[rispondi]
[@ valepert]: Stai leggendo il grafico correttamente. Rispetto ai dati, posso dire che i numeri tornano con il dettaglio disponibile su MaintGraph (che non conoscevo), almeno per il periodo disponibile. Per esempio c'è un salto di circa 3000 utilizzi intorno al 20 gennaio 2015 che è visibile in entrambi i grafici (su MaintGraph sembra molto più grosso perché la scala sulle ordinate è diversa). --CristianCantoro - Cieli azzurri! (msg) 16:57, 1 nov 2015 (CET)[rispondi]
Molti degli scatti verticali sono opera di bot. In particolare quello tra il 2013 e il 2014 sono edit del mio. Degli altri ho la memoria confusa, ma sicuramente ho bissato il lavoro. Si trattavano di cluster di voci molto simili (per cui era facile mettere in automatico l'argomento) senza {{S}} e senza alcuna delle 5 sezioni standard delle fonti. Con questi parametri c'era un margine di lavoro di altri 30K voci ma poi a causa di consenso altalenante il tutto si è arenato. --AlessioMela (msg) 17:44, 1 nov 2015 (CET)[rispondi]
l'opera di un bot spiega i picchi (e dimostra che, nonostante la buona volontà dei wikipediani, il trend è crescente anche dovuto banalmente all'aumento delle voci che dovrebbe seguire lo stesso andamento generale della curva). per quanto riguarda l'ultimo grafico, l'unico in discesa, mi sovviene il dubbio che gli inglesi siano passati dal "No footnotes" al "More footnotes", quest'ultimo non plottato nell'analisi precedente. --valepert 18:18, 1 nov 2015 (CET)[rispondi]
Grazie valepert e AlessioMela per i contributi. Possiamo produrre anche il grafico per "More footnotes". Il prossimo passo, come detto sopra, è anche considerare i redirect. @Alessio, vediamo anche di fare in modo di pubblicare il codice. --CristianCantoro - Cieli azzurri! (msg) 19:57, 1 nov 2015 (CET)[rispondi]

Visto che si sono fatte aggiunte di massa secondo criteri semplificati, forse sarebbe anche il caso di rimuovere automaticamente alcuni degli avvisi di carenza fonti laddove la situazione sia molto cambiata nel frattempo. È notorio che spesso gli avvisi vengono semplicemente dimenticati là dove sono, però un alto tasso di falsi positivi getta il discredito su tutti gli avvisi rendendoli del tutto inutili. Si fa sempre tempo a reinserirli. Nemo 22:06, 1 nov 2015 (CET)[rispondi]

Favorevole su Nemo --Sailko 22:31, 1 nov 2015 (CET)[rispondi]
Per cominciare, se si è fontato pure le virgole togliere l'avviso F (o NN o PSV o SSCN eccetera) non è sbagliato, ragazzi. Secondo, uno non mette gli avvisi perché è cattivo, lo mette magari perché in una voce non si capisce da dove una o più frasi sono state prese, per esempio: ragazzi, le fonti servono anche per evitare contestazioni, per capire l'enciclopedicità del soggetto della voce, eccetera.. Terzo, se si mette una fonte non è che s'accire nu criaturo, quindi non è che bisogna vederlo come se fosse uno strazio ;).. --79.49.9.101 (msg) 22:42, 1 nov 2015 (CET)[rispondi]
Concordo, d'altro canto l'utente (magari inesperto) che aggiunge le fonti spesso non sa se/come rimuovere l'avviso. Aggiungere un avviso di possibile obsolescenza di un altro avviso mi pare ridicolo ;) quindi meglio togliere se sospettiamo sia obsoleto. Nemo 22:51, 1 nov 2015 (CET)[rispondi]
l'importante è però che la voce sia davvero ben fontata: se ci sono per esempio 200 frasi ed in bibliografia ci sono 10 libri ma non ci sono collegamenti tra frasi e libri ci sta poco da fare, la voce non è fontata bene, ragazzi! --79.49.9.101 (msg) 22:58, 1 nov 2015 (CET)[rispondi]
Le voci dove l'F dovrebbe ormai essere tolto potranno forse scalfire quel grafico del 10%, a esagerare molto. Sono molte di più, al contrario, le voci dove F ancora non c'è, ma dovrebbe essere messo. Quando avremo finito di smaltire gli arretrati (perché è soprattutto in passato che ce ne fregavamo altamente delle fonti) succederà probabilmente quel che su en.wiki è successo nel 2010, ovvero il grafico perlomeno si stabilizzerà. --Bultro (m) 13:04, 2 nov 2015 (CET)[rispondi]
Su en.wiki ci saranno meno avvisi ma là le fonti le richiedono eccome, e sono più presenti; se la biografia di un vivente è senza fonti dura poco la voce là.. anch'io credo che gli F ormai obsoleti non cambiano tanto il grafico, da noi mancano n troppe voci, questa è la realtà.--Kirk39 Dimmi! 13:07, 2 nov 2015 (CET)[rispondi]

[ Rientro] Considerando che sono in parte uno dei "colpevoli" di questa situazione, :-D avendo proposto l'"antipatica" stretta su questo tema sul finire del 2007 e le relative linee guida mi sento di concordare con Kirk39 e Bultro. Il problema non credo sia tanto la presenza dei template di avviso, ma effettivamente la carenza di fonti. Come sappiamo, in qualsiasi pubblicazione universitario/accademica, le fonti sono ciò che costituisce gran parte della credibilità. Una bibliografia mal scritta, la mancanza di appropriate note e riferimenti, screditerebbero in partenza la grande maggioranza dei testi scientifici, e dare un'occhiata a questo elemento prima di valutare la pubblicazione è già spesso un buon indice preventivo (anche valutando una tesi, per fare un esempio calzante).

Cercare di avere voci qualità in fondo paradossalmente non è l'obiettivo di Wikipedia, ma una conseguenza dell'applicazione corretta del metodo: ciò che conta è che siano verificabili e basate su fonti attendibili. Credo che una analisi interessante dovrebbe valutare:

  1. il numero di voci complessivo
  2. il numero di voci che contengono almeno un tag <ref>
  3. il numero di voci con template FF e/o NN, CN

E fare lo stesso coi corrispettivi di en.wiki, de.wiki, es.wiki... (queste ultime due più affini e facilmente paragonabili, a mio parere, sia per bacino di utenza sia per mole). Si tratta di un controllo prevalentemente quantitativo, ma può dare una idea abbastanza concreta dello stato delle cose.

Si può poi scendere più nel preciso valutando il numero effettivo di tag <ref> univoci in ciascuna voce (evitando quindi di computare le doppie citazioni allo stessa fonte). Si potrebbe così avere una serie di dati statistici su quante fonti abbiano le voci che qualche fonte la hanno. Si potrebbe inoltre valutare in modo approssimativo l'effettiva appropriatezza dell'uso dei template NN ponderando

  1. il numero di Kb di una voce
  2. il numero dei tag <ref> univoci presenti nella voce
  3. l'eventuale presenza di template di avviso nella voce.

Si può infine scegliere un centinaio di voci a campione e fare una analisi qualitativa e non solo quantitativa. Questo darebbe un quadro statistico interessate sull'effettivo stato delle cose, a mio parere. Fatto ciò è possibile ponderare se vi sono eventuali differenze di incremento proporzionale nell'uso dei template tra le varie wiki e se ciò corrisponde a un uso funzionale o meno. --Lucas 09:07, 3 nov 2015 (CET)[rispondi]

più che all'aspetto statistico del problemino io baderei alla risoluzione dello stesso, vedrei di radunare un gruppo di una ventina di volontari, prenderei una lista di un centinaio di voci importanti sotto fontate e farei partire una caccia collettiva alla fonte. Una cosa è se c'è l'F sulla voce di Mozart, un'altra di Gianpierpatroclo Spartacozzi.. --95.231.113.215 (msg) 09:40, 3 nov 2015 (CET)[rispondi]
In realtà l'aspetto statistico permette di valutare se c'è o meno un problema. :-) A mio parere comunque c'è (ma non nell'uso del template quanto appunto nella carenza di fonti). Per far questo si potrebbe anche usare stats.grok.se e vedere le prime cento voci più visitate negli ultimi due anni (per scremare i "sensazionalismi" passeggeri) che non hanno alcuna fonte. --Lucas 09:45, 3 nov 2015 (CET)[rispondi]
ottima idea, si comincerebbe a togliere un bel po' di casi eclatanti.. Esclusa l'idea di fare un fdq apposito, si potrebbe aprire una pagina speciale dove discutere di queste "100" voci in modo tale da iniziare in tempi brevi e finire in diciamo sei mesi massimo.. --95.231.113.215 (msg) 10:28, 3 nov 2015 (CET)[rispondi]

elenco voci campione[modifica wikitesto]

Senza che duplichiate il lavoro...potete agganciarvi a questa lista di 100 voci campione su cui potete scagliarvi. è già stato fatto un monitoraggio di base, e gli argomenti sono abbastanza generali da permettere a diversi utenti di intervenire. (copyright :-) ) -- Helichrysum Italicum (chiamami "Heli") 12:46, 6 nov 2015 (CET)[rispondi]

(fc) lista interessantissima ed utilissima ma troppo generica.. --95.231.113.215 (msg) 15:26, 7 nov 2015 (CET)[rispondi]
+1 su Helichrysum. Temo invece che lavorare sulle 100 voci più visitate sia inopportuno (il problema non sono le voci sulla Juventus, su papa Francesco o su L'isola dei famosi, ahinoi). --Nicolabel 13:39, 6 nov 2015 (CET)[rispondi]
Dimenticavo le voci fondamentali, condivido che siano le voci su cui concentrare gli sforzi, anche se non propriamente connesse col "problema fonti". --Lucas 21:52, 6 nov 2015 (CET)[rispondi]
[@ Sailko] Uno dei problemi è che alcuni utenti e tu tra questi hanno una sorta di idiosincrasia verso la nota. Dovremmo discutere del ruolo delle note, capire se il principio "una info = una nota" è eccessivamente gravoso o se davvero serve. Io sono di questo partito. Ricordo di avere una volta posto {{NN}} in una voce che avevi fatto tu. Tu giustamente ti infuriasti, perché era un tuo parto e ovviamente tutto fontato. Ma la cosa non appariva, se non dalla citazione dei testi in bibliografia. Non so se presi e misi una nota (refname) ad ogni paragrafo che avevi scritto.
La vicenda della voce di Sailko in ogni caso mostra molto bene che NN è un tmp assurdo, di cui vorrei che il progetto si liberasse. Non serve a nulla. Se una voce ha l'iter di quella di Sailko, si mette NN. Se una voce invece nasce senza fonti (magari con errori materiali anche gravi), poi passa un tennista delle bibliografie e inserisce "i tre testi irrinunciabili sulla materia", ecco che di botto la voce "è fontata", ma ha solo un problema di collegamento tra testi in bibliografia e contenuto della voce. Cioè NN. I due casi sono difficilissimi da distinguere, bisogna fare un'analisi approfondita della crono per capire l'effettiva evoluzione della voce e a volte può cmq non essere abbastanza. Per NN fa lo stesso: i due casi sono un unico caso, da trattare alla stessa stregua. Insomma, NN non dice nulla della voce. Andrebbe bene per voci come quella di Sailko, che comunque sono cigni neri. pequod76talk 02:51, 7 nov 2015 (CET)[rispondi]
[@ Pequod76] Ciao Pequod76, ho letto tre volte il tuo messaggio ma non riesco a capire cosa intendi... Ciò, mi sfugge proprio l'opinione. :)) Dev'essere che siamo nel finesettimana e sono fuso. :D Intanto ne approfitto per dire il mio parere. Io credo che il NN serva a rappresentare il fatto che nella voce c'è qualche nota, ma non un numero necessario a coprire tutte le affermazioni che ne avrebbero bisogno. C'è qualche fonte, ma non abbastanza. Al suo posto si potrebbe usare un CN su ciascuna frase carente, ma sarebbe eccessivo.
A tuo parere serve invece a indicare solo che c'è un problema di collegamento fra la bibliografia e le note? E' possibile: e se serve solo a quello mi pare un template abbastanza abusato. Pure io, tra l'altro, sono del partito "una info = una nota", ovviamente nel solco proporzionale di WP:CITA. --Lucas 10:51, 7 nov 2015 (CET)[rispondi]
[@ Lucas] Se mi hai letto tre volte, allora è colpa mia. ;)
Parto dalla tua frase: Io credo che il NN serva a rappresentare il fatto che nella voce c'è qualche nota, ma non un numero necessario a coprire tutte le affermazioni che ne avrebbero bisogno. C'è qualche fonte, ma non abbastanza. Ecco, l'ultima frase: c'è qualche fonte... Ma NN viene usato così: trovo una voce, zero fonti, però ha una bibliografia ricchissima, wow, allora metto NN. Magari non so che la bibliografia è stata aggiunta a parte (in crono) e non ha niente a che vedere con i contenuti (è stato il "tennista" di cui sopra): dunque non c'è "qualche fonte", ma solo un simulacro di fonte! :D Invece il caso in cui NN ha un suo pallido senso (mentre per il resto dico che andrebbe assorbito da F) è quando un utente effettivamente usa una bibliografia ma non mette le note. È il caso della voce di Sailko, il quale si scoccia a mettere le note (semplifico, ma fino a un certo punto). pequod76talk 11:03, 7 nov 2015 (CET)[rispondi]
Ho capito! E' vero, viene usato anche in quel caso, quando la bibliografia c'è ma mancano le note. Hmmm, in effetti il template si presta a usi plurimi. Capisco anche il rischio della "bibliografia a posteriori" (aggiunta in seguito, magari pure promozionalmente, oppure con intenti utili ma formalmente scorrelata ai testi nella voce). Che fare in quei casi? Oddio, non lo so. Accorpiamo tutto in "F"? L'assenza di note è un problema rilevante non tanto quanto l'assenza di fonti, ma comunque molto simile, specie se la bibliografia è scorrelata... --Lucas 11:12, 7 nov 2015 (CET)[rispondi]

[ Rientro] Se volete possiamo produrre delle statistiche sulle voci che hanno una bibliografia. Magari può aiutare a decidere se mantenere o eliminare dei template. --CristianCantoro - Cieli azzurri! (msg) 21:09, 8 nov 2015 (CET)[rispondi]