Progetto:GLAM/BEIC/2015-03-31

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

Relazione di marzo 2015

[modifica wikitesto]

Per semplicità, questa relazione comprende l'intera settimana del 30 marzo, fino al 3 aprile.

Lavoro svolto

[modifica wikitesto]

Il lavoro di marzo si è concentrato sull'ulteriore semplificazione dei passaggi manuali rimasti nel lavoro delle collaboratrici BEIC. Inoltre si sono svolte due sessioni in sede e si è partecipato ai due giorni della conferenza alle Stelline. Sono stati superati gli 8000 contributi a pagine dei progetti Wikimedia (compresi Wikipedia, Wikimedia Commons e Wikidata).[1]

In dettaglio, si è automatizzata la raccolta dei dati BeicDL propedeutici alla selezione e inserimento di opere e immagini. A partire da un elenco di identificatori fornito da BEIC, con un programma appositamente prodotto[2] si è creata una tabella che distingue gli autori già trattati da quelli ancora da lavorare.[3]

La tabella ha consentito di identificare gli 84 autori della collezione "Classici della cultura" ancora mancanti: corrispondono a circa 400 opere e hanno tutti una voce nella Wikipedia in italiano (di cui una da noi tradotta all'uopo). Saranno quindi completati per primi. La tabella può essere facilmente rigenerata e filtrata per collezione con classiche funzioni dei fogli di calcolo, consentendo quindi di procedere per argomento ove desiderato.

Secondo, sono stati caricati in Wikimedia Commons tutti i libri di Internet Archive, catalogati da BEIC, che vi risultassero mancanti: circa 850[4] di cui un centinaio in italiano.[5] Molti sono già stati inseriti dalle collaboratrici BEIC in Wikisource in italiano, i cui volontari ne hanno già trascritto qualcuno oltre il 50 % (correggendo cioè manualmente l'OCR).

Terzo, il lavoro piú complesso: è stato scritto un programma, ancora unico al mondo nel suo genere per la sua flessibilità, che consentisse di importare in Wikidata tutti i dati pertinenti per tutti gli editori noti all'Archivio della Produzione Editoriale lombarda, sulla base di un CSV appositamente prodotto da BEIC (e pubblicato in CC-0).[6] Sono state cosí completate le schede di circa 200 editori definiti grandi e medi ai sensi ISTAT. La Wikipedia in italiano contiene già una voce per la maggior parte di tali editori; alcune di queste voci utilizzano già i dati da noi inseriti in Wikidata e le altre lo faranno nel corso di aprile. Queste voci hanno quindi ora accesso a nome, dimensioni, sede e sito ufficiale, tutti dati sistematicamente presenti, referenziati e "certificati" dall'unica possibile fonte ufficiale, ove erano prima assenti o non verificabili.

Il programma sarà anche inserito nella libreria standard "pywikibot" e in futuro dovrebbe essere utilizzabile da chiunque sia in grado di usare un foglio di calcolo e scrivere un comando di tre parole nel terminale.

Nel momento in cui scriviamo, grazie alla tabella di cui sopra, risulta che sono stati "coperti" nelle voci di Wikipedia in italiano circa 350 autori BEIC (sparsi su 430 voci), corrispondenti a circa 1500 opere del catalogo. Gli autori raggiungeranno i 400 completando quelli della collezione "Classici della cultura".

Le circa 200 immagini BEIC sono usate oltre 1900 volte nelle voci, di cui circa 200 nella Wikipedia in italiano.[7] In totale quindi si arriva a circa 2100 voci in tutte le lingue che includono (e collegano) risorse BEIC.

Ulteriori analisi dei dati

[modifica wikitesto]

Come previsto nelle precedenti relazioni, il numero di visite a voci contenenti risorse BEIC ha ampiamente superato i due milioni al mese: oltre 1 800 000 a febbraio[8] e oltre 2 300 000 a marzo.[9]

Grazie a nuovi dati pubblicati da Wikimedia Foundation,[10] dopo aver operato qualche modifica a uno strumento di estrazione dei medesimi,[11] abbiamo analizzato con maggior dettaglio le statistiche di utilizzo delle immagini BEIC caricate in Wikimedia Commons, con riferimento a un giorno campione. In sintesi, l'analisi conferma che i dati finora considerati avevano senso e che il lavoro svolto va nella giusta direzione.

Alcuni dati:

  • Oltre centomila immagini scaricate in un giorno.
  • Non ci sono solo miniature caricate perché erano in una voce. Oltre il 20 % delle immagini di cui sopra sono state richieste intenzionalmente dall'utente, cliccando le stesse o un'immagine adiacente.
  • Anche in immagini piuttosto ostiche o inserite in contesti non particolarmente "favorevoli", oltre il 20 % degli scaricamenti sono "intenzionali". In un caso, si tratta di migliaia di visite al giorno di cui il 30 % "intenzionali".
  • Alcune immagini ricevono oltre cento visite al giorno con un referrer non-Wikimedia e potrebbero quindi essere diventate "virali" in giro per il web. In particolare: Beccaria, Alighieri, Colombo, Bacon e Leopardi.