Wikipedia:Bar/2018 08 29

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Il bar di Wikipedia

Bar completo
Indice della settimana

Not Italian? It-0? Go to the Embassy Desk!
Not Italian? It-0? Go to the Embassy Desk!
New message? Deutsch · English · Español · Français  |   Aggiorna la pagina

 
Discussioni in corso
Nessuna discussione.

29 agosto


Aiutateci a valutare la verificabilità di frasi senza fonti!


Buongiorno a tutti!

Con il nostro team di ricerca alla Wikimedia Foundation, stiamo lavorando su algoritmi per il riconoscimento di frasi senza citazione che hanno bisogno essere supportate da una fonte.

Siete interessati? Dopo il successo del primo progetto pilota di raccolta dati, abbiamo appena lanciato una seconda campagna di annotazione di dati, dove vi chiediamo di specificare la ragione per la quale una frase ha bisogno o meno di una citazione. E' facile e divertente! Se volete aiutarci, seguite le istruzioni a questa pagina: https://meta.wikimedia.org/wiki/Research:Identification_of_Unsourced_Statements/Labeling_Pilot/IT .

Condivideremo con voi i risultati al piu' presto!

Per qualsiasi domanda, scrivetemi qui, o a miriam [at] wikimedia.org .

Grazie mille a tutti! Miriam (WMF) (msg)

Domanda: Dove si possono avere informazioni sugli aspetti tecnici di questi sistemi di apprendimento automatico (classificatore, esperimenti, risultati)? --Mlvtrglvn (msg) 07:11, 30 ago 2018 (CEST)[rispondi]
Puoi seguire la meta:Research:Identification_of_Unsourced_Statements meta page del progetto, per il momento e' solo in inglese. Aggiungero' al piu' presto tutti gli ultimi risultati, se siete interessati a partecipare, o vuoi suggerire possibili approcci, saremmo contentissimi di discuterne! Miriam (WMF) (msg)
L'inglese va benissimo, piu' tardi do un occhiata. Se volessi commentare (in inglese ovviamente) posso farlo direttamente nella pagina di discussione, o c'e' un posto migliore? --Mlvtrglvn (msg) 05:04, 31 ago 2018 (CEST)[rispondi]
Certo, la pagina di discussione andra' benissimo. Oppure puoi mandare una mail a me (miriam [at] wikimedia.org) o scrivere sulla mailing list di Research (wiki-research-l [at] lists.wikimedia.org). Grazie! Miriam (WMF) (msg)

Andiamo a Strasburgo l'11 settembre?


Il 12 settembre si voterà in parlamento europeo la direttiva sulla riforma del diritto d'autore. È la stessa del voto di luglio: visto che non è passata quella versione, adesso il parlamento voterà emendamento per emendamento - e può succedere qualunque cosa.

L'11 settembre, il giorno prima delle votazioni, Wikimedia organizzerà un evento a Strasburgo per gli europarlamentari. La sala è da 40 posti.

Andiamo? Venite?

Un mese e mezzo fa abbiamo oscurato Wikipedia per segnalare che quella proposta metteva a rischio il web e Wikipedia. Ci siamo riusciti, e la discussione è stata riaperta in parlamento: adesso è il momento di essere presenti nella discussione, e spiegare l'impatto che ha il copyright su di noi, e l'importanza per Wikipedia della libertà di panorama e del pubblico dominio. Noi non siamo un'azienda che va in Unione europea per difendere i propri privilegi, ma volontari che lavorano assieme per diffondere la conoscenza - ma dobbiamo farci vedere perché lo capiscano.

Strasburgo non è molto raggiungibile purtroppo, dalla maggioranza delle città italiane i voli sono cari; almeno dal nord Italia si può riuscire ad andare in autobus (8 ore con Flixbus, lungo ma fattibile). Qualche fondo per coprire queste spese l'abbiamo, sufficienti sicuramente per alcuni wikipediani (anche se naturalmente non per andarci in massa) - quindi fatevi avanti! - Laurentius(rispondimi) 19:25, 29 ago 2018 (CEST)[rispondi]

Dovremmo fare lo sforzo di riassumere in modo chiaro quali sono i punti per noi irrinunciabili. Se poi qualche europarlamentare con molta fantasia riesce a fare qualche proposta di emendamento per trasferire una parte dei proventi pubblicitari di Google a favore della classe dei giornalisti senza toccare i punti per noi irrinunciabili, faccia pure.--Mizar (ζ Ursae Maioris) (msg) 22:11, 29 ago 2018 (CEST)[rispondi]

Item Wikidata duplicati da AlessioBot


Controllando gli item Wikidata linkati da una qualsiasi località, si può trovare un notevole numero di duplicati generati da AlessioBot a fine giugno importando dati da MiBACT. Tralasciando considerazioni sulla cura con la quale è stata fatta questa attività, credo che ci si debba porre il problema di una bonifica. Procedere in maniera manuale ed occasionale mi sembra un'impresa non in grado di garantire nessun risultato: c'è qualche idea su come automatizzare almeno parzialmente un eventuale progetto di bonifica? --Pietro (msg) 20:43, 29 ago 2018 (CEST)[rispondi]

Pingo anche il manovratore: [@ AlessioMela]. Mi sa che non c'è niente da fare. Al momento ci sono 20598 chiese italiane, se consideriamo solo quelle che hanno una divisione amministrativa scendiamo a 16347, unire automaticamente quelle a parità di divisione e di nome rischia di peggiorare la cosa. L'unica cosa che si può fare è quella di controllare a mano, magari usando query limitate al singolo comune. Comunque sia è un lavoro parcchio lungo --ValterVB (msg) 21:05, 29 ago 2018 (CEST)[rispondi]
Almeno un rollback degli item per i quali non è stato fatto il merge non si può fare? Se non siamo sicuri su come aggiungere informazione agli item esistenti, almeno non ne distruggiamo e spostiamo l'attività manuale su una lista di informazioni MiBACT offline ancora da importare. --Pietro (msg) 21:50, 29 ago 2018 (CEST)[rispondi]
Detto che mi pare di aver capito che stiamo parlando di questi contributi, Pietro, potresti circoscrivere un po' più in dettaglio il problema? Magari anche con uno o due esempi della duplicazione, grazie in anticipo. --Retaggio (msg) 10:11, 30 ago 2018 (CEST)[rispondi]
Durante l'import del dataset del Mibact l'attività più complicata è stata capire se un'entità aveva già un item su Wikidata oppure era completamente nuova. Per farlo ho usato una combinazione tra i risultati del motore di ricerca e le query SPARQL. Ad esempio a un certo punto al bot è capitato un'entità "Terme di Diocleziano" con comune = Roma. Il motore di ricerca restituiva 3 risultati: "chiesa di Santa Susanna alle Terme di Diocleziano" (Roma), "Terme di Diocleziano" (Siria), "Terme di Diocleziano" (Roma). Assegnando un "punto" per ogni caratteristica coerente l'ultima entità è stata quella vincente permettendo al bot di decidere di non creare un'entità nuova ma aggiornando quella già esistente così rintracciata. Invece, in tutti i casi in cui il motore di ricerca non dava risultati oppure nessuno dei risultati trovati aveva un "punteggio" prevalente, il bot ha creato un nuovo elemento. Per questo motivo il bot ha creato qualche duplicato quando non ha capito che stava inserendo una cosa che c'era già. Inoltre questa strategia, che portava intrensecamente a creare qualche duplicato, aveva come scopo quello di non unire per sbaglio poiché lo scorporo è molto più complicato dell'unione.
Detto questo che fa un po' il punto dell'import, vorrei rassicurarvi dicendo che i numeri citati da ValterVB sono i numeri totali (delle chiese) e non sono i duplicati. Infatti un edit su tre ha aggiornato un item già esistente e molti degli item creati ex novo effettivamente mancavano. I duplicati generati a volte sono difficili da unire, perché dalla scheda mibact non si capisce con esattezza a cosa si riferisca oppure perché a volte esistono luoghi distinti ma con nomi e attributi molto simili. Altre volte i duplicati possono sembrare più banali.
Non pensavo che la creazione di qualche duplicato allertasse così tanto, altrimenti avrei segnalato prima che su alcuni un intervento manuale era necessario. Tuttavia proprio perché ogni tanto se ne incontra qualcuno che è possibile unirli e raffinare l'import. Non ho invece capito l'ultima proposta di Pietro. I moltissimi item non mergati ci sono proprio perché spesso e volentieri sono item nuovi che Wikidata non aveva. Per cui non mi è chiaro cosa vorresti rollbackare.
Qui una query, con soggetto Ravenna (ma si può modificare a piacere) per controllare gli elementi presenti: https://query.wikidata.org/#SELECT%20%3FidWD%20%3FidWDLabel%0A%20%20%20%20%20%20%20%20%28MAX%28%3Findirizzo%29%20as%20%3Findirizzo%29%0A%20%20%20%20%20%20%20%20%28MAX%28%3Fcoord%29%20as%20%3Fcoord%29%0A%20%20%20%20%20%20%20%20%28MAX%28%3Fcommons%29%20as%20%3Fcommons%29%0A%20%20%20%20WHERE%20%7B%0A%20%20%20%20%20%20%20%20%3FidWD%20wdt%3AP131%20wd%3AQ13364%20.%0A%20%20%20%20%20%20%20%20OPTIONAL%20%7B%20%3FidWD%20wdt%3AP969%20%3Findirizzo%20.%20%7D%0A%20%20%20%20%20%20%20%20OPTIONAL%20%7B%20%3FidWD%20wdt%3AP625%20%3Fcoord%20.%20%7D%0A%20%20%20%20%20%20%20%20OPTIONAL%20%7B%20%3FidWD%20wdt%3AP373%20%3Fcommons%20.%20%7D%0A%0A%20%20%20%20%20%20%20%20%3FidWD%20wdt%3AP1435%20wd%3AQ26971668%20.%0A%20%20%20%20%20%20%20%20SERVICE%20wikibase%3Alabel%20%7B%20bd%3AserviceParam%20wikibase%3Alanguage%20%22it%2Cen%22.%20%7D%0A%20%20%20%20%7D%0A%20%20%20%20GROUP%20BY%20%3FidWD%20%3FidWDLabel
Ad esempio si nota che sono duplicati https://www.wikidata.org/wiki/Q55182420 e https://www.wikidata.org/wiki/Q55182422. Per chiarezza per chi legge non li unisco anche se andrebbe fatto. In questo caso il duplicato era lato Mibact che ha due ID per la stessa entità. --AlessioMela (msg) 10:53, 30 ago 2018 (CEST)[rispondi]
Mi sa che in effetti avevo sottinteso troppo: si i numeri indicati sono i totali degli item, non i duplicati. Alessio sai quanti item sono stati creati? Perché sarebbero solo quelli da controllare. --ValterVB (msg) 13:12, 30 ago 2018 (CEST)[rispondi]
Compreso tutto, non solo le chiese, le creazioni sono 20.085. Ma anche volendo fare il check più completo possibile non conviene controllarli tutti perché perderemmo tempo a guardare quelli che mancavano davvero. Il sottoinsieme utile più grande che mi viene in mente a cui può valer la pena dare uno sguardo è quello che si ottiene mettendo la label nella API di suggestion del motore di ricerca quando ritorna più di un valore.
Un'altra via è andare comune per comune (vedi query di cui sopra) perché potrebbe velocizzare parecchio mostrandoti già i candidati dell'unione (una ricerca senza contesto invece potrebbe portar via più tempo.
Ovviamente non so quanti siano i duplicati, però non sono sicuro che siano così tanti da mettere in piedi una ricerca così massiva. Forse con un po' di esempi potremmo trovare dei pattern ricorrenti che ce ne fanno trovare la maggior parte. --AlessioMela (msg) 14:53, 30 ago 2018 (CEST)[rispondi]

[@ Retaggio], per dare un'idea della dimensione del problema ho verificato gli item creati su L'Aquila da AlessioBot con quelli già esistenti su Wiki, con la seguente situazione:

AlessioBot Wiki
chiesa di San Marco Evangelista (d:Q54870729) chiesa di San Marco (d:Q22263721)
caserma di San Bernardino (d:Q55165692)
castello e forte militare (d:Q55165694) Forte spagnolo (d:Q1438933)
cattedrale di San Massimo (d:Q55165697) cattedrale dei Santi Massimo e Giorgio (d:Q2942686)
chiesa del Carmine (d:Q55165698) chiesa di Santa Maria del Carmine (d:Q3673708)
chiesa di Sant'Agnese (d:Q55165699)
chiesa di S. Agostino (d:Q55165700) chiesa di Sant'Agostino (d:Q22263725)
chiesa di Sant'Antonio da Padova (d:Q55165701)
chiesa di San Bernardino (d:Q55165704) basilica di San Bernardino (d:Q2886989)
chiesa di Santa Caterina Martire (d:Q55165706)
chiesa di S. Chiara Povera (d:Q55165709)
chiesa di San Domenico (d:Q55165710) chiesa di San Domenico (d:Q3669877)
chiesa di San Filippo (d:Q55165712)
chiesa di San Flaviano (d:Q55165715) chiesa di San Flaviano (d:Q23888858)
chiesa di San Giuliano (d:Q55165717) convento di San Giuliano (d:Q24034979)
chiesa di Santa Giusta (d:Q55165718) chiesa di Santa Giusta (d:Q3673073)
chiesa di San Marciano (d:Q55165719) chiesa dei Santi Marciano e Nicandro (d:Q3668266)
chiesa di San Marco (d:Q55165721) chiesa di San Marco (d:Q22263721)
chiesa di Santa Margherita (d:Q55165724) chiesa di Santa Margherita (d:Q3673164)
chiesa di Santa Maria di Forfona (d:Q55165728)
chiesa di Santa Maria del Guasto (d:Q55165730)
chiesa di Santa Maria di Roio (d:Q55165731)
chiesa di Santa Maria del Soccorso (d:Q55165732)
chiesa di Santa Maria del Suffragio (d:Q55165734) chiesa di Santa Maria del Suffragio (d:Q47248131)
chiesa di San Pietro di Sassa (d:Q55165736)
chiesa di San Silvestro (d:Q55165738) chiesa di San Silvestro (d:Q3672053)
chiesa di San Sisto (d:Q55165740)
chiesa di San Vito (d:Q55165742) chiesa di San Vito alla Rivera (d:Q3672190)
fontana della Riviera (d:Q55165744)
mausoleo dei Camponeschi (d:Q55165745)
monastero di San Basilio (d:Q55165747)
Museo Nazionale d'Abruzzo (d:Q55165750) Museo nazionale d'Abruzzo (d:Q3328396)
Palazzo Antonelli oggi Drgemelle olsenagonetti (d:Q55165752)
Palazzo Antonelli a via di Sassa (d:Q55165754)
Palazzo Benedetti - Mancinelli (d:Q55165755)
Palazzo Bonanni oggi Cipolloni Cannella (d:Q55165756)
Palazzo Branconio oggi Farinosi (d:Q55165757) Palazzo Branconio (d:Q47508989)
Palazzo Cappa (via Paganico) (d:Q55165759) Palazzo Cappa Camponeschi (d:Q29250553)
Palazzo Cappa oggi Censi (d:Q55165761)
Palazzo Carli (d:Q55165763) Palazzo Carli Benedetti (d:Q3889805)
Palazzo Carli a Via di Roma (d:Q55165764)
Palazzo Censi a Piazza Santa Giusta (d:Q55165766)
Palazzo Ciampella oggi Ciolina (d:Q55165768)
Palazzo Fibbioni (in Corso Vittorio Emanuele) (d:Q55165770) Palazzo Fibbioni (d:Q3890099)
Palazzo Franchi oggi Fiore (d:Q55165771)
Palazzo Franchi oggi Persichetti (d:Q55165774)
Palazzo Pica (via Fortebraccio) (d:Q55165776)
Palazzo Pica Alfieri (piazza Santa Margherita) (d:Q55165777) Palazzo Pica Alfieri (d:Q3890651)
Palazzo Rivera (piazza di Roio) (d:Q55165781)
Palazzo Rivera in San Sisto (d:Q55165783)
Palazzo Romanelli (d:Q55165785)
Palazzo Spaventa (d:Q55165786)
resti antichi (d:Q55165788)
oratorio di San Martino (d:Q55165795)
Museo sperimentale d’arte contemporanea "Mu.Sp.Ac." (d:Q55378117) Museo sperimentale d'arte contemporanea (d:Q3868463)
San Michele Arcangelo - Catacombe (d:Q55675006)
San Michele Arcangelo (d:Q55675009) chiesa di San Michele Arcangelo (d:Q3671289)
area archeologica della medievale Civitas S. Maximi (d:Q55675023)
sito archeologico Civitas Sancti Maximi (d:Q55675161)
chiesa di San Bernardino (d:Q55678707) basilica di San Bernardino (d:Q2886989)
Archivio di Stato Aquila (d:Q55678954) Archivio di Stato dell'Aquila (d:Q55832396)
MUNDA - Museo nazionale d'Abruzzo (d:Q55685988) Museo nazionale d'Abruzzo (d:Q3328396)
MUNDA - Museo nazionale d'Abruzzo (d:Q55685989) Museo nazionale d'Abruzzo (d:Q3328396)
MUNDA - Museo nazionale d'Abruzzo (d:Q55685992) Museo nazionale d'Abruzzo (d:Q3328396)
basilica di Santa Maria di Collemaggio (d:Q55686333) basilica di Santa Maria di Collemaggio (d:Q2034923)
area archeologica Amiternum (d:Q55686408) Amiternum (d:Q177061)

Su 66 item creati, 31 sono duplicati degli esistenti ed altri sono duplicati alla sorgente (es.: "area archeologica della medievale Civitas S. Maximi" e "sito archeologico Civitas Sancti Maximi"): credo che il danno sia sufficientemente grave per giustificare un rollback e rieseguire questo import con più cura. --Pietro (msg) 22:00, 30 ago 2018 (CEST)[rispondi]

Beh, visto che parliamo di "creazione" di schede duplicate, parlare di rollback significa cancellare, e per far questo bisogna necessariamente scrivere su Wikidata, non qui, dato che c'è bisogno di sysop di Data. Noi da qui possiamo solo effettuare opera di correzione, attraverso l'unione delle duplicate. Se vogliamo perseguire questa strada penso che potremmo creare una pagina ad hoc, per evitare sovrapposizioni, e partire; diversamente, ci si deve trasferire di là. Altri pareri? --Retaggio (msg) 11:58, 31 ago 2018 (CEST)[rispondi]
Vorrei far notare che - oltre a non essere statisticamente rilevamente una sola città, ma non importa perché di correzioni da fare ce ne sono - il duplicato segnalato riguardo "Archivio di Stato Aquila" non è un duplicato del mio bot: l'item duplicato è l'altro, che deriva da un import automatico delle pagine di Wikipedia fatto dopo. Questo a segnalare ancora una volta che, sebbene non sia un effetto voluto, la creazione di duplicati da parte di bot su Wikidata avviene ogni giorno durante gli import, ad esempio proprio da quelli delle varie edizioni linguistiche di Wikipedia.
[@ Retaggio] è come dici tu. Trovare e segnalare i duplicati da cancellare richiede più tempo che trovarli e unirli (aggiungendo le informazioni nell'unione) oltre a essere inutilmente distruttivo. --AlessioMela (msg) 12:06, 31 ago 2018 (CEST)[rispondi]
[@ Retaggio] attenzione alla differenza fra schede Mibac ed ICCD. Io sto facendo il merge per il momento solo delle prime quando le vedo. Per il resto sto aspettando creino questa proprietà https://www.wikidata.org/wiki/Wikidata:Property_proposal/DBUnico_ID --Sabas88 (msg) 14:17, 31 ago 2018 (CEST)[rispondi]

Dopo averne provato a parlarne in qui e qui finiamo a parlarne anche qui. Non posso che pensare al tempo perso disperdendo questo invece che affrontandolo e incanalandolo fin dall'inizio. Lo dico a monito per il futuro che non come critica, mi interessa risolvere il problema (che è ancora più gestibile di quello delle scuole italiane...). Segnalo anche dal progetto su wikidata e voglio garantire che al netto di azioni via bot siamo a disposizione in tanti a ripulire la situazione. Chiaramente sarebbe utile avere una lista con gli elementi importati non ancora modificati da utenze non-bot. Così come siamo disponibili anche a aiutare un import successivo in caso di rollback. Insomma siamo, intendo le persone che ho sentito in questi mesi, disponibili a tutto nell'interesse della completezza di wikidata. Chiaramente il periodo WLM non aiuta a portare suggerimenti perché siamo tutti di fretta a ripulire quella porzione di item nelle tabelle del concorso. Ma confido che si possa trovare qualche strategia. --Alexmar983 (msg) 13:02, 31 ago 2018 (CEST)[rispondi]

[@ Pietro] grazie per la lista, sto provvedendo a unire gli item duplicati un po' per volta. --Sannita - L'admin (a piede) libero 12:32, 2 set 2018 (CEST)[rispondi]
Grazie [@ Sannita], sto continuando anche io, in particolare sugli item coinvolti in WLM e sui merge già fatti che riportano duplicazioni o informazioni incorrette come:
- coordinate, dato che quelle importate sono generalmente meno precise di quelle esistenti (es.: d:Q21552026);
- instance of, eliminandone duplicazioni in particolare con real property (es.: d:Q21552368);
- numeri telefonici, con più numeri in alternativa fusi in un'unica stringa (es.: d:Q3867687).
Come già detto, trovo la qualità di questo import estremamente bassa e mi auguro venga messo in piedi rapidamente un progetto per eliminarne i danni. --Pietro (msg) 15:23, 2 set 2018 (CEST)[rispondi]

Colgo l'occasione per segnalare che aprendo lo strumento WDfist di Magnus Manske è facile trovare immagini per i monumenti e aggiungerle a P18 (immagine significativa) con un clic. Ci mette qualche minuto a caricarsi, ma poi è un lampo. --Nemo 17:00, 2 set 2018 (CEST)[rispondi]