Wikipedia:Bar/Discussioni/Bot tanto discusso:proviamo a tirare le fila del lavoro mancante?

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Bot tanto discusso:proviamo a tirare le fila del lavoro mancante? NAVIGAZIONE


Settimane fa avevamo parlato di un bot crea-pagine, per molteplici impieghi. Sinceramente, visto che mi sto occupando dei comuni dell'Armenia, mi accorgo che il lavoro è molto lungo, e poi un bot non rischierebbe di fare danni, risparmiando tantissimo tempo e creando voci che, magari, alcuni nemmeno creeranno, perchè verranno dimenticate per chissà quanto tempo. Nello specifico sono qui per chiedere: è trovabile un database che contenga i dati necessari sui comuni armeni per "riempire" il template apposito, in modo da creare voci guadagnando molto tempo, risparmiando molta fatica ed evitando alcuni errori di battitura o di trascrizione da altre wiki? Perchè è così che mi vedo costretto a fare, io: tradurre da en.wiki, con il rischio di sbagliare a compilare alcuni parametri di it.wiki. Allora, scusate, non è possibile trovare un database utile e completo sui comuni dell'Armenia. Sarei molto grato di questo, davvero. Vi ringrazio molto e vi invito, comunque, a discutere anche di altri gruppi di voci con una loro creazione fattibile tramite dei bot. Arrivederci, grazie, alla prossima :)!! --Farberking Guarda!!! 14:49, 12 dic 2011 (CET)[rispondi]

I database da usare, oltre che essere completi ed affidabili, devono anche avere una licenza compatibile con la nostra. Per questo sono così difficili da trovare Jalo 15:58, 12 dic 2011 (CET)[rispondi]
Io sono favorevole a queste operazioni, se con consenso e ragionate; purtroppo il problema tecnico del database d'origine non è indifferente. Non saprei come fare con i comuni dell'Armenia. Dal canto mio, ho provato a proporre invano la stessa procedura per i Patriarchi ecumenici (i leader spirituali della Chiesa ortodossa, tutti enciclopedici), tanto per fare un esempio; discorso simile per i santi, e mi fermo a questi esempi religiosi. Ad ogni modo operare nel campo geografico sarebbe prioritario, dal mio umile punto di vista. --Michele (msg) 16:06, 12 dic 2011 (CET)[rispondi]
Quotone per Mickey83. --Farberking Guarda!!! 17:50, 12 dic 2011 (CET)[rispondi]
Ma perchè tutta questa riluttanza nel attingere le fonti dai database di riferimento di operazioni di Wikipedie straniere con i bot, per i più svariati campi di voci scritte in questa maniera? Voglio dire:esiste un motivo specifico che renda deprecata, o addirittura impedisca, la creazione di pagine con i bot, dai medesimi database? E' chiara la mia domanda...? --Farberking Guarda!!! 18:02, 12 dic 2011 (CET)[rispondi]
Solo per informazione, stiamo conducendo un lavoro co un bot creapagine qui, ma riguarda poche centinaia di voci create a piccoli gruppi che vengono di volta in volta corretti e destubbati dagli umani prima di procedere col gruppo successivo. Forse lo stesso modello potrebbe essere applicato ai comuni, posto che si trovi un database adatto. La questione imho è stata posta male fin dall'inizio. Si è pensato al lavoro del bot e si sono cercati database da fargli usare, bisognerebbe invece prima trovare il database, e poi aiutarsi col bot per implementarlo. --Rupert Sciamenna qual è il problema? 20:01, 12 dic 2011 (CET)[rispondi]

(rientro) I botolatori non sono onnipotenti: ho letto le richieste circa i comuni armeni, ho fatto alcune valutazioni sul lavoro da fare, però dateci tempo, abbiamo anche una vita reale.... In secondo luogo, serve un consenso dimostrato da discussione nei bar di progetto. Può sembrarti una banalità, ma il manovratore di bot diventa responsabile delle modifiche che gli vengono richieste e, per questo, ci serve la certezza del consenso della comunità: in passato agire senza una discussione dietro, ha causato anche dei deflag dallo status di bot. Detto questo le voci di en.wiki sui comuni si possono usare come database: detto questo bisogna vedere se le vogliamo usare.--Nickanc ♪♫@ 21:28, 12 dic 2011 (CET)[rispondi]

Tempo fa era attivo l'HubbleBot, che creava ottime voci sulle stelle fino alla magnitudine 6,5 (tutte quelle visibili a occhio nudo). Questo lavoro venne accuratamente pianificato nel bar del Progetto Astronomia e una volta terminato sarebbero state create circa 9000 voci. Purtroppo i numerosi impegni del manovratore hanno fatto in modo che il lavoro si interrompesse dopo aver creato appena il 10% delle voci. Le entry su cui si basava il bot per creare le voci sono molto complesse e questo è anche il motivo per cui più nessuno si è occupato, per quasi due anni, del proseguimento del lavoro, che definirei da "botolatore esperto". Molte delle variabili sono disponibili qui su Wikipedia, mentre il metodo di interrogazione dei database era di competenza del manovratore. Se qualcuno ha il desiderio di imbarcarsi nell'opera è benvenuto, ma allo stesso tempo è avvertito del fatto che si tratta di una cosa molto complessa. --Roberto Segnali all'Indiano 21:35, 12 dic 2011 (CET)[rispondi]
Segnalo inoltre che molte voci proprio sui comuni armeni sono stati create da Lusumbot lo scorso agosto; magari puoi chiedere a lui. Comunque, sempre parlando dell'Armenia, rimane solo lo Syunik e qualche comune quà e là (per le altre ci avevamo pensato, oltre al bot, io e Gravitone), quindi, anche facendo a mano, non credo ti serva ancora molto tempo. --Narayan89 21:44, 12 dic 2011 (CET)[rispondi]
magari allora può essere più proficuo completare quelli a mano (se volete risparmiare tempo si possono seguire le indicazioni a aiuto:Creazione sistematica di voci, che valgono anche e soprattutto senza bot) e dedicare il bot a gruppi di pagine numericamente più consistenti, tipo un'intera altra nazione. Cosa ne dite?--Nickanc ♪♫@ 22:43, 12 dic 2011 (CET)[rispondi]
Link interessante, non lo conoscevo :) Jalo 09:05, 13 dic 2011 (CET)[rispondi]
Che io sia piuttosto scettico sulla creazione automatica di voci credo sia un fatto largamente noto. Rimanendo in ambito geografico, come dissi nell'altra discussione di poco tempo fa partita dal famoso bot olandese, continuo a vedere una sottovalutazione dei problemi legati alla creazione delle voci sui comuni. I primi problemi difficilmente risolvibili sono quello della denominazione corretta con eventuali segni diacritici, visto che abbastanza spesso si trovano database senza tali segni nei nomi dei comuni, e quello delle omonimie, molto meno rare di quanto sembri (esempio al limite, ma nemmeno troppo, visto che c'è di peggio, questo), oppure casi in cui le omonimie sono addirittura presenti nella stessa divisione amministrativa immediatamente superiore. La conclusione del ragionamento è che, sempre e comunque, ogni voce creata richiederebbe un intervento umano, almeno di controllo, che può essere fatto per gruppetti di voci, ma qui si è parlato di interi stati: chi si mette poi a ripassarsi qualche migliaio di voci? In sostanza il bot potrebbe creare una voce composta da un sinottico parzialmente riempito (ammesso e non concesso che si trovino i database adatti) e da un incipit standard, con dati nel citato sinottico che andrebbero comunque controllati ed integrati. Personalmente io uso un bot manuale: lo schema c'è, inserisco e controllo i dati e creo la voce: quale impegno/fatica/lavoro mi toglierebbe un bot? secondo me, nessuno.--Frazzone (scrivimi) 12:18, 13 dic 2011 (CET)[rispondi]
Evitare di riempire decine di migliaia di volte quel template, ad esempio :) Se un bot lo riempisse al posto tuo, tu potresti controllare i dati inseriti col doppio della velocità attuale, perché dovresti pensare solo a quello e non alla compilazione del tuo template. Inltre le omonimie sono facilmente risolvibili, visto che se la voce omonima già esiste il bot non inserisce niente, e ti avvisa del fatto Jalo 13:04, 13 dic 2011 (CET)[rispondi]
Quoto a potenza per Jalo. Nickanc, è il solito discorso:NON TI PREOCCUPARE :) :)!! Sono favorevole a contattare Lusum, in modo da sapere se i comuni armeni rimanenti possano, anch'essi, essere generati dal suo bt crea-pagine. --Farberking Guarda!!! 13:12, 13 dic 2011 (CET)[rispondi]
Quel "non ti preoccupare" deve essere preso con le pinze. Nel lavoro sopracitato nonostante avessimo un database sicuro al 100% saltano fuori errori di continuo (anche dovuti a ragioni tecniche o ad incomprensioni tra umano e bot), quindi anche accettando che le voci non vengano destubbate (cosa imho non accettabile in un lavoro pianificato), andrebbero comunque corretti tutti gli errori. Quindi ci deve essere come minimo un team disposto almeno a ricontrollare e correggere tutte le voci create dal bot. Il lavoro come dice Jalo si velocizza, ma chi vuole "azzerare" il lavoro e mandare un bot a riempire i nostri buchi casca malissimo. --Rupert Sciamenna qual è il problema? 14:00, 13 dic 2011 (CET)[rispondi]
@Jalo. Riempire il template è molto più veloce del controllare che qualcun altro (bot o umano che sia) l'abbia riempito correttamente. @Faber. Sinceramente, è proprio quel non ti preoccupare che mi preoccupa. Seriamente, l'inserimento via bot porta a non avere bisogno di mesi per inserire le voci, ma porta ad aver bisogno di ancora più tempo per avere la certezza che tutte quelle voci siano totalmente corrette. Preferisco avere meno voci oggi e più voci con dati sicuri domani. A proposito dei comuni armeni inseriti via bot, siamo sicuri che la traslitterazione sia corretta? Almeno quella l'ha fatta un "umano"?--Frazzone (scrivimi) 14:09, 13 dic 2011 (CET)[rispondi]
Su questo devo contraddirti. Se il database è affidabile (e questo mi pare il problema maggiore) il lavoro si velocizza eccome. Il problema è sempre a monte: prima bisogna avere il database, poi eventualmente pensare ad una creazione sistematica (con bot o senza). --Rupert Sciamenna qual è il problema? 18:23, 13 dic 2011 (CET)[rispondi]
Se il database è affidabile, se è scritto correttamente con tutti i diacritici e se il bot lo sa leggere allora non ci sono problemi. Cominciano ad essere un po' troppi "se". Esempi pratici: ti porto tre database certamente affidabili, visto che provengono dagli istituti statistici nazionali. Numero 1 (formato xls): dati ufficiali di popolazione della Romania, di diacritici nemmeno l'ombra, oltre ai problemi di omonimia di cui parlerò dopo; numero 2 (formato xls): dati di superficie e popolazione dei comuni cechi; ci sono svariate omonimie, diacritici compresi, riusciamo a far distinguere dal bot quale sia tra i due Lhota quello del distretto di Kladno e quello del distretto di Praha-východ?; numero 3 (formato pdf, ma disponibile anche in xls): ancora comuni cechi; qui ci sono tutti, riusciamo a far scoprire da un bot a quale dei sette Dolany si riferisce la voce che sta facendo, se fanno fatica a farlo perfino gli umani?--Frazzone (scrivimi) 18:49, 13 dic 2011 (CET)[rispondi]
Forse ti deludo però il bot li sa distinguere, Dolany compresi. Certo non hai scelto database dei più facili, però non sono impossibili.--Nickanc ♪♫@ 19:20, 13 dic 2011 (CET)[rispondi]
Non li ho scelti appositamente; quello della Romania ricordavo che non aveva i diacritici, gli altri due li sto usando per i comuni della Repubblica Ceca che ho iniziato ad inserire non da molto. E non so perché, ma mi piacerebbe metterlo alla prova questo bot così bravo.--Frazzone (scrivimi) 19:45, 13 dic 2011 (CET)[rispondi]
Tra l'altro, mi sono accorto di aver dimenticato anche il problema delle coordinate, rammentando che prenderle da altre edizioni linguistiche non vale perché Wikipedia non puù essere fonte di se stessa.--Frazzone (scrivimi) 19:53, 13 dic 2011 (CET)[rispondi]
Aggiungo che i casi che si incontrano sono al di là dell'immaginazione di ogni possibile programmatore di bot. Tanto per aggiungere un altro esempio, ho scoperto poco fa che in Repubblica Ceca esitono un Loucká, tre Loučka e due Dlouhá Loučka.--Frazzone (scrivimi) 23:13, 13 dic 2011 (CET)[rispondi]
Non ci siamo minimamente capiti:io dico a Nickanc di non preoccuparsi perchè, francamente, mi sembra un tantino irritato e soprattutto chiamato in causa in un modo che, essendo secondo lui implicito, potrebbe non garbargli. Quel "non ti preoccupare" era rivolto solo ed esclusivamente a tranquillizzare Nickanc, facendogli capire che nessuno vuole assolutamente mettere pressione su di lui. Tutto qui! :)... so che per il bot, invece, bisognerebbe preoccuparsi, cautelandosi ben bene......... --Farberking Guarda!!! 14:20, 14 dic 2011 (CET)[rispondi]
se ho capito bene il problema maggiore e' l'affidibilita' dei database. Considerando che i dati contenuti in un database sono utili per tutti le wiki, perche' non creare un omologo di http://commons.wikimedia.org/ per i database? che so, http://database.wikimedia.org/?--178.66.139.131 (msg) 20:53, 15 dic 2011 (CET)[rispondi]
Perché i database di cui stiemo parlando sono quelli da usare come fonti: la loro copiatura in un progetto wikimedia non ne aumenterebbe di una virgola l'affidabilità né la fruibilità da parte di bot o umani. Se invece si trattasse di database "originali" (come wikispecies) non avrebbero nessuna utilità come fonte. --Rupert Sciamenna qual è il problema? 23:54, 18 dic 2011 (CET)[rispondi]