Wikipedia:Bar/Discussioni/Categorie: facilitare l'intersezione

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca
Categorie: facilitare l'intersezione NAVIGAZIONE


Da alcuni anni rifletto al problema delle categorie, e sono gunto ad una conclusione provvisoria (spero che ne sia valsa la pena). Immagino che ne abbiate parlato millanta volte, ma mi è capitato di aver bisogno di consultare le categorie di pedia e ho ancora una volta incontrato lo stesso problema.

A me serve l'incrocio fra le categorie Categoria:Morti nel 1940 e Categoria:Scrittori, in quanto mi farebbe comodo ricavare l'elenco degli scrittori morti nel 1940. Apro la prima: ok! C'è una bella lista di nomi. Apro la seconda.... quattro nomi e una matassa di sottocategorie.

La mia conclusione è: sarebbe molto, ma molto meglio assegnare, cum grano salis, ai singoli articoli anche le categorie "più ampie", le "parent" rispetto alle sottocategorie. Es: Bob Shaw sarà pure giusto metterlo in Categoria:Autori di fantascienza irlandesi, ma quanto mi piacerebbe trovarlo subito anche in Categoria:Autori di fantascienza, in Categoria:Scrittori per genere e soprattutto in Categoria:Scrittori! Una singola lettura di Categoria:Scrittori, un'altra di Categoria:Morti nel 1940, una bella intersezione... fine del problema. Se poi avessi voluto l'elenco degli scrittoti di fantascienza, morti nel 1940, non avrei avuto problemi; idem per ogni possibile incrocio ragionevole.

Per favore, siccome è frutto di LUNGA riflessione, contate almeno fino a 10 prima di rispondere che è una grandiosa stupidaggine. :-P --Alex_brollo Talk|Contrib 09:51, 9 nov 2010 (CET)[rispondi]

sarebbe utile un tool che permetta di intersecare le categorie (magari esiste già). Mettere le voci in ogni incrocio di categorie possibile invece sembra complesso e confusionario (oltre che andare incontro Aiuto:Categorie). --130.251.101.201 (msg) 09:54, 9 nov 2010 (CET)[rispondi]
Non è una grandiosa stupidaggine, anzi. Però anche io penso che (se possibile) l'ottimo potrebbe essere un tool esterno che incrocia tra loro due categorie (con relative sottocat) restituendo i risultati comuni. Ovviamente, se possibile... --Retaggio (msg) 10:28, 9 nov 2010 (CET)[rispondi]
(conflittato) credo che la proposta sia stata avanzata più volte, anche da utenti di altri progetti. esiste(va) un tool esterno su toolserver, ma era ovviamente lento e poco accessibile. ci sarebbe da aprire (e se già stata aperta la segnalazione, votare) un bug/richiesta feature agli sviluppatori. --valepert 10:30, 9 nov 2010 (CET)[rispondi]
Scrittori morti nel 1940 (non poi così lento come tool).
Alex, pensi davvero che mettere tutti gli scrittori esistenti in una singola categoria la renda gestibile? :) Decine di migliaia di elementi in una categoria, ingestibile. Poi nel caso delle biografie si potrebbe far categorizzare al bio in automatico nella "categoria:Scrittori morti nel..." -Jalo sloggato 11:12, 9 nov 2010 (CET)[rispondi]
Ottimo, Jalo. :-D Lo conoscevo, tempo fa, ma poi lo avevo dimenticato... :-P --Retaggio (msg) 11:22, 9 nov 2010 (CET)[rispondi]
E' così bello che andrebbe "fuso" con la ricerca standard di 'pedia. Tnx Jalo. --Amarvudol (msg) 12:22, 9 nov 2010 (CET)[rispondi]
Il tool di jalo sarebbe anche sostitutivo di mooolte liste totalmente inutili. @Alex_brollo: come dice Jalo seguendo il tuo suggerimento avremmo categorie con migliaia di voci, sarebbe tutto meno che comodo. ^musaz 13:42, 9 nov 2010 (CET)[rispondi]
A dire il vero esiste il poco usato meccanismo incategory che fa effettivamente intersezione di categorie ma con parecchi limiti; il più fastidioso è che le categorie devono essere scritte in chiaro nel testo e non generate da template. Il fatto di avere categorie numerosissime non è un grande svantaggio nè corrisponde a un grosso carico server; verrebbero comunque visualizzate solo le prime, insieme alle sottocategorie. Fare via software l'intersezione di due insiemi anche molto grandi è molto più agevole - secondo me - di rintraciare tutti gli elementi di un albero, la cui complessità aumenta esponenzialmente con le diramazioni/livelli. Infatti, i tool come quello che mi avete segnalato (GRAZIE!) non mettono limiti al numero di elementi di una categoria, ma li pongono al numero di livelli!
Comunque: da qui in poi sarebbe, da parte mia, una discussione sul sesso degli angeli; il mio risultato l'ho acchiappato, ho il link di un eccellente tool, vi ringrazio e torno a casa (wikisource). :-) --Alex_brollo Talk|Contrib 14:40, 9 nov 2010 (CET)[rispondi]
Sì anche perché la priorità d'incrocio è stata data 1) alla nazionalità 2) al secolo, quindi potrai trovare Categoria:Scrittori italiani del XX secolo, ma non Categoria:Scrittori morti nel 1940. questione di scelte. --OPVS SAILCI 15:02, 9 nov 2010 (CET)[rispondi]
In realtà quello che veniva richiesto all'inizio da AlexBrollo è più vicino al concetto di tag che di categoria. Categorizzare implica avere già una struttura concettualmente statica (anche se ovviamente l'albero è modificabile) ed inserirci le voci. Sarebbe più flessibile partire dalle voci ed "appiccicare" dei tag da raccogliere dinamicamente mediante software opportuno. Con il sistema di categorizzazione attuale l'albero delle categorie dovrebbe essere arricchito quando sorge una nuova esigenza specifica (magari creando categorie con pochissime voci), l'esigenza specifica si soddisfa col tool proposto più sopra. Personalmente spero che l'evoluzione di wiki sia proprio verso l'adozione dei tag al posto delle categorie. --Basilero (se hai qualcosa da dirmi...) 15:45, 9 nov 2010 (CET)[rispondi]

Potrebbe essere fattibile manovrando il {{bio}}. E' infatti possibile combinare l'attività con i campi di nascita e morte, tuttavia se non si ponesse un correttivo si presenterebbe un problema: ne verrebbero fuori categorie senza senso, tipo - per dire - [[Categoria:Mafiosi morti nel 1950]] o [[Categoria:Prestigiatori nati nel 1915]]. Quindi la combinazione dovrebbe attivarsi solo a richiesta, magari settando un altro campo "interruttore" che se "acceso" la faccia funzionare altrimenti no. Per il resto, l'idea è buona e potenzialmente molto utile, quindi se ci fosse questa possibilità direi di provarci --Fantasma (msg) 16:41, 9 nov 2010 (CET)[rispondi]

Io come al solito, da amante delle categorie, non vedrei il problema nell'esistenza dei "Prestigiatori nati nel 1915", tanto più che se il bio la crea è perché qualcuno di enciclopedico esiste Jalo 16:55, 9 nov 2010 (CET)[rispondi]
Anch'io le amo, ma se ci producesse la [[Categoria:Escort non ancora maggiorenni]] prevedo grane :-)
Cmq, ci proviamo? che dici? --Fantasma (msg) 17:05, 9 nov 2010 (CET)[rispondi]
(conflittato) il fatto è che si rischia di non capire "quando fermarsi" e proporre, soprattutto per voci dei progetti minori, di creare categorie del tipo "Sottomarini sovietici varati nel 19xx ed affondati nel 19xx" solo perché ce ne sono due e probabilmente ce ne sono altri. fornire al livello software strumenti per "intrecciare categorie", magari massimo 3 con, ad esempio, la possibilità di salvarsi le intersezioni e intersecarle nuovamente, trattandole come una categoria virtuale. del resto, dato che Wikipedia sta sopra un database, alla fine sarebbe l'equivalente di effettuare "join" e "viste", sebbene il testo venga trattato in modo diverso dai comuni record SQL... --valepert 17:08, 9 nov 2010 (CET)[rispondi]
Visto che parliamo del template bio, il problema non si pone. Abbiamo un tot di attività prestabilite, e credo che "sottomarino sovietico" non ne faccia parte. Se abbiamo deciso di accettare la categoria "naturalisti svedesi", perché rifiutare "naturalisti nati nel 1950"? Non vedo la differenza di importanza tra le 2 Jalo 17:36, 9 nov 2010 (CET)[rispondi]
Tanto per dirne una, nel momento in cui lo si implementasse senza filtri, moriremmo schiacciati di categorie richieste. E dobbiamo correre per farle per le pornostar o arrotini, per dirne due, quando la discussione nasce da una giusta esigenza davvero sentita, mentre delle altre dubito che la sentiremo mai? --Fantasma (msg) 18:09, 9 nov 2010 (CET)[rispondi]
Bè, noi su source (dove nonostante la specializzazione spinta le categorie sono parecchie) stiamo riflettendo sull'implementazione di Dynamic Pagelist... se c'è quella, l'incrocio dinamico di categorie è una vera pacchia; ma resta la questione filosofica delle categorie "fully populated" per farla girare al meglio. Avete mai pensato a chiedere l'estensione? --Alex_brollo Talk|Contrib 18:28, 9 nov 2010 (CET)[rispondi]
L'intersezione delle categorie è decisamente qualcosa che molti abbiamo voluto, prima o poi, quando abbiamo usato wikipedia come lettori. Tutto sommato è un bene che lo faccia un tool esterno, perché l'incrocio che interessa a me non interessa necessariamente a un altro lettore, e non è molto pratico avere un numero troppo grande di categorie (e pensare che ultimamente ne sto creando a raffica). Più che altro, è importante poter far incrociare le categorie comprendendo tutte le sottocategorie. Cruccone (msg) 19:01, 9 nov 2010 (CET)[rispondi]
Ma il punto, mi pare di capire, è proprio il contrario di quello che mi sembrate temere: qui si parlava di abbandonare o comunque ridurre l'importanza delle categorie specialistiche per sostituirle con l'uso del tool, e di popolare maggiormente le categorie generaliste per rendere più facile ed utile l'uso del tool medesimo. L'esempio della "categoria insensata" dei sottomarini consisterebbe nell'intersezione di "Sottomarini militari", "Unione Sovietica", "Navi varate nell'anno X" e "Navi affondate nell'anno Y".... --93.32.55.64 (msg) 20:32, 9 nov 2010 (CET)[rispondi]



Il come taggare (categorizzare) un qualcosa è tutto fuorché semplice, nel caso delle enciclopedie più un'enciclopedia è specifica e più specifiche devono essere le categorie assegnate alle voci, più generalista è l'enciclopedia è più ci si può permettere di avere categorie generali, questo parlando di ricerca delle informazioni. Secondo me bisogna partire da questo presupposto: Wikipedia deve essere pensata in base a chi ne usufruisce per il suo scopo principale ovvero recuperare informazioni, la modifica - ed il chi effettua le modifiche - sono certamente essenziali per il tipo di progetto ma sono secondarie quando parliamo di recupero delle informazioni. Un'osservazione che è stata fatta durante un talk su Wikipedia all'ultimo Linux Day è stata proprio relativa alla povertà degli strumenti di ricerca delle informazioni ed alla non semplicità di raggiungiumento degli stessi (vedi catscan), e qui apro l'ennesima parentesi.

Le necessità principali di chi legge Wikipedia penso si possano riassumere in:

  • cercare una voce precisa ed eventualmente ciò che vi è collegato
  • recuperare elenchi/liste e successivamente analizzarne le singole voci

La prima necessità viene soddisfatta dalla casella di ricerca presente in tutte le pagine e dai wikilink presenti all'interno della voce, mentre la seconda necessità attualmente - a mio personale parere - è soddisfatta in parte.

Occorre una promessa, la comunità tende ad eliminare le voci lista ovvero quelle voci che racchiudono elenchi, (es. elenco del software libero), questi elenchi hanno un grosso problema: sono imprecisi poichè complesso mantenerli aggiornati.

Prendiamo ora una possibile ricerca, ad esempio voglio le voci di pittori (*) che hanno un'opera nel periodo 1900-1930(*) o nell'anno 1912 oppure l'elenco delle opere eseguire nel 1912 da pittori spagnoli. Quest'ultima è una probabile ricerca scolastica. (* gli asterischi indicano le informazioni recuperabili dal template operte d'arte o dalle categorie) Per quanto riguarda le liste utilizzando un sistema di incrocio/selezione di categorie/tag (chiamiamoli come vogliamo) ci potremmo permettere l'eliminazione in toto di tutte queste voci elenco imprecise avendo poi dati sempre aggiornati.

Questo ovviamente nell'ipotetico mondo dove abbiamo infinita potenza di calcolo per fare questo tipo di ricerche e dove abbiamo sviluppatori pronti al nostro comando.

Nel nostro mondo - quello reale - la potenza di calcolo è limitata ed i programmatori non possono mettersi allo studio di feature così stravolgenti a livello tecnico senza un ampio consenso da parte di chi deve decidere queste cose.

Noi, nella nostra reaktà possiamo utilizzare le categorie, prendiamo gli esempi sopra:

  • cerca le voci categorizzate sotto software e sotto gpl (prendo questa licenza come esempio)
attualmente non è possibile farlo, perchè le voci dei software non sono categorizzate in base al tipo di licenza, il problema si risolve creando la categoria software sotto gpl etc etc
  • cerca le voci categorizzate sotto pittori spagnoli del XX secolo e stop. Dico stop perchè apparentemente con le attuali categorizzazioni delle opere d'arte non è possibile utilizzare dei riferimenti
temporali precisi (se poi qualcuno mi smentisce sono anche felice), quindi la nostra ricerca si fermerebbe all'utilizzo della categoria (già esistente) pittori spagnoli del XX secolo.

A questo punto uno dei problemi è indubbiamente quello sollevato da Valepert: quanto andare nel dettaglio durante la categorizzazione di una voce? Si potrebbe stabilire dei criteri per ogni template (bio, software, opera d'arte, etc etc), penso sia via migliore allo stato attuale delle cose.

Sui dubbi espressi da alcuni anche in chat riguardo l'utilità di poter ricercare in questo modo, oltre all'esempio dell'ultimo Linux Day, porto quest'altro: quando faccio interventi su Wikipedia nelle scuole arriva *sempre* il momento in cui ti chiedono si daccordo, questa è la casella di ricerca, ma se voglio trovare i comuni italiani più grandi di 30.000 abitanti o scienziati italiani nell'ambito della chimica?, al che comincio a parlare delle categorie, ai tool (catscan) per effettuare ricerche, accorgendomi mentre parlo che questa non è sicuramente la soluzione più userfriendly anzi, per nulla. Gli elenchi generati off line sono difficile da raggiungere, catscan non è alla portata del lettore medio di Wikipedia, etc etc.

Questi esempi di ricerche non sono sfizi o curiosità, sono reali casi in cui si necessita di avere informazioni che vadano al di là della ricerca mirata.

Tirando le somme:

  • avere informazioni (le voci) e non poter usarle (estrapolazione), è a mio parere molto limitativo sia per chi necessita di cercare informazioni sia per il Progetto stesso.
  • categorizzare in modo più maniacale le voci (partendo magare da quelle che hanno un template, visto che la presenza di un template indica anche si tratta di una voce che segue determinati criteri e standard)
  • spingere per trovare una soluzione *decente* per l'incrocio delle categorie, visto che la ricerca delle informazioni è la base di un qualsiasi archivio, a maggior ragione quando si parla di un Enciclopedia universale come la nostra

Scusatemi per la lunghezza dello scritto ;-) --Ask21 (msg) 11:55, 12 nov 2010 (CET)[rispondi]

Fermo restando che:
  1. ci vuole qualcuno che se ne occupi, innanzitutto riflettendo a fondo;
  2. che bisogna conoscere bene #incategory, e riflettere sui suoi limiti notevolissimi (difficoltà d'uso, impossibilità di utilizzarlo su categorie generate via template, che sono le migliori!);
  3. che sarebbe quanto mai opportuna l'installazione di DynamicPageList, per tenere sempre aggiornate delle buone "liste";
io mi sto orientando, su source, a una soluzione mista: ossia, delle pagine che permettano di porre delle query (incroci di categorie ed altro) e che via bot generino una risposta su pagina html esterna, raggiungibile con un link fisso. Mi sono spiegato? Nella pagina quesry c'è la query e il link alla pagina-risposta, sempre costante; come un utente modifica la pagina con una nuova query, un bot #irc se ne accorge, elabora la query e scrive la risposta sulla pagina html. Vantaggio: anche quesry che danno risposte molto ma molto lunghe non "appesantiscono" per nulla la cronologia della pagina. Che ne pensate? Vale la pena di tentare l'implementazione? Ovvio, è un lavoretto per chi ha un bot che ascolta #irc e accede in scrittura a uno spazio web pubblico. --Alex_brollo Talk|Contrib 10:18, 14 dic 2010 (CET)[rispondi]