Discussioni utente:Leonard Vertighel/A.R.G.O.

Da Wikipedia, l'enciclopedia libera.
Vai alla navigazione Vai alla ricerca

Twice25 e Frieda mi hanno gentilmente segnalato che questa pagina non è stata segnalata da A.R.G.O., nonostante fosse copiata da Internet. Purtroppo non sono riuscito a scoprirne la ragione. Una possibilità è che A.R.G.O. non sia riuscito a consultare Google, magari perché aveva superato il limite di consultazioni automatiche consentito.

Dalla versione 0.1.3 A.R.G.O. segnala se non riesce a consultare Google. Chi volesse aiutare è pregato di copiare in questa pagina gli errori segnalati, compresa la modifica che ha causato il problema (ovvero quella subito sopra al messaggio di errore). Grazie. --“Ricordati di me!” 13:43, Feb 8, 2005 (UTC)

Avevo fatto delle prove ieri sera con Lago di Bolsena che non è copiata, ma ha uno split in http://www.levigne.it/lago_di_bolsena.htm (Google: http://www.google.it/search?q=%22Situata+di+fronte+al+centro+abitato+di+Marta%22 ). Ubi mi ha detto che probabilmente non trovava la corrispondenza per via del meccanismo di whitelisting, puoi però vedere in cronologia che ho fatto un edit anche non loggato.

Ora ho rifatto - sempre non loggato - la prova copiando di sana pianta un pezzo della descrizione della formazione professionale da due siti che ho in hosting. Ecco cosa ne pensa Google: http://www.google.it/search?q=%22gli+iscritti+all%E2%80%99Albo+hanno+l%E2%80%99obbligo+morale+e+deontologico+di+svolgere%22

Spero che questi test possano esserti d'aiuto. Ciao, M/ 14:05, Feb 8, 2005 (UTC)

Contribuisco col log di A.R.G.O.:

(cron) . . Utente:Beatrice Tue, 08 Feb 2005 13:59:14 GMT . . Beatrice (Discussione) (Lavori in corso)
(cron) . . N 2BeDeleted Tue, 08 Feb 2005 13:58:50 GMT . . 213.255.107.33 (Discussione) (Prova scopiazzamento di M/)
(cron) . . Rachitismo Tue, 08 Feb 2005 13:58:25 GMT . . Renato Caniatti (Discussione) (Voci correlate)
Frieda (dillo a Ubi) 14:17, Feb 8, 2005 (UTC)

Ok, grazie, per la soluzione velocissima. Ti segnalo però che in fase di modifica (quando ho aggiunto la categoria su 2BeDeleted) non ha segnalato di nuovo la CopyVio. È il comportamento normale? Se è così, riconsideralo, perché magari A.R.G.O. potrebbe darci una mano per capire se e dove in passato può essere sfuggito qualcosa, aiutando inoltre nella segnalazione di quei siti che attingono al materiale di Wikipedia. Aggiungo che il tuo lavoro è molto apprezzato. Ancora grazie. M/

M/: Sì, è il comportamento normale, e purtroppo è inevitabile: Google permette solo un numero limitato di consultazioni automatiche al giorno. È per questo che A.R.G.O. fa del suo meglio per controllare solo le parti nuove di testo, e cerca inoltre di individuare gli utenti "di fiducia" di cui non ha bisogno di controllare ogni aggiunta (sistema su cui sono ancora un po' in dubbio, si accettano proposte).
Piacerebbe anche a me fare più controlli, ma temo proprio che per ora non sia possibile. --“Ricordati di me!” 15:32, Feb 8, 2005 (UTC)

Problemi risolti[modifica wikitesto]

Grazie a M7 e Frieda ho risolto il problema (banale, bastava pensarci): A.R.G.O. riconosceva le nuove pagine (vanno trattate diversamente dai "diff" delle pagine esistenti) dalla stringa "<p><b>Nuova pagina</b></p>" (probabilmente non è una soluzione geniale). Attualmente la stringa però è "<p><b>New page</b></p>". Per ora A.R.G.O. le riconosce tutte e due, magari dovrei trovare un metodo più robusto.

--“Ricordati di me!” 14:44, Feb 8, 2005 (UTC)

A.R.G.O. in RC[modifica wikitesto]

Ho linkato A.R.G.O. anche dalla pagina delle ultime modifiche (di fianco al link al tool di Kate). Spero non ti dispiaccia. Ciao, Frieda (dillo a Ubi) 15:23, Feb 8, 2005 (UTC)

Perfetto, io ho linkato la pagina di spiegazioni da A.R.G.O., così chi ci arriva direttamente da RC le trova ugualmente. --“Ricordati di me!” 16:23, Feb 8, 2005 (UTC)

Strade alternative[modifica wikitesto]

Forse sarebbe possibile usare, come ricerca, anche la evrsione free di Copernic (il download si fa qui) che fa un meta-search su molti motori (Google escluso). Non so se tecnicamente A.R.G.O. può "passare" dei parametri a Copernic.exe... Ciao Giorgio. @@@23 Sono 'ui 15:35, Feb 8, 2005 (UTC)

Purtroppo no, A.R.G.O. "abita" in shared hosting (c'è una parola italiana?) su un server Linux, per cui non posso istallare del software, e se potessi non ci funzionerebbe comunque un programma Windows. Magari puoi scoprire a quali motori Copernic fa riferimento, e se offrono (gratuitamente!) la possibilità di consultazioni automatiche? --“Ricordati di me!” 16:34, Feb 8, 2005 (UTC)
I motori disponibili da Copernic sono AltaVista, AOL Search, Compuserve, Espotting, FAST Search (alltheweb.com), FindWhat, HotBot, LookSmart, Lycos, Mamma.com, MSN Web Search, Netscape Netcenter, Open Directory Project, Teoma, WiseNut, Yahoo!. Giorgio. @@@23 Sono 'ui 22:12, Feb 8, 2005 (UTC)

Ok per i chiarimenti che mi hai dato più sopra, ti segnalo ora un raddoppio, dovuto probabilmente ad una nuova interrogazione a Google, dopo che A.R.G.O. aveva segnalato la mancanza di feed.

(cron) . . N DTMF Tue, 08 Feb 2005 15:13:34 GMT . . 83.78.132.219 (Discussione) (DTMF)
   * ***** http://www.febat.com/Elettronica/Elettronica_DTMF.html
   * ***** http://www.febat.com/Elettronica/Elettronica_DTMF.html
   * **** http://www.techtown.it/home/detail.asp?iData=1266&iCat=277&iChannel=21&nChannel=Elettronica
   * **** http://www.techtown.it/home/detail.asp?iData=1266&iCat=277&iChannel=21&nChannel=Elettronica

Ciao, M/ 15:39, Feb 8, 2005 (UTC)

Non ne sono certo, ma ho il dubbio che possa succedere quando due utenti caricano la pagina più o meno contemporaneamente. Se un'istanza sta già consultando Google ma non ha ancora inserito niente nella banca dati locale, un'altra istanza potrebbe contemporaneamente consultare Google (perché non ha trovato niente nella banca dati) e inserire i risultati nella banca dati una seconda volta. Terrò d'occhio la cosa, ma non penso che possa creare problemi. --“Ricordati di me!” 16:44, Feb 8, 2005 (UTC)

Magari non è niente ma te lo segnalo lo stesso:

(cron) . . N Valencia (provincia) Tue, 08 Feb 2005 20:53:27 GMT . . Cruccone (Discussione) ()
Errore nella consultazione di Google: HTTP Error: no response from server

Ciao :-) --Civvì (T) 21:04, Feb 8, 2005 (UTC)

Se non altro adesso sappiamo che ho fatto bene a mettere l'avviso quando una consultazione di Google fallisce. Se cominciassimo a vedere "no response from server" più spesso, si potrebbe provare a fargli ripetere automaticamente la richiesta (comunque in teoria il problema dovrebbe risolversi da solo ricaricando la pagina, perché A.R.G.O. non dovrebbe trovare niente nella sua banca dati e riprovare a consultare Google). --“Ricordati di me!” 14:03, Feb 9, 2005 (UTC)
Preciso: ... ricaricando la pagina passati cinque minuti dall'ultimo aggiornamento, perché prima A.R.G.O. non fa assolutamente niente e fornisce sempre la stessa pagina. --“Ricordati di me!”

mirror non esclusivi[modifica wikitesto]

Non mi risulta esistano molti "mirror" esclusivi per wikipedia. dunque forse di potrebbe prevedere anche un elenco di siti che hanno nella loro offerta la nostra intera wikipedia. e come opzione per l'utente quella di escludere o includere tali siti. (Tomi 08:18, Feb 9, 2005 (UTC))

Un filtro "opzionale" richiederebbe delle modifiche abbastanza ampie, ma se lo riteniamo utile, potrei provare a evidenziare questi siti in un qualche modo (per esempio con un altro colore). Magari intanto teniamo un po' d'occhio quanti ne saltano fuori e quanto spesso vengono segnalati, poi decidiamo se ne vale la pena. --“Ricordati di me!” 14:22, Feb 9, 2005 (UTC)

Ho trovato anche i seguenti. Svante T 15:43, Feb 9, 2005 (UTC)

segnalazione[modifica wikitesto]

  • Jean Piaget è preso parola per parola da qui, ARGO gli ha dato solo tre "stelline".
N Jean Piaget Wed, 09 Feb 2005 13:02:26 GMT . . 195.210.65.23 (Discussione) ()
   * *** http://www.dubladidattica.it/dizpiagt.html

Ciao --Civvì (T) 13:08, Feb 9, 2005 (UTC)

Grazie, problema risolto. (La segnalazione non è cambiata perché era già salvata nella banca dati, altrimenti adesso gli darebbe quattro stelline; non cinque, perché un pezzo di testo Google proprio non lo trova nemmeno cercando "a mano". Non so perché, ma è un problema di Google, non di A.R.G.O.) --“Ricordati di me!” 13:57, Feb 9, 2005 (UTC)

Mirror x php?[modifica wikitesto]

(cron) . . N Rettili Wed, 09 Feb 2005 18:27:36 GMT . . Thom (Discussione) (Rettili spostata a Reptilia)

   * ***** http://www.gerla.cc/modules.php?name=enci&Azione=Rettili

Modulo enci probabilmente da filtrare... Ciao, M/ 19:00, Feb 9, 2005 (UTC)

Sostiene sulla pagina principale (e mi sembra anche su tutte le altre): "Tutte le informazioni contenute in questo sito sono liberamente riproducibi e utilizzabili in qualunque contesto." A parte che almeno per quanto riguarda i testi presi da Wikipedia l'informazione non è proprio esatta (vedasi GNU FDL), che ne dite: possiamo filtrare tutto il sito, o è meglio di no? (Il filtro attuale sa filtrare solo tutto o niente.) --“Ricordati di me!” 19:25, Feb 9, 2005 (UTC)
Se è possibile, potresti introdurre il filtraggio se nell'url (di qualsiasi sito che usa phpnuke o simili) compare "modules.php?name=enci". Ciao, M/ 20:44, Feb 9, 2005 (UTC)

asterischi[modifica wikitesto]

Ti segnalo l'articolo Sagra del Redentore. ARGO mi indica due siti, entrambi con un solo asterisco

   * * http://www.sardiniapoint.it/5605.html
   * * http://www.e-nuorodoc.it/folclore.asp

Il secondo non l'ho controllato ma l'articolo è la copia quasi esatta del primo. TierrayLibertad 14:53, Feb 10, 2005 (UTC)

Purtroppo questo non è un errore ma una limitazione inevitabile del sistema: infatti se confronti la prima revisione dell'articolo e la pagina di sardiniapoint, vedi che chi ha inserito il testo ha apportato diverse piccole modifiche; probabilmente non sufficienti perché non sia una violazione, però la maggior parte dei pezzetti di testo che A.R.G.O. ha estratto (correttamente questa volta) ed inviato a Google effettivamente non compaiono nel testo di sardiniapoint. --“Ricordati di me!” 16:07, Feb 10, 2005 (UTC)

Argo pigro? :-)[modifica wikitesto]

Ciao, ti segnalo che Argo si è scordato di asteriscare Stilobate pur avendo segnalato altri copy viol dallo stesso sito e dello stesso utente..

(cron) . . N Fregio Wed, 02 Mar 2005 11:29:20 GMT . . 82.104.3.203 (Discussione) (fregio)

   * ***** http://members.tripod.com/artsnet/lezioarte/architet/ordini/0dizion.htm
   * * http://www.lcavour.it/Studenti/Ricerche%20studenti/RicStud%20-%20Classe%20IVD/Colonna%20Dorica/coldor.htm

(cron) . . N Triglifi Wed, 02 Mar 2005 11:23:15 GMT . . 82.104.3.203 (Discussione) (triglifo)

   * ***** http://members.tripod.com/artsnet/lezioarte/architet/ordini/0dizion.htm
   * ** http://www.lcavour.it/Studenti/Ricerche%20studenti/RicStud%20-%20Classe%20IVD/Colonna%20Dorica/coldor.htm

ma...

(cron) . . N Stilobate Wed, 02 Mar 2005 11:18:57 GMT . . 82.104.3.203 (Discussione) (stilobate)

senza alcuna "stellina"... --Civvì (T) 11:46, Mar 2, 2005 (UTC)

Scusate il ritardo ... Stilobate era sotto il limite minimo di circa 30 parole, per cui A.R.G.O. non ha eseguito nessun controllo. Se lo riteniamo importante posso cercare di eliminare il limite per le pagine nuove in una futura versione. Le piccole inserzioni in articoli già esistenti comunque non si possono controllare tutte, sempre per via del limite di consultazioni automatizzate di Google. --“Ricordati di me!” 18:30, Mar 3, 2005 (UTC)

spostato nella mia pagina di discussione --“Ricordati…” 20:03, Mag 10, 2005 (CEST)

Mirrors/cloni/scopiazzamenti[modifica wikitesto]

Utente:Robin root ha copiato il testo di en:Fear da en.wiki e ARGO ha segnalato questo:

(cron) . . N Paura Tue, 24 May 2005 20:17:09 GMT . . Robin root (Discussione) ()
   * ***** http://www.absoluteastronomy.com/encyclopedia/f/fe/fear.htm
   * ***** http://fear.biography.ms/
   * ***** http://www.economicexpert.com/a/Fear.htm

I siti in questione sono tutti cloni di en.wiki, mi chiedevo come mai non avesse segnalato anche en.wiki... (che magari è una domanda scema ma io sono taaanto curiosa) :-) Ciao --Civvì 23:54, Mag 24, 2005 (CEST)

Credo sia per via del fatto che Google non è onnicomprensivo. Capita non troppo raramente che le pagine clonate siano indicizzate mentre le originali di Wikipedia no. Vedi questa ricerca eseguita prendendo due frasi dall'articolo "Fear" (i cloni di en.wiki sono una valanga, forse il crawler di google si stufa di leggere sempre le stesse cose e dopo un po' la smette, magari tralasciando l'originale). Sotto un certo punto di vista non è una cosa malvagia, se tutti gli articoli fossero indicizzati e apparissero nelle prime posizioni non so se gli attuali server riuscirebbero a reggere il traffico. D'altra parte sarebbe bene risolvere il "problema" in vista di prossimi miglioramenti del parco macchine e/o collaborazioni.Svante T 07:28, Mag 25, 2005 (CEST)
P.S.perdonate l'intrusione
Ops, forse dovevo aggiungere che qui sopra ho incollato solo i "5 stelline" poi c'erano una raffica di siti con 4 o 3 stelline... :-) --Civvì 07:33, Mag 25, 2005 (CEST)
Forse erano i cloni pigri, quelli che sono stati aggiornati non recentemente e dunque corrispondono non completamente all'originale. Svante T 07:38, Mag 25, 2005 (CEST)

Ciao,

si pensava di mettere in piedi un server "nostro" sul quale, tra le altre cose, potrebbe girare A.R.G.O. inoltre sarebbe utile un'estensione al sistema per andare a a effettuare ricerce di violazioni di copyright a posteriori. Si potrebbe sfruttare lo stesso motore che già usi passandogli il titolo di una pagina. Che ne dici?

Sbìsolo 11:51, 15 ott 2006 (CEST)[rispondi]
Concordo pienamente, anche se pensavo di rifare tutto di sana pianta, visto che A.R.G.O. (devo ancora capire perché è defunto) aveva qualche baco che non sono riuscito a estinguere (v. alla voce spaghetti code). La mia idea sarebbe:
  • Un programma che legga in continuazione le RC via IRC (questa è la parte semplice, anche per me che so solo il PHP)
  • Un programma che prenda una pagina o una diff da wiki (sempre che non esista un sistema più semplice, non so come faccia p.es. il Tawkerbot) e controlli il testo (nel caso della diff solo quello aggiunto) con Google (o altri).
Il primo avvierebbe di volta in volta il secondo, il quale a sua volta potrebbe avere anche un'interfaccia per il controllo a posteriori.
Come è pensata la cosa del server "nostro", cioè chi lo finanzierebbe, e chi lo amministrerebbe? --“Ricordati…” 18:43, 15 ott 2006 (CEST)[rispondi]
Per i particolari su quest'ultima cosa chiedi a gvf. Per quanto riguarda il progamma, vederei bene addirittura la possibilità di testare tutti i diff delle varie versioni di una voce per le copyviol... Sono contento di aver letto quanto hai in progetto di fare... ora che copyscape non lo possiamo più usare, sarebbe un toccasana. --Sbìsolo 22:17, 17 ott 2006 (CEST)[rispondi]

Per quanto riguarda il server. La macchina è di mia proprietà (un usato comperato su ebay) e ho disponibilità di posto in uno degli armadi rack della ditta per cui lavoro compresa alimentazione e linea. Allo stato attuale è disponibile una linea ADSL a 64 kb garantiti che potremmo usare senza limiti fuori dell'orario di lavoro mentre durante l'orario di lavoro verrebbe limitata nel traffico in ingresso (da inet al server) ad un valore che devo "contrattare" ma che sarebbe piuttosto basso. Per il traffico in uscita non ci dovrebbero essere particolari problemi in quanto quella linea viene usata principalmente per navigazione e per ricevere la posta, e quindi il grosso del traffico è nell'altro senso. Sulla macchina pensavo di intallare una wiki e un server di posta (che fra l'altro servirebbe anche a me) e mi è stato richiesto di utilizzarla per farci girare qualche wikibot. Per me non ci sono problemi visto che per un lavoro del genere la macchina stà il 99% del tempo a girarsi i... bit. Per l'amministrazione del serve offrirei come volontario Sbisolo :-) visto che è infinitamente più competente di me in queste cose. --Gvf 12:29, 18 ott 2006 (CEST)[rispondi]

Ciao Leonard, visto quello che sto facendo in questi giorni (vedi bar, discussione titolata "Succedaneo ad A.R.G.O.") ho notato questa discussione. Per quanto riguarda il Tawkerbot, di cui ho i sorgenti, per funzionare prende l'intero codice wiki delle versioni della pagina da confrontare e si fa il suo proprio diff. --F. Cosoleto 16:01, 18 ott 2006 (CEST)[rispondi]

@Gvf: 64 kbit/s? Cioè quanto una linea ISDN? Se poi viene ulteriormente limitato il traffico in ingresso, non so se riusciamo a far funzionare un bot del genere che segua di continuo le ultime modifiche. Comunque quando arrivo a programmare qualcosa posso provare a stimare quanta banda si consumerebbe realmente. Comunque, se vuoi installare un wiki, vuol dire che conti di installare PHP e MySQL, giusto?
@F. Cosoleto: Grazie dell'indicazione. Credo che esista un pacchetto PEAR per fare le diff in PHP. Farò qualche esperimento.
--“Ricordati…” 23:31, 18 ott 2006 (CEST)[rispondi]

I 64 kb sono garantiti, la linea viaggia normalmente dalle parti del Mb. Ti assicuro che come banda è sufficiente a far andare un server. In passato andava ancora meglio, ma ora telecom ha stretto le maglie :-( . Per confronto le linee che danno a casa non hanno banda garantita. Se vogliamo di più bisogna pagare o aspetare che venga fatto l'upgrade anche a quella linea. Come soft si mette su tutto quello che serve, non abbiamo limitazioni, basta che la macchina ce la faccia. --Gvf 01:35, 20 ott 2006 (CEST)[rispondi]

Allora non dovrebbero esserci problemi; ovviamente un bot del genere consumerebbe un po' di banda in entrata per seguire le ultime modifiche, ma neanche tantissima (visto fra l'altro che caricherebbe solo testo). Teniamoci aggiornati a vicenda e vediamo cosa riusciamo a combinare... (fino a fine mese non ho il mio computer, per cui penso di combinare poco o nulla). --“Ricordati…” 11:49, 20 ott 2006 (CEST)[rispondi]

Comunque pare che il progetto stia diventando obsoleto. --“Ricordati…” 10:13, 24 ott 2006 (CEST)[rispondi]

Non vedo perchè, sopratutto nella versione proposta da Sbisolo, con controllo su richiesta. e comunque non mi darebbe fastidio avere due strumenti di controllo diversi: maggior possibilità di beccare i copyviol. --Gvf 13:07, 24 ott 2006 (CEST)[rispondi]

Questo è vero... allora per ora non straccio il progetto (comunque finora ne ho fatto solo un 5%, per cui ci vorrà ancora del tempo). --“Ricordati…” 13:39, 24 ott 2006 (CEST)[rispondi]