Discussione:K-means

Non credo che la formula della funzione obiettivo sia giusta. La differenza andrebbe calcolata tra ogni punto di un cluster e il relativo centroide, non tra tutti i punti e tutti i centroidi.— Questo commento senza la firma utente è stato inserito da 193.205.162.6 (discussioni · contributi) 12:55, 19 mar 2007 (CET).[rispondi]

Non credo tu abbia capito la formula, ora te la spiego: Ho i punti che voglio partizionare nell'iperpiano e devo individuare dei centroidi sempre nell'iperpiano tale per cui l'insieme dei centroidi minimizzi la distanza dei punti da essi. Per fare ciò calcolo quella sommatoria. A parole non è semplice da spiegare, quindi ti consiglio di consultare qualche testo di calcolo numerico o di programmazione matematica per comprendere meglio. --Sechi francesco 23:55, 19 mar 2007 (CET)[rispondi]

Conosco abbastanza bene kmeans. Quella che va minimizzata è appunto la distanza di ogni punto dal centroide ad esso più vicino e non la somma delle distanze da ogni punto ad ogni centroide, come la formula sembra indicare (se non mi sfugge qualcosa). Per approfondire puoi guardare qui [1], dove noterai l'utilizzo di un indice in più rispetto alla formula riportata nell'articolo: è appunto l'indice che lega ogni punto al centroide cui è associato.— Questo commento senza la firma utente è stato inserito da 193.205.162.6 (discussioni · contributi) 15:53, 20 mar 2007 (CET).[rispondi]

Mi ci puoi mettere gli apici che vuoi, il vettore degli ingressi è uno, quindi quella (m) ha per me ben poco significato. Sinceramente non capisco perchè il professore faccia questa distinzione, per me inutile e priva di significato; infatti se noti la medesima distinzione non viene fatta nel fuzzy k-means. Comunque, visto che appartieni a quella categoria di studenti universitari per cui la parola del professore è legge e che non si sofferma a pensare all'effettivo significato delle formule, ti rimando all'articolo dell'autore del k-means. Penso che sia abbastanza attendibile, visto che è lui che ha ideato l'algoritmo, poi mi fai sapere che dice e, se sbaglio, provvederò a correggere l'errore. P.S. Scusami per l'irruenza, ma la cosa che mi da fastidio è che non so con chi sto parlando, quindi sarebbe cortese da parte tua presentarti. --Sechi francesco 17:01, 20 mar 2007 (CET)[rispondi]

Come ben sai, gli articoli di Wikipedia non sono firmati perchè siamo qui per costruire qualcosa, la nostra identità non dovrebbe avere alcuna importanza e il nostro ego dovrebbe essere messo da parte in favore della diffusione della conoscenza. E' per questo che mi concentravo sull'articolo e non ho perso tempo a registrarmi. In ogni caso, visto che lo ritieni utile, mi chiamo Francesco Napolitano e sono uno studente di dottorato dell'Università di Salerno. Al di là delle presentazioni (molto piacere), quello che interessa a me è capire, ribadisco, una cosa molto semplice: se quella formula somma le distanze di ogni punto dal centroide del cluster cui appartiene o le distanze di ogni punto del dataset da ogni centroide (come mi pare, ma io posso sbagliarmi), poichè sono due cose diverse. Se in letteratura esistono queste due versioni, mi piacerebbe discuterne e non a caso lo faccio in questa finestrella titolata "Discussione". A tal proposito, non ho bisogno di leggermi l'articolo originale: ti credo sulla parola. A questo punto sarebbe per me prezioso se tu spiegassi come mai secondo te le due formulazioni sono la stessa cosa e mi mostrassi dove è errato il mio ragionamento, in modo da aderire allo spirito di Wikipedia infondendo anche in me la tua conoscenza. In ogni caso non ti arrabbiare, al mondo ci sono guai peggiori.— Questo commento senza la firma utente è stato inserito da 193.205.162.6 (discussioni · contributi) 18:20, 20 mar 2007 (CET).[rispondi]

Non mi arrabbio, è solo che ora che so che sto parlando con qualcuno che può capire quello che dico (dato che presumo sia un dottorando in materie scientifiche) la discussione ha un senso. Ti dico questo perchè capita spesso che si facciano questioni su cose al di la' della propria portata. Ora, tornando al punto della questione, l'obiettivo degli algoritmi di clustering è quello di partizionare un insieme di dati in sottoinsiemi secondo determinate caratteristiche. Supponiamo di avere dei punti (i centroidi) sparsi nell'iperspazio: l'obiettivo dell'algoritmo iterativo è quello di "muovere" questi punti per individuare la loro posizione nello spazio tale per cui si possa dire con certezza che quel sottoinsieme è composto da punti che hanno caratteristiche simili. Quindi per ogni punto devo calcolare la distanza da ogni centroide, perchè se nell'iterazione precedente potrei aver spostato un centroide in una posizione che faccia rientrare in un cluster un punto che prima non vi apparteneva. Ora vorrei motivarti il mio commento sulla formula del professore del politecnico: Una formula del tipo $V_{m}(U,C)=\sum _{i=1}^{K}\sum _{j=1}^{N}||X_{j}^{(m)}-C_{i}||^{2}$ è già scritta male di per sè, dato che, se non ho capito male da quel che ho letto, l'espressione corretta sarebbe: $V(U,C)=\sum _{i=1}^{K}\sum _{j=1,X_{j}\subset P_{i}}^{N}||X_{j}-C_{i}||^{2}$ . Potrei sbagliarmi, non essendo un esperto in materia, ma per applicare la formula che vorresti applicare tu sarebbe necessario trovare una seconda funzione che individui una posizione corretta dei centroidi nell'iperspazio. L'algoritmo che ho mostrato io compie entrambe le operazioni (individuazione dei centroidi e dei cluster) in un'unica funzione obiettivo. Piacere di averti conosciuto, spero avremo modo di confrontarci su altre questioni. Nel salutarti ti invito ad iscriverti su Wikipedia e a collaborare anche tu al progetto. --Sechi francesco 19:08, 20 mar 2007 (CET)[rispondi]

Sì, area scientifica, Informatica per la precisione. Il mio parere personale è che, indipendentemente dal numero di precedenti sfavorevoli, si debba partire dal presupposto che chi interviene lo faccia con cognizione di causa e cambiare idea se parla a sproposito, piuttosto che partire con l'assunto che l'altro non conosca la materia e cambiare idea se dice cose sensate (o, peggio, se si qualifica). Ad ogni modo, il mio commento non è sulla strategia di ricerca della soluzione, che presuppongo conosciamo entrambi, ma sulla formulazione della funzione obiettivo (così infatti è indicata nell'articolo la formula cui ho fatto riferimento). Per realizzare lo step di riposizionamento dei centri, è vero, devo calcolare tutte le distanze tra punti e centroidi (anche se in realtà ho bisogno di tutte le distanze, non della loro somma, come nella formula). Tuttavia questo non ha nulla a che vedere con la funzione obiettivo. La formulazione esatta della funzione obiettivo per il k-means la trovi anche nella Wikipedia inglese che, anch'essa, indicizza più pesantemente le variabili per includere nel calcolo il rapporto cluster-centroide. Per valutare quanto è buona la tua clusterizzazione, infatti, vuoi sapere quanto ogni punto è distante dal centroide più vicino. E' un problema comune a tutte le tecniche di quantizzazione vettoriale e consiste nel misurare la perdita di informazione dovuta alla compressione dello spazio vettoriale in quello "quantizzato". Se consideri il centroide di un cluster come media campionaria del cluster, allora l'errore quadratico medio non è altro che la relativa varianza campionaria. Questa, come è ovvio, va calcolata distintamente all'interno di ogni cluster. Se su questo siamo d'accordo, propongo di nuovo di correggere la formula.

Dopo una spiegazione così esaustiva non posso che darti ragione; ho generalizzato l'algoritmo fuzzy al caso crisp, evidentemente sbagliando. Provvedo subito a correggere l'errore. Grazie. Se sei d'accordo cancellerei la prima parte del dibattito che è ben poco costruttiva, lasciando solo questi due ultimi messaggi, che possono essere utili a chi legge l'articolo. Ciao --Sechi francesco 20:00, 20 mar 2007 (CET)[rispondi]

Solo un appunto: la seconda sommatoria dovrebbe avere un simbolo di appartenenza, non di inclusione, poichè gli $X_{j}$ non sono insiemi, ma singoli elementi. Per quanto riguarda questa discussione, lascia pure quel che ritieni più utile. A presto.

salve, non sono registrato, mi presento: Matteo Nunziati, dottorando di ricerca in progetto e cotruzioni di macchine. c'è un'imprecisione nella seconda sommatoria: non ha alcun senso quell'N posto sopra il simbolo di somma, dato che è di per sè esaurita tutta l'informazione necessaria dal pedice. va rimmosso IMHO. ciao.

Collegamenti esterni modificati

Gentili utenti,

ho appena modificato 3 collegamento/i esterno/i sulla pagina K-means. Per cortesia controllate la mia modifica. Se avete qualche domanda o se fosse necessario far sì che il bot ignori i link o l'intera pagina, date un'occhiata a queste FAQ. Ho effettuato le seguenti modifiche:

Aggiunta del link all'archivio https://web.archive.org/web/20060902143345/http://www.stanford.edu/~darthur/ per http://www.stanford.edu/~darthur
Aggiunta del link all'archivio https://web.archive.org/web/20060830055220/http://www.stanford.edu/~sergeiv/ per http://www.stanford.edu/~sergeiv
Aggiunta del link all'archivio https://web.archive.org/web/20060902143345/http://www.stanford.edu/~darthur/ per http://www.stanford.edu/~darthur

Fate riferimento alle FAQ per informazioni su come correggere gli errori del bot

Saluti.—InternetArchiveBot (Segnala un errore) 18:32, 15 mar 2018 (CET)[rispondi]

Discussione:K-means

Collegamenti esterni modificati

Menu di navigazione

Ricerca