Clustering gerarchico

In statistica e apprendimento automatico, il clustering gerarchico è un approccio di clustering che mira a costruire una gerarchia di cluster. Le strategie per il clustering gerarchico sono tipicamente di due tipi:

Agglomerativo: si tratta di un approccio "bottom up" (dal basso verso l'alto) in cui si parte dall'inserimento di ciascun elemento in un cluster differente e si procede quindi all'accorpamento graduale di cluster a due a due.
Divisivo: si tratta di un approccio "top down" (dall'alto verso il basso) in cui tutti gli elementi si trovano inizialmente in un singolo cluster che viene via via suddiviso ricorsivamente in sotto-cluster.

Il risultato di un clustering gerarchico è rappresentato in un dendrogramma.

Dissimilarità tra cluster[modifica | modifica wikitesto]

Per decidere quali cluster devono essere combinati (approccio agglomerativo) o quale cluster deve essere suddiviso (approccio divisivo) è necessario definire una misura di dissimilarità tra cluster. Nella maggior parte dei metodi di clustering gerarchico si fa uso di metriche specifiche che quantificano la distanza tra coppie di elementi e di un criterio di collegamento che specifica la dissimilarità di due insiemi di elementi (cluster) come funzione della distanza a coppie tra elementi nei due insiemi.

Metriche[modifica | modifica wikitesto]

La scelta di una metrica appropriata influenza la forma dei cluster, poiché alcuni elementi possono essere più "vicini" utilizzando una distanza e più "lontani" utilizzandone un'altra. Per esempio, in uno spazio a 2 dimensioni, la distanza tra il punto (1, 1) e l'origine (0, 0) è 2, ${\sqrt {2}}$ or 1 se si utilizzando rispettivamente le norme 1, 2 o infinito.

Metriche comuni sono le seguenti:^[1]

La distanza euclidea (chiamata anche norma 2)
La distanza di Manhattan (chiamata anche norma 1)
La norma uniforme
La distanza di Mahalanobis, che corregge i dati per scale differenti e le correlazioni nelle variabili
L'angolo tra i due vettori.
La distanza di Hamming, che misura il minimo numero di sostituzioni richieste per cambiare un membro nell'altro.

Criteri di collegamento[modifica | modifica wikitesto]

Il criterio di collegamento (linkage criterion) specifica la distanza tra insiemi di elementi come funzione di distanze tra gli elementi negli insiemi.

Dati due insiemi di elementi A e B alcuni criteri comunemente utilizzati sono:^[2]

Nome del criterio	Formula
Complete linkage	$\max \,\{\,d(a,b):a\in A,\,b\in B\,\}.$
Minimum o single-linkage	$\min \,\{\,d(a,b):a\in A,\,b\in B\,\}.$
Average linkage	${\frac {1}{\|A\|\|B\|}}\sum _{a\in A}\sum _{b\in B}d(a,b).$

dove d è la metrica prescelta per determinare la similarità tra coppie di elementi.

Note[modifica | modifica wikitesto]

^ (EN) The DISTANCE Procedure: Proximity Measures ^{[collegamento interrotto]}, su SAS/STAT 9.2 Users Guide, SAS Institute. URL consultato il 26 aprile 2009.
^ (EN) The CLUSTER Procedure: Clustering Methods, su SAS/STAT 9.2 Users Guide, SAS Institute. URL consultato il 26 aprile 2009 (archiviato dall'url originale il 7 luglio 2008).

Bibliografia[modifica | modifica wikitesto]

(EN) Trevor Hastie, Robert Tibshirani e Jerome Friedman, 14.3.12 Hierarchical clustering, in The Elements of Statistical Learning, New York, Springer, 2001, pp. 272–280, ISBN 0-387-95284-5.

Voci correlate[modifica | modifica wikitesto]

Altri progetti[modifica | modifica wikitesto]

Wikimedia Commons contiene immagini o altri file sul clustering gerarchico

Collegamenti esterni[modifica | modifica wikitesto]

(IT) Articolo Il Clustering dell'Unirc (PDF), su unirc.it. URL consultato il 21 febbraio 2023.

Controllo di autorità	LCCN (EN) sh2013002984 · J9U (EN, HE) 987007574954205171

Portale Informatica

Portale Statistica

[1] (EN) The DISTANCE Procedure: Proximity Measures ^{[collegamento interrotto]}, su SAS/STAT 9.2 Users Guide, SAS Institute. URL consultato il 26 aprile 2009.

[2] (EN) The CLUSTER Procedure: Clustering Methods, su SAS/STAT 9.2 Users Guide, SAS Institute. URL consultato il 26 aprile 2009 (archiviato dall'url originale il 7 luglio 2008).

[1]

[2]

V · D · M Apprendimento automatico
Problemi	Teoria dell'apprendimento statistico · Classificazione · Regressione · Regole di associazione · Apprendimento non supervisionato · Apprendimento supervisionato · Apprendimento per rinforzo · Apprendimento profondo
Apprendimento non supervisionato	Clustering · Clustering gerarchico · K-means · Algoritmo EM · Dbscan · Mean shift · Rete generativa avversaria (cGAN · VAE-GAN · cycleGAN)
Apprendimento supervisionato	Albero di decisione · Foresta casuale · Conditional random fields · Modello di Markov nascosto · K-nearest neighbors · Classificatore bayesiano · Rete neurale artificiale · Regressione lineare · Regressione logistica · Probabilistic graphical model · Macchine a vettori di supporto
Apprendimento per rinforzo	Q-learning · SARSA · TD
Riduzione della dimensionalità	Analisi fattoriale · Correlazione canonica (CCA) · Analisi delle componenti indipendenti (ICA) · Analisi discriminante lineare (LDA) · Analisi delle componenti principali (PCA) · Selezione delle caratteristiche · Estrazione di caratteristiche · t-distributed stochastic neighbor embedding (t-SNE)
Reti neurali artificiali	Percettrone · Rete neurale a base radiale · Rete bayesiana · Rete neurale feed-forward · Rete di Hopfield · Percettrone multistrato · Rete neurale ricorrente (LSTM) · Macchina di Boltzmann ristretta · Mappa auto-organizzata · Rete neurale convoluzionale · Rete neurale a ritardo · Rete neurale spiking · Trasformatore
Software	Keras · Microsoft Cognitive Toolkit · Scikit-learn · TensorFlow · Theano · Torch · Weka
Altro	Algoritmo genetico · Particle Swarm Optimization · Caratteristica · Compromesso bias-varianza · Minimizzazione del rischio empirico

Clustering gerarchico

Indice

Dissimilarità tra cluster[modifica | modifica wikitesto]

Metriche[modifica | modifica wikitesto]

Criteri di collegamento[modifica | modifica wikitesto]

Note[modifica | modifica wikitesto]

Bibliografia[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]

Altri progetti[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]

Menu di navigazione

Clustering gerarchico

Dissimilarità tra cluster[modifica | modifica wikitesto]

Metriche[modifica | modifica wikitesto]

Criteri di collegamento[modifica | modifica wikitesto]

Note[modifica | modifica wikitesto]

Bibliografia[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]

Altri progetti[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]

Menu di navigazione

Ricerca