Stima kernel di densità

In statistica, la stima kernel di densità^[1] (o kernel density estimation) è un metodo non parametrico utilizzato per il riconoscimento di pattern e per la classificazione attraverso una stima di densità negli spazi metrici, o spazio delle feature. Per ogni $x$ all'interno dello spazio delle feature, l'algoritmo permette di calcolare la probabilità di appartenere ad una classe $C,$ considerando la densità di $C$ in un intorno $k$ del punto $x.$ Il metodo si basa su un intorno di dimensione fissa calcolata in funzione al numero di osservazione $N.$

È nota anche come metodo delle finestre di Parzen-Rosenblatt o delle finestre di Parzen,^[2] dagli statistici Emanuel Parzen e Murray Rosenblatt.

Idea di base[modifica | modifica wikitesto]

Classificazione per prossimità[modifica | modifica wikitesto]

Un metodo di classificazione per prossimità (finestre di Parzen o k-nearest neighbors), propone di calcolare la probabilità condizionale in un punto $x$ con la seguente stima di densità:

P(x|C)=K/NV,

dove:

$N$ è il numero di osservazione nel training set;
$V$ è il volume dell'intorno del punto $x$ ;
$K$ sono gli elementi nell'intorno $V$ , appartenenti alla classe $C$ .

Strategia[modifica | modifica wikitesto]

L'algoritmo a finestre di Parzen propone di ridurre la dimensione della regione $V$ intorno ad $x$ , in funzione del numero $N$ di osservazioni disponibili. Questa strategia si basa sull'idea di ridurre $V$ il più possibile, in maniera da ottenere una stima approssimata a quella reale del punto, allo stesso tempo cerca di non considerare una regione tanto piccola da avere $K=0$ , non perché $x$ è impossibile per $C$ , ma perché la regione non è troppo piccola per contenerlo.

Algoritmo[modifica | modifica wikitesto]

Funzione K[modifica | modifica wikitesto]

Si consideri una funzione $K(h,P)$ che dipende dal parametro di scala $h$ , e dalla distanza di $P$ a un punto fissato $P$ ₀. È richiesto che questa funzione abbia integrale unitario sul dominio $P$ .

Il metodo[modifica | modifica wikitesto]

Consiste nell'assegnare $P(x|C)$ nel punto $x$ nel seguente modo:

P(x|C)={\frac {1}{N}}\sum _{i}K(h,d(x,x_{i})).

Cioè la densità nel punto $x$ si ottiene considerando il contributo come la somma dei contributi forniti dalle osservazioni nel campione spalmate secondo la legge $K(h,P)$ , normalizzati ad $N$ .

La scelta di h[modifica | modifica wikitesto]

La scelta di $h$ è un problema molto delicato, generalmente dipende dal problema in esame. Una regola molto diffusa e generalizzata è quella di prendere $h=O(n^{-1/5})$ .

Valutazioni[modifica | modifica wikitesto]

Un problema di questo metodo è dovuto alla scelta fissa della funzione $K$ per tutto lo spazio delle feature. Alla fine se si utilizza una finestra molto piccola, si introduce il rischio di overfitting. Se si utilizza una finestra troppo grande si hanno più errori nelle zone più addensate. Per questo motivo una finestra dinamica (algoritmo k-nn) potrebbe dare risultati migliori.

Note[modifica | modifica wikitesto]

^ kernel density [kernel, stima di densità], in Dizionario di economia e finanza, Roma, Istituto dell'Enciclopedia Italiana, 2012.
^ Cosimo Distante, Clustering (PDF), su people.isasi.cnr.it, Consiglio Nazionale delle Ricerche - Istituto di Scienze Applicate e Sistemi Intelligenti, 13-14. URL consultato il 3 luglio 2017 (archiviato il 3 luglio 2017).

Voci correlate[modifica | modifica wikitesto]

Diagramma a violino

Altri progetti[modifica | modifica wikitesto]

Wikimedia Commons contiene immagini o altri file su stima kernel di densità

Portale Informatica

Portale Matematica

Portale Statistica

[1] rnel density [kernel, stima di densità], in Dizionario di economia e finanza, Roma, Istituto dell'Enciclopedia Italiana, 2012.

[2] Cosimo Distante, Clustering (PDF), su people.isasi.cnr.it, Consiglio Nazionale delle Ricerche - Istituto di Scienze Applicate e Sistemi Intelligenti, 13-14. URL consultato il 3 luglio 2017 (archiviato il 3 luglio 2017).

[1]

[2]

V · D · M Apprendimento automatico
Problemi	Teoria dell'apprendimento statistico · Classificazione · Regressione · Regole di associazione · Apprendimento non supervisionato · Apprendimento supervisionato · Apprendimento per rinforzo · Apprendimento profondo
Apprendimento non supervisionato	Clustering · Clustering gerarchico · K-means · Algoritmo EM · Dbscan · Mean shift · Rete generativa avversaria (cGAN · VAE-GAN · cycleGAN)
Apprendimento supervisionato	Albero di decisione · Foresta casuale · Conditional random fields · Modello di Markov nascosto · K-nearest neighbors · Classificatore bayesiano · Rete neurale artificiale · Regressione lineare · Regressione logistica · Probabilistic graphical model · Macchine a vettori di supporto
Apprendimento per rinforzo	Q-learning · SARSA · TD
Riduzione della dimensionalità	Analisi fattoriale · Correlazione canonica (CCA) · Analisi delle componenti indipendenti (ICA) · Analisi discriminante lineare (LDA) · Analisi delle componenti principali (PCA) · Selezione delle caratteristiche · Estrazione di caratteristiche · t-distributed stochastic neighbor embedding (t-SNE)
Reti neurali artificiali	Percettrone · Rete neurale a base radiale · Rete bayesiana · Rete neurale feed-forward · Rete di Hopfield · Percettrone multistrato · Rete neurale ricorrente (LSTM) · Macchina di Boltzmann ristretta · Mappa auto-organizzata · Rete neurale convoluzionale · Rete neurale a ritardo · Rete neurale spiking · Trasformatore
Software	Keras · Microsoft Cognitive Toolkit · Scikit-learn · TensorFlow · Theano · Torch · Weka
Altro	Algoritmo genetico · Particle Swarm Optimization · Caratteristica · Compromesso bias-varianza · Minimizzazione del rischio empirico

Stima kernel di densità

Indice

Idea di base[modifica | modifica wikitesto]

Classificazione per prossimità[modifica | modifica wikitesto]

Strategia[modifica | modifica wikitesto]

Algoritmo[modifica | modifica wikitesto]

Funzione K[modifica | modifica wikitesto]

Il metodo[modifica | modifica wikitesto]

La scelta di h[modifica | modifica wikitesto]

Valutazioni[modifica | modifica wikitesto]

Note[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]

Altri progetti[modifica | modifica wikitesto]

Menu di navigazione

Stima kernel di densità

Idea di base[modifica | modifica wikitesto]

Classificazione per prossimità[modifica | modifica wikitesto]

Strategia[modifica | modifica wikitesto]

Algoritmo[modifica | modifica wikitesto]

Funzione K[modifica | modifica wikitesto]

Il metodo[modifica | modifica wikitesto]

La scelta di h[modifica | modifica wikitesto]

Valutazioni[modifica | modifica wikitesto]

Note[modifica | modifica wikitesto]

Voci correlate[modifica | modifica wikitesto]

Altri progetti[modifica | modifica wikitesto]

Menu di navigazione

Ricerca