Locality-sensitive hashing

Il locality-sensitive hashing (LSH)^[1]^[2] è un metodo per la riduzione della dimensionalità dello spazio vettoriale di un insieme di dati.

Motivazioni[modifica | modifica wikitesto]

La grossa mole di dati da elaborare, principalmente il calcolo della distanza fra gli oggetti (item) di un insieme di dati, è un grosso vincolo allo sviluppo di applicazioni sistema real-time per soddisfare interrogazioni quali la similarità fra (parti di) immagini o (estratti di) brani musicali.

L'idea principale è applicare una funzione hash agli item in input in modo da far collidere, con alta probabilità, item simili negli stessi contenitori (bucket). Il numero di bucket è molto più ridotto dell'universo dei possibili item in input. L'obiettivo è di arrivare ad un hashing a due livelli:

la funzione LSH mappa un item $p$ in un bucket $g_{j}(p)$ ;
una funzione hash standard mappa il contenuto di questi bucket in una hash table di lunghezza $M.$

La dimensione massima del bucket della seconda hash table verrà chiamato $B.$

Assunzioni[modifica | modifica wikitesto]

Con il metodo LSH si vuole fare in modo di correlare la distanza di due punti $p$ e $q$ alla probabilità di collisione in un bucket. Maggiore è la distanza fra i punti minore sarà la loro probabilità di collisione.

Definizione[modifica | modifica wikitesto]

$D(\cdot ,\cdot )$ è la funzione di distanza fra elementi di un insieme $S$ ;
$B(p,r)$ indica, per ogni punto $p\in S$ , l'insieme di elementi di $S$ che stanno all'interno della distanza $r$ da $p$ .

Consideriamo una funzione hash $h$ scelta a caso dalla famiglia LSH di funzioni hash disponibili ${\mathcal {H}}$ . Una famiglia LSH ${\mathcal {H}}$ di funzioni dall'insieme $S$ all'insieme $U$ è detta $(r_{1},r_{2},p_{1},p_{2})$ -sensitive per $D(\cdot ,\cdot )$ se per ogni coppia di punti $q$ (che è la rappresentazione dell'interrogazione) e $p$ (che è il punto che soddisfa le condizioni sotto riportate) appartenenti all'insieme $S$ :

se $p\in B(q,r_{1})$ allora $\mathrm {Pr} _{\mathcal {H}}[h(q)=h(p)]\geq p_{1};$
se $p\notin B(q,r_{2})$ allora $\mathrm {Pr} _{\mathcal {H}}[h(q)=h(p)]\leq p_{2}.$

Affinché la famiglia LSH sia utile per gli scopi che ci si è prefissi devono valere le due condizioni:

$p_{1}>p_{2};$
$r_{1}<r_{2}.$

Di solito si considera $r_{2}=cr_{1},$ con $c>1$ .

Interpretazione grafica[modifica | modifica wikitesto]

In uno spazio a due dimensioni si hanno due cerchi concentrici centrati sulla rappresentazione dell'interrogazione $q$ . Ricordando che $B(q,r_{1})$ e $B(q,r_{2})$ rappresentano dei sottoinsiemi dell'insieme di dati $S$ :

Il cerchio più interno di raggio $r_{1}$ contiene i punti $p$ dell'insieme di dati $B(q,r_{1})$ che hanno, come precedentemente descritto, una probabilità maggiore della soglia $p_{1}$ di subire un hash nello stesso bucket.

Il cerchio più esterno di raggio $r_{2}$ esclude i punti $p$ dell'insieme di dati $B(q,r_{2})$ che hanno, come precedentemente descritto, una probabilità minore della soglia $p_{2}$ di subire un hash nello stesso bucket.

LSH e distribuzioni stabili[modifica | modifica wikitesto]

La funzione hash^[3] $h_{\mathbf {a} ,b}\colon \mathbb {R} ^{d}\to \mathbb {N}$ manda un vettore di $d$ componenti reali $\mathbf {v}$ in un intero non negativo. Ogni funzione hash appartenente alla famiglia viene selezionata scegliendo in modo casuale $\mathbf {a}$ e $b$ dove $\mathbf {a}$ è un vettore di $d$ componenti reali i cui elementi sono scelti in maniera indipendente da una distribuzione stabile e $b$ è un numero reale scelto secondo una distribuzione continua uniforme nell'intervallo $[0,r].$ Fissati $\mathbf {a} ,b$ e la funzione hash $h_{\mathbf {a} ,b}$ si calcola attraverso la relazione $h_{\mathbf {a} ,b}(\mathbf {v} )=\left\lfloor {\frac {\mathbf {a} \cdot \mathbf {v} +b}{r}}\right\rfloor ,$ dove $\mathbf {a} \cdot \mathbf {v}$ indica il prodotto scalare euclideo tra $\mathbf {a}$ e $\mathbf {v}$ e $\lfloor \cdot \rfloor$ indica la funzione parte intera.

Ricerca dei Nearest Neighbor[modifica | modifica wikitesto]

Una delle principali applicazioni di LSH è quella di fornire un algoritmo efficiente per il problema della ricerca del nearest neighbor. Data una qualsiasi famiglia LSH ${\mathcal {F}}$ l'algoritmo ha due parametri principali:

la larghezza $k$ ;
il numero di tabelle di hash $L$ .

Cominciamo definendo una nuova famiglia ${\mathcal {G}}$ di funzioni hash $g$ , in cui ogni funzione $g$ si ottiene concatenando $k$ funzioni $h_{1},\ldots ,h_{k}$ da ${\mathcal {F}}$ , cioè

g(p)={\big (}h_{1}(p),\ldots ,h_{k}(p){\big )}.

La scelta di concatenare $k$ funzioni hash per ottenere $g$ è giustificata dal fatto che si vuole amplificare la differenza tra la alta probabilità $p_{1}$ e la bassa probabilità $p_{2}$ .

In altre parole, una funzione hash $g$ presa casualmente da ${\mathcal {G}}$ si ottiene concatenando $k$ funzioni hash prese casualmente da ${\mathcal {H}}$ .

Successivamente l'algoritmo costruisce $L$ tabelle di hash, ognuna corrispondente a una diversa funzione hash $g$ .

Nella fase di preprocessing si fa un hash di tutti gli $n$ punti dell'insieme di dati $S$ in ognuna delle $L$ tabelle di hash. Dato che le tabelle di hash risultanti hanno solo $n$ elementi diversi da zero, si può ridurre l'utilizzo di memoria per ogni funzione hash a $O(n)$ usando funzioni hash standard.

Considerando l'interrogazione $q$ al sistema così creato, l'algoritmo itera sulle $L$ funzioni hash $g$ . Per ogni $g$ , reperisce i punti dell'insieme di dati che sono stati mappati dall'hash nello stesso bucket in cui è stata mappata $q$ . Il processo si conclude quando viene reperito un punto di distanza $cR$ da $q$ .

Note[modifica | modifica wikitesto]

^ Gionis, A., Indyk, P., Motwani, R., Similarity Search in High Dimensions via Hashing (ps), in Proceedings of the 25th Very Large Database (VLDB) Conference, 1999.
^ Piotr Indyk, Rajeev Motwani, Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality. (ps), in Proceedings of 30th Symposium on Theory of Computing, 1998.
^ Datar, M., Immorlica, N., Indyk, P., Mirrokni, V.S., Locality-Sensitive Hashing Scheme Based on p-Stable Distributions (ps), in Proceedings of the Symposium on Computational Geometry, 2004.

Voci correlate[modifica | modifica wikitesto]

K-nearest neighbors

[GIM1999-1] Gionis, A., Indyk, P., Motwani, R., Similarity Search in High Dimensions via Hashing (ps), in Proceedings of the 25th Very Large Database (VLDB) Conference, 1999.

[IndykMotwani98-2] Piotr Indyk, Rajeev Motwani, Approximate Nearest Neighbors: Towards Removing the Curse of Dimensionality. (ps), in Proceedings of 30th Symposium on Theory of Computing, 1998.

[DIIM04-3] Datar, M., Immorlica, N., Indyk, P., Mirrokni, V.S., Locality-Sensitive Hashing Scheme Based on p-Stable Distributions (ps), in Proceedings of the Symposium on Computational Geometry, 2004.

[1]

[2]

[3]