Riconoscimento del parlatore

Da Wikipedia, l'enciclopedia libera.

Per riconoscimento del parlatore, dall'inglese speaker recognition, si intende il processo di validazione dell'identità che un utente dichiara, utilizzando le caratteristiche estratte dalla sua voce.

C'è una differenza fra riconoscimento del parlatore (riconoscere chi sta parlando) e riconoscimento vocale (riconoscere cosa viene detto). Questi due termini sono confusi frequentemente. C'è anche una differenza fra l'atto di autenticare un utente (a cui ci si riferisce spesso col termine autenticazione del parlatore, verifica del parlatore o, più spesso, con i termini inglesi speaker verification e speaker authentication) e quello di identificare l'utente (a cui ci si riferisce solitamente col termine identificazione del parlatore o con l'inglese speaker identification). C'è spesso confusione anche con il processo di speaker diarisation (riconoscimento di quando interviene il medesimo parlatore).

Il riconoscimento del parlatore ha una storia lunga quattro decadi e utilizza le caratteristiche acustiche del parlato che si è scoperto caratterizzare al meglio i diversi individui (cioè che differiscono maggiormente al variare dell'individuo). Queste caratteristiche riflettono sia quelle dell'anatomia (come la dimensione e la forma del collo e della bocca) che quelle comportamentali (come l'altezza della voce o la cadenza del parlato). La speaker verification ha guadagnato il titolo di misurazione biometrica al riconoscimento del parlatore.

Verifica/Identificazione[modifica | modifica sorgente]

Ci sono due principali applicazione delle tecnologie e delle tecniche di riconoscimento del parlatore. Se un parlatore afferma di possedere una certa identità e la voce è utilizzata per validare questa affermazione, il processo è detto di verifica o di autenticazione. Viceversa l'identificazione è il processo di determinare l'identità di un parlatore sconosciuto. In altre parole la verifica del parlatore è un confronto 1:1, dove la voce di un parlatore è confrontata con un'unica impronta vocale (o "modello del parlatore"), mentre l'identificazione è un confronto 1:N dove la voce è confrontata con N modelli distinti.

Dal punto di vista della sicurezza, l'identificazione è diversa dalla verifica. Per esempio presentare il passaporto all'imbarco di un aeroporto è un processo di verifica - il personale confronta la faccia dell'individuo con la fotografia nel documento. Viceversa il poliziotto che confronta l'identikit di un malvivente con un database di criminali precedentemente archiviato è un processo di identificazione.

La verifica del parlatore può essere impiegata per l'accesso a sistemi sicuri in aggiunta ad altre tecniche di accesso. Questi sistemi generalmente operano con la consapevolezza dell'utente e richiedono la loro cooperazione. I sistemi di identificazione del parlatore sono realizzati solitamente senza prevedere la cooperazione del parlatore.

Nelle applicazioni forensi è comune effettuare prima il processo di identificazione, per creare una lista di migliori candidati e quindi una serie di processi di verifica per determinare il risultato finale.

Varianti del riconoscimento del parlatore[modifica | modifica sorgente]

Ogni sistema di riconoscimento del parlatore ha due fasi: una fase di raccolta dati (enrollment) e una fase di verifica. Durante la fase di raccolta dati la voce del parlatore viene registrata e da essa vengono estratte un certo numero di caratteristiche per formare un impronta vocale, o modello. Nella fase di verifica un campione vocale ("utterance") è confrontato con l'impronta vocale precedentemente creata. Per i sistemi di identificazione, i campioni vengono confrontati con varie impronte vocali, per trovare i risultati più simili, mentre nei sistemi di verifica i campioni sono confrontati con una sola impronta vocale. Per questo motivo la verifica è solitamente più veloce dell'identificazione.

I sistemi di riconoscimento del parlatore si suddividono in due categorie: dipendenti dal messaggio (o text-dependent) e indipendenti dal messaggio (text-independent), a seconda che il messaggio pronunciato durante la fase di raccolta dati debba coincidere o meno con quello pronunciato durante la fase di verifica.

Nei sistemi dipendenti dal messaggio il messaggio può essere comune a tutti i parlatori (per esempio una parola d'ordine comune) o univoco. In aggiunta è possibile usare delle informazioni segrete condivise (o shared-secrets, come ad esempio parole d'ordine o PIN) o delle informazioni basate sulla conoscenza, al fine di creare scenari di autenticazione a più fattori.

Nei sistemi di identificazione si utilizzano più spesso sistemi indipendenti dal messaggio, poiché non richiedono la collaborazione del parlatore. In questo caso il messaggio pronunciato nella fase di identificazione è diverso da quello utilizzato in fase di raccolta ed entrambe le fasi possono avvenire senza la consapevolezza del parlatore, come nel caso di alcune applicazioni forensi.

Poiché le tecnologie indipendenti dal messaggio non possono confrontare direttamente quello che viene detto nelle due fasi di raccolta e verifica, le applicazioni di verifica che ne fanno uso spesso impiegano anche sistemi di riconoscimento vocale per determinare cosa viene detto in fase di autenticazione.

Tecnologie[modifica | modifica sorgente]

Le varie tecnologie utilizzate per processare e immagazzinare le impronte vocali includono la stima della frequenza, i modelli di Markov nascosti (HMM), i modelli di misture gaussiane (GMM), gli algoritmi di pattern matching, le reti neurali, le matrici di rappresentazione, la quantizzazione vettoriale, e gli alberi di decisione. Alcuni sistemi utilizzano anche tecniche "anti-parlatore", come i cohort model o i modelli ambientali.

Il livello dei rumori d'ambiente può essere tale da impedire la registrazione dei campioni sia nella fase di raccolta che in quella di verifica. Algoritmi di riduzione del rumore possono essere utilizzati per migliorare l'accuratezza, ma l'applicazione scorretta di tali algoritmi può avere l'effetto contrario. La qualità dei risultati è influenzata dalle condizioni di registrazione e generalmente degrada quando le condizioni nella fase di verifica non coincidono con quelle della fase di raccolta. In questo contesto le condizioni includono le condizioni ambientali (rumore, musica in sottofondo, ...), il comportamento dell'utente (differente cadenza, stato d'animo, ...), ma anche le condizioni del canale trasmissivo (cambio del microfono utilizzato, ...). Anche il normale cambiamento della voce dovuto all'età può inficiare il buon funzionamento del sistema, pertanto alcuni sistemi aggiornano i modelli dei parlatori dopo ogni verifica completata con successo. Gli effetti sulla sicurezza imposti dall'adattamento automatico sono ancora oggetto di dibattito.

Le rilevazioni biometriche sono ritenute non invasive: generalmente si utilizzano i microfoni e le tecnologie di trasmissione della voce esistenti (come i normali apparati telefonici di rete fissa o mobile).

L'identificazione del parlatore per l'applicazione forense, generalmente fa uso non solo di misure elettroniche, ma anche di specifiche capacità di ascolto di esperti, necessarie affinché l'identificazione possa ritenersi accurata[1].

Note[modifica | modifica sorgente]

  1. ^ Audio & Video Forensics | Video Production Primeau

Bibliografia[modifica | modifica sorgente]

  • Elisabeth Zetterholm, Voice Imitation. A Phonetic Study of Perceptual Illusions and Acoustic Success. Phd thesis, Lund University. (2003)
  • Federico A., Paoloni A., "Riconoscimento del parlante", in Media Duemila 250 (2007), pp. 47-55.

Voci correlate[modifica | modifica sorgente]

Riconoscimento vocale

Collegamenti esterni[modifica | modifica sorgente]