Riconoscimento vocale

Da Wikipedia, l'enciclopedia libera.

Il riconoscimento vocale è il processo mediante il quale il linguaggio orale umano viene riconosciuto e successivamente elaborato attraverso un computer o più specificatamente attraverso un apposito sistema di riconoscimento vocale.

Sistemi di riconoscimento vocale vengono utilizzati per applicazioni vocali automatizzate nel contesto delle applicazioni telefoniche, ad esempio call center automatici, per sistemi di dettatura (in inglese dictation system), che consentono di dettare discorsi al computer, oppure per sistemi di controllo del sistema di navigazione satellitare o del telefono in auto tramite comandi vocali.

Storia[modifica | modifica wikitesto]

Il primo sistema di riconoscimento vocale vede la luce nel 1952, consisteva in un dispositivo per il riconoscimento di singole cifre parlate[1], un altro dispositivo dei primi anni era il IBM Shoebox, esposto al Salone di New York del 1964[2].

Secondo gli esperti del settore, il riconoscimento vocale (SR) nei primi anni è stato venduto come un sistema per eliminare completamente la trascrizione piuttosto che rendere il processo di trascrizione più efficiente, quindi non è stato accettato. Inoltre nei primi anni il riconoscimento vocale era spesso tecnicamente carente.

La più grande limitazione della trascrizione tramite il riconoscimento vocale, è data dal software, dove la natura del dettato narrativo è molto interpretativa e spesso richiede un giudizio che può essere fornito da un essere umano reale, ma non ancora da un sistema automatico. Un'altra limitazione è stata la vasta quantità di tempo necessaria da parte dell'utente e/o il fornitore di sistema per la formazione del software.

Una distinzione dei sistemi di riconoscimento vocale automatizzati è spesso fatta tra:

  • "sistemi sintassi artificiale", che di solito sono dominio-specifici
  • "l'elaborazione del linguaggio naturale", che di solito è specifico della lingua.

La prima applicazione nel mondo della telefonia mobile appare nel 2003 con il Nokia 6630 ed usata sempre più fino a diventare dominante nel 2010 nei diversi smartphone, o tramite implementazioni dirette nel telefonino o applicazioni terze.

Software[modifica | modifica wikitesto]

Questi programmi funzionano con algoritmi adattativi di tipo statistico inferenziale, che ricostruiscono il linguaggio in base alla frequenza delle associazioni fra parole. Possiedono anche un vocabolario fonetico con le pronunce base di numerose parole nella lingua selezionata riconoscendo così anche il timbro di voce del parlante.

L'altra grande famiglia di sistemi per l'analisi del linguaggio utilizza un vocabolario costruito dai programmatori e dall'utente, non dal software, ad esempio tramite ontologie. Il programma di riconoscimento vocale propriamente non deve "capire", ma trascrivere quanto detto. Tuttavia, il possesso di un vocabolario non solo di singole parole, ma di loro associazioni tipiche, inserito dall'uomo o ricostruito con mezzi statistici, è di notevole aiuto a migliorare la qualità del riconoscimento.

Scrittura vocale[modifica | modifica wikitesto]

I programmi permettono di dettare documenti in qualunque editor di testo come Notepad, Word, OpenOffice o la casella di testo del proprio programma di posta elettronica. Permettono anche di costruire macro vocali che comandano la freccia del mouse per riavviare il computer, aprire e chiudere file e programmi, accedere ai menu o a un dato sito Internet, ecc.

L'installazione richiede la lettura di un brano davanti al microfono, per abituare il programma a riconoscere la voce, che viene registrata e analizzata per costruire (tuning) una libreria di file vocali. L'addestramento del programma rispetto alla voce del lettore riduce drasticamente gli errori legati al riconoscimento vocale.

In un secondo momento, il programma chiede un elenco di documenti Word o in altri formati scritti da chi parla, per memorizzare il suo lessico.

L'addestramento può proseguire quando il programma non riconosce la pronuncia di una parola, digitando il testo e registrando la pronuncia corrispondente in modo che il programma crei un file vocale (che abbina suono e scrittura della parola desiderata). Alla parola può essere abbinata, in alternativa, una sequenza di simboli dell'alfabeto fonetico.

Altre applicazioni[modifica | modifica wikitesto]

Il riconoscimento vocale, che comporta la traduzione del discorso umano immesso in immissione di raccolta dati e l'emissione di dati in emissione di discorso viene utilizzato anche nell'ottimizzazione dei processi legati alla supply chain. Una volta integrato con computer portatile e LAN wireless per applicazioni logistiche, il riconoscimento vocale aumenta drasticamente la produttività e la velocità di acquisizione dati per le soluzioni di manodopera mobile.

Molte applicazioni sono candidati ideali per le soluzioni di riconoscimento vocale: operazioni di magazzinaggio/distribuzione, gestione dell’inventario, controllo qualità, servizi sul campo, lettura luce, acqua, gas, settore sanitario, ecc.

Il riconoscimento vocale consente il multi-tasking che, a sua volta, comporta un aumento significativo della produttività di queste applicazioni rispetto alle soluzioni basate su carta o comunque che impegnano le mani. Con i sistemi scritti, o con quelli che impegnano le mani, gli utenti alternativamente ‘lavorano’ o ‘comunicano’. Questo processo ritarda il lavoro degli operatori e causa sprechi di tempo.

Le soluzioni vocali, invece, consentono di comunicare mentre si maneggiano i prodotti. Di conseguenza la stessa quantità di lavoro può essere ultimata in meno tempo.

Il riconoscimento vocale comporta miglioramenti significativi sia nella produttività che nell’accuratezza dei dati per operazioni quali il prelievo di prodotti nel magazzino (che rappresenta più del 40% dei costi di manodopera e più del 45% degli errori nelle operazioni del magazzino).

Standardizzazione[modifica | modifica wikitesto]

Il W3C ha definito degli standard per le tecnologie vocali, che sono il VoiceXML (a dicembre 2007, alla versione 2.1) e il CCXML. Per la specifica di grammatiche vocali ha introdotto Speech Recognition Grammar Specification, per la sintesi vocale SSML 1.0 (Speech Synthesis Markup Language), per la pronuncia PLS 1.0 (Pronunciation Lexicon Specification), per l'interpretazione semantica dei risultati SISR 1.0 (Semantic Interpretation for Speech Recognition).

Note[modifica | modifica wikitesto]

  1. ^ Davies, K.H., Biddulph, R. and Balashek, S. (1952) Automatic Speech Recognition of Spoken Digits, J. Acoust. Soc. Am. 24(6) pp.637 - 642
  2. ^ IBM Shoebox

Voci correlate[modifica | modifica wikitesto]

Collegamenti esterni[modifica | modifica wikitesto]

informatica Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica