Loquendo

Da Wikipedia, l'enciclopedia libera.
Loquendo
Logo
Stato Italia Italia
Tipo Società per azioni
Fondazione Anni settanta (come gruppo di ricerca all'interno di CSELT)
2001 (come azienda autonoma)
Sede principale Torino
Gruppo Telecom Italia
Persone chiave Davide Franco, AD
Settore Tecnologie vocali
Prodotti Sintesi vocale, Riconoscimento vocale, Riconoscimento del parlatore, consulenza
Fatturato 15M Euro (2010)
Utile netto 1.5M Euro (2010)
Dipendenti 103 (2011)
Slogan «We Speak. We Listen. We Understand.»
Sito web www.loquendo.com

Loquendo S.p.A. è stata una società italiana che operava nel settore delle tecnologie vocali, producendo sistemi per la sintesi vocale e l'interazione vocale automatica uomo-macchina come il riconoscimento ed autenticazione vocale o l'esecuzione di un determinato comando tramite ordine vocale. Azienda nata nel gruppo Telecom Italia come spin-off di CSELT nel 2001, nell'agosto 2011 è stata ceduta al gruppo americano Nuance Communications. È considerato uno dei leader storici a livello mondiale del settore.[senza fonte]

Storia[modifica | modifica wikitesto]

Il gruppo che negli anni successivi si sarebbe occupato di sintesi, riconoscimento e codifica della voce viene costituito a metà degli anni settanta dall'intuizione dei dirigenti dell'IRI-STET presso i laboratori dello CSELT di Torino, già allora prestigiosi a livello internazionale.

Sintesi della voce[modifica | modifica wikitesto]

Disco audio a 45 giri con "Fra Martino campanaro" cantato da MUSA nel 1978

Partendo dai suggerimenti dell'Università di Padova, applicando la tecnica dei cosiddetti difoni (unione di una consonante ed una vocale, 150 in tutto per l'italiano) nel 1975 viene creato il primo sintetizzatore vocale con elevata intelligibilità; si trattava di MUSA (MUltichannel Speaking Automaton) che mostrò a tutti sino a che punto, con la tecnologia di allora, si poteva arrivare. I risultati conseguiti in quegli anni furono condensati in un disco audio a 45 giri che fu diffuso in migliaia di copie presso i mezzi di comunicazione di massa. Fu soprattutto la canzoncina Fra Martino campanaro realizzata in polifonia a più voci cantanti (MUSA poteva gestire fino a 8 canali di sintesi in parallelo) a suscitare il maggior stupore.

L'evoluzione di quel prototipo, con l'aumento del numero dei difoni (circa 1000), l'affinamento degli strumenti di analisi linguistica (che permettono, ad esempio in italiano, di distinguere automaticamente "àncora" da "ancòra") e il miglior trattamento della forma d'onda, portò negli anni successivi ad un netto miglioramento della voce sintetica. Nasce così il circuito integrato "sintetizzatore voce" sviluppato interamente in CSELT ed inserito nel catalogo della SGS (poi SGS-Thompson ed adesso STMicroelectronics) come periferica (con codice M8950) del microprocessore Z80 della Zilog.

Negli anni novanta nasce ELOQUENS[1], sintetizzatore vocale multi-piattaforma per diversi sistemi operativi (DOS, Windows, System 7, Unix, OS/2) o per schede telefoniche con elevatissimo numero di canali.

Tali schede vengono impiegate dall'operatore telefonico nazionale per la realizzazione del servizio informazioni elenco abbonati inverso (per ottenere, a partire dal numero di telefono, nome, cognome ed indirizzo dell'abbonato in elenco)[2].

Verso la fine del secondo millennio la tecnica di sintesi cambia completamente, passando dall'approccio a difoni a quello di "selezione e concatenazioni di unità acustiche di lunghezza variabile", approccio reso possibile grazie all'aumentata potenza dei computer e soprattutto all'accresciuta capacità dei sistemi di archiviazione di massa. Nasce quindi ACTOR - The human sounding voice - che comincia ad essere conosciuto dal grande pubblico grazie a numerosi servizi telefonici ma anche applicazioni per disabili creati da socieà collegate.

Negli anni 2000, con lo spin-off del gruppo di ricerca nella neo-costituita azienda Loquendo, il sintetizzatore cambia nome, assumendo quello della società stessa e si arricchisce negli anni seguenti di un impressionante numero di lingue e voci (arrivando dopo dieci anni a disporre di più di 30 lingue e 70 voci, sia maschili che femminili).

Il sintetizzatore, uscito dai laboratori di ricerca e diventato un prodotto commerciale, si dota quindi di numerosi strumenti di editing per realizzare audio sintetico arricchito da emozioni (tipico è il caso degli audio libri per ipovedenti realizzati con la tecnologia DAISY) e si presenta inoltre come libreria SW per realizzare i più svariati prodotti, dai piccoli dispositivi portatili - cellulari, navigatori e palmari, ai server telefonici multicanali/multilingua per call center (semi) automatici.

Riconoscimento della voce[modifica | modifica wikitesto]

Poco dopo l'inizio delle ricerche sulla sintesi vocale, iniziano quelle sul riconoscimento della voce e già agli inizi degli anni ottanta viene prodotto un primo prototipo capace di riconoscere le dieci cifre ed alcuni comandi di base.

L'utilizzo dei modelli markoviani porta nel 1984 allo sviluppo di un riconoscitore per frasi e parole connesse in collaborazione con ELSAG, un'altra azienda del gruppo IRI-STET.

La necessità di produrre riconoscitori telefonici indipendenti dal parlatore porta alla realizzazione di basi dati vocali contenenti la voce di centinaia di persone diverse e nel 1987 viene realizzato il primo grande database ottenuto registrando al telefono, attraverso una procedura guidata automatica, la voce di più di 1000 persone chiamanti da tutta italia un server telefonico appositamente predisposto presso i laboriatori dello CSELT.

Il materiale così registrato permette l'addestramento dei modelli markoviani e - anche appraverso l'implementazioni di algoritmi di calcolo sofisticati - alla realizzazione di 'AURIS, il primo riconoscitore commerciale che poteva "girare" nei più svariati dispositivi dotati di DSP - Digital Signal Processor.

Negli anni novanta iniziano le grandi collaborazioni europee (nell'ambito dei progetti finanziati dalla Comunità Europea) e, assieme ad una ventina di altre aziende ed università di tutta Europa, vengono raccolte basi dati vocali molto grandi in tutta Europa (complessivamente vengono contattate più di 65000 persone)[3].

Tutto questo materiale, unito ad un nuovo approccio misto modelli markoviani - reti neurali porta alla realizzazione di FLEXUS, primo riconoscitore vocale a vocabolario flessibile, che porta il riconoscimento alla portata dei più svariati servizi telefonici.

L'unione di FLEXUS ed ACTOR in un sistema di dialogo avanzato, DIALOGOS, permette la realizzazione di servizi telefonici estremamente all'avanguardia per quegli anni: il sistema informazioni abbonati telefonici (Servizio 12) ed il sistema di informazioni ferroviarie (Servizio FS Informa).

Gli anni 2000 portano anche per il riconoscitore vocale il cambio di nome, assumendo quello della neonata azienda Loquendo, lo sviluppo di innumerevoli lingue e il rilascio del riconoscitore anche sotto forma di libreria SW per la realizzazione delle più svariate applicazioni telefoniche.

Vengono introdotti svariati sistemi per la scrittura di grammatiche a stati finiti e sistemi che fanno uso di modelli del linguaggio naturale.

Continuano le campagne di raccolta di basi dati vocali, uscendo dall'Europa e spostandosi nei paesi del Mediterraneo, nel Sud, Centro e Nord America, ed infine nei Paesi dell'Estremo Oriente. Furono registrate decine di migliaia di ore di voce contattando centinaia di migliaia di persone nei paesi delle regioni elencate. Le raccolte sono state eseguite sia per telefono fisso, che in veicoli vari per i telefoni mobili ed anche in casa con microfoni ad alta qualità per applicazioni consumer (videogiochi, elettrodomestici e domotica in generale).

Riconoscimento del parlatore[modifica | modifica wikitesto]

Le attività di ricerca sul riconoscimento del parlatore iniziarono a metà degli anni duemila quando si sono rese disponibili basi dati vocali specifiche per questo compito. Sono quindi state compiute alcune sperimentazioni, in collaborazione con il Politecnico di Torino, su due diversi fronti: "identificazione" e "verifica" del parlatore.

Il successo delle attività di ricerca ha poi spinto l'azienda a passare alla fase di sviluppo di prodotti specifici per questi compiti commercializzati sia come librerie SW che attraverso le piattaforme abilitanti descritte più in basso.

Codifica della voce[modifica | modifica wikitesto]

Le attività sulla codifica della voce iniziano ancora prima di quelle sul riconoscimento e la sintesi della voce, con l'obiettivo di realizzare dispositivi (Codec) e cancellatori d'eco capaci di aumentare il più possibile il numero di conversazioni telefoniche che possono transitare in un unico cavo (o in una connessione satellitare) senza perdere l'intelligibilità della voce.

Sul finire degli anni settanta, gli studi e le sperimentazioni portarono alla realizzazione di algoritmi per la codifica del segnale vocale telefonico e a stabilire la normativa europea CCITT conosciuta come codifica A-law (codifica logaritmica a 8 bit di tipo "A" per segnale limitato in banda a 8 kHz), normativa poi applicata nei Codec per le linee telefoniche ISDN a 64 kBit/s.

Negli anni successivi furono poi realizzati codificatori ancora più spinti (usati nelle centrali telefoniche) e, all'interno del consorzio PAN-europeo GSM, il codificatore da usare nei cellulari mobili di seconda generazione.

Contemporaneamente vengono realizzati Codec per la trasmissione di segnale ad alta qualità nella pur limitata banda telefonica di 8 kHz, utili per applicazioni di audio e videoconferenza. Gli studi sulla codifica del segnale vocale vengono lasciati ad altri gruppi dello CSELT.

Piattaforme abilitanti[modifica | modifica wikitesto]

Sul finire degli anni novanta lo sviluppo di internet nella forma conosciuta adesso (ipertesti navigabili residenti su server diversi che abbracciano il pianeta in un'unica grande rete) fa nascere l'esigenza di rendere disponibili questi testi anche in voce attraverso il telefono.

Allo stesso tempo i sistemi IVR - Interactive Voice Response diventano sempre più diffusi e servono strumenti HW e SW per sviluppare velocemente nuove applicazioni telefoniche. È evidente a tutti che i modelli di sviluppo che hanno portato alla realizzazione di sistemi complessi come l'automazione del Servizio informazioni elenco abbonati o il Servizio Automatico Informazioni Ferroviarie sono troppo rigidi e non permettono lo sviluppo di nuove applicazioni.

Si sente quindi l'esigenza di avere piattaforme abilitanti per servizi telefonici automatici in voce che siano scalabili e facilmente programmabili. Viene allora creato un apposito gruppo di lavoro che, unendo gli sforzi di tutti i gruppi, sviluppa un prototipo di voice browser che viene presentato al pubblico a SMAU 2000[4] con il nome di VoxNauta (). Il successo è tale che Telecom Italia decide di far uscire, dai laboratori di ricerca, il gruppo di sviluppo e piattaforma e crea così l'azienda Loquendo il 1º febbraio 2001, inizialmente una struttura di circa 250 persone avente come nuovo Amministratore Delegato Silvano Giorcelli (che rimarrà fino al 2005) e comprendente il nucleo originario di ricerca CSELT nel settore vocale.

Nel corso degli anni, VoxNauta viene sviluppato in diverse forme scalabili: dai piccoli server ai grandi sistemi di classe Enterprise con migliaia di linee e viene installato in centinaia di aziende in tutto il mondo (in funzione delle lingue/voci disponibili al momento).

La nascita di standard nella scrittura di servizi telefonici (VoiceXML) e di protocolli (MRCP) per la connessione di server dedicati alle tecnologie vocali a server telefonici dà la spinta alla creazioni di Speech Server puramente Software, ospitanti i sistemi di sintesi e riconoscimento di Loquendo[5].

Questa attività continua di ricerca e sviluppo portò Loquendo ad essere uno dei marchi più universalmente noti del settore della sintesi e riconoscimento della voce.

Loquendo nel mondo dello spettacolo[modifica | modifica wikitesto]

Come già accennato, la prima apparizione del sistema text-to-speech dell'allora CSELT per il grande pubblico risale al 1978 su disco audio a 45 giri, in cui il sintetizzatore vocale canta a più voci la canzoncina Fra Martino campanaro.

Prototipo di telefono cellulare con riconoscitore vocale (anni novanta)

La successiva presenza dei prodotti di sintesi e riconoscimento voce del gruppo di ricerca torinese nel mondo dello spettacolo risale al 1992 nella prima scena del film "Nel continente nero" di Marco Risi con Diego Abatantuono. Il giovane e brillante manager Alessandro Benini sta illustrando in un'importante riunione che si svolge a Roma il suo brevetto di attivazione di un telefono cellulare tramite una password vocale, quando la madre lo avverte di aver ricevuto da Mombasa la notizia della morte del padre, Alfonso, partito da venti anni e del quale non avevano più saputo nulla.

L'apparecchio mostrato è un prototipo di telefono cellulare GSM, grosso quanto una valigetta ventiquattrore, che l'attore attiva a voce tramite la parola chiave "marmellata". In realtà tale telefono, costruito nei laboratori dello CSELT, montava un riconoscitore vocale che permetteva di effettuare la composizione del numero "a voce" dettandolo cifra per cifra o estraendolo da una rubrica telefonica. Ovviamente erano anche presenti tutti i comandi per effettuare o per rispondere ad una chiamata. L'attivazione con password vocale nel film era semplicemente un'invenzione dello sceneggiatore: il telefono si attivava infatti col comando fisso "attiva servizio" e si spegneva con "fine servizio", comandi che potevano essere pronunciati da chiunque essendo il riconoscitore indipendente dal parlatore.

Il sintetizzatore Loquendo ricompare per alcuni anni in radio, nella trasmissione radiofonica Golem di Gianluca Nicoletti (dal 1993 al 2004). In quell'occasione, Eloquens è la voce del Golem, una figura immaginaria della mitologia ebraica e del folklore medievale. Un gigante di argilla forte e ubbidiente, impiegato per svolgere lavori pesanti e come difensore del popolo.

Nel 2000 il presentatore Teo Mammucari decide di inserire nella sua trasmissione televisiva di scherzi telefonici Libero anche un breve intermezzo in cui il destinatario dello scherzo è il sistema automatico "FS Informa" delle Ferrovie dello Stato sviluppato da Loquendo. In quell'occasione, diventata dopo un po' di puntate un "rito", il presentatore diverte il pubblico pronunciando parole senza senso che confondono il riconoscitore vocale (addestrato su alcune migliaia di stazioni ferroviarie) e portano il servizio telefonico a tentare di costruire dei percorsi ferroviari del tutto improbabili.

Nel 2008 Loquendo compare anche su YouTube con video comici o supposti tali e tutorial preparati da utenti di lingua spagnola soprattutto dall'America Latina utilizzando il TTS di Loquendo per la traccia audio.

Durante l'introduzione di Sly 3: Honor Among Thieves per PlayStation 2, il team di doppiaggio Italiano ha utilizzato Loquendo per doppiare la voce dell'allarme della base in cui si stava infiltrando il protagonista.

Il marchio[modifica | modifica wikitesto]

Non si hanno notizie certe sull'origine del nome Loquendo[6][7] mentre il logo fu creato dai grafici di Telecom Italia[8]. Le tre ondine sopra la "O", nella versione "gif animata" del logo, si "accendono" in sequenza, dando il senso dell'emissione del suono.

Certo è che il nome è stato un vero colpo di genio in quanto ad originalità e mnemonicità; infatti, ai tempi della sua deposizione come marchio registrato, non risultava in alcun motore di ricerca a parte rari scritti in latino. La sua unicità ha quindi fatto sì che negli anni sia diventato sinonimo di tecnologie vocali italiane (anche se spesso identificato erroneamente con la sola sintesi della voce). A ciò contribuì anche la scelta di marketing dei primi anni duemila di abbandonare i nomi storici dei prodotti Actor e Flexus per puntare tutto sul nome stesso dell'azienda: nacquero così Loquendo TTS[9] e Loquendo ASR[10].

Il marchio non è stato protetto dall'azienda con particolare enfasi[11] e ciò ha contribuito alla sua enorme diffusione, anche a scapito dei marchi concorrenti. Basta fare una semplice ricerca su YouTube per vederlo associato a centinaia di video divertenti ed ironici (anche se a volte di dubbio gusto) in cui la parte vocale è realizzata proprio con una voce del sintetizzatore dell'azienda torinese; gli autori hanno infatti deciso di lasciare il nome Loquendo nel titolo delle proprie opere per poterle facilmente identificare come video realizzati con voce artificiale. Stessa cosa per Facebook in cui centinaia di profili in tutto il mondo usano il marchio Loquendo per identificare profili di persone non reali.

Insomma, a dieci anni dalla sua creazione e parafrasando lo slogan di una nota azienda italiana, al giorno d'oggi si potrebbe senz'altro dire: "Dove c'è voce, c'è Loquendo".

Cessione dell'azienda[modifica | modifica wikitesto]

Negli anni si sono avuti diversi annunci di cessione di Loquendo ad altre aziende[12].

Gli ultimi in ordine di tempo sono stati quelli dell'estate 2011 in cui veniva annunciato l'interesse verso l'azienda torinese di due diverse multinazionali americane: Nuance e Avaya.

La prima, essendo una diretta concorrente dell'azienda italiana, suscitava un certo grado di preoccupazione nei lavoratori di Loquendo che temevono lo smembramento del gruppo di ricerca e sviluppo e la scomparsa dall'Italia di un marchio eccellente e delle conoscenze acquisite in quarant'anni di attività[13].

La seconda azienda appariva invece più interessante perché complementare alle attività portate avanti da Loquendo; Avaya infatti non è dotata di tecnologie di sintesi vocale, riconoscimento vocale e identificazione del parlatore e quindi avrebbe potuto avere un notevole interesse a far crescere in casa queste tecnologie piuttosto che continuare a comprarle fuori (classico dilemma "make or buy")[14].

Queste notizie sono state seguite con notevole interesse dai lavoratori, dagli enti locali di Torino e del Piemonte e dall'intera comunità scientifica internazionale[15][16][17].

Alla fine però, il 13 agosto 2011 Telecom Italia ha pubblicamente annunciato la cessione dell'intero pacchetto azionario in suo possesso, pari al 99,98 % del totale, all'americana Nuance Communication accordandosi per un Enterprise Value di 53 milioni di euro[18][19][20]

Prodotti[modifica | modifica wikitesto]

Numeri[modifica | modifica wikitesto]

Nel 2008 ha ottenuto ricavi per 17 milioni di euro ed utili per 1,2 milioni.

Note[modifica | modifica wikitesto]

  1. ^ AURIS, FLEXUS, ELOQUENS, ACTOR, DIALOGOS, LOQUENDO sono marchi registrati di Loquendo S.p.A.
  2. ^ Roberto Billi, Franco Canavesio, Alberto Ciaramella, Luciano Nebbia, "Interactive voice technology at work: The CSELT experience", Ed. Speech communication, 1995 - Elsevier
  3. ^ Progetti europei della famiglia SpeechDat (dal nome del capostipite)
  4. ^ Lawendel Andrea, Pagine web da ascoltare al telefono, "Corriere della Sera", 4 settembre 2000
  5. ^ "Tecnologia matura e finalmente aperta - Intervista ad Alberto Ciaramella", Computer World, Novembre 2001
  6. ^ Gerundio dal latino "loquor, loqueris, locutus sum, loqui, loquere" che significa "parlare, discorrere" - da cui l'italiano "loquace"
  7. ^ Voci non confermate attribuiscono l'idea del nome alla moglie del primo amministratore delegato dell'azienda messa sul mercato nel 2001
  8. ^ In una sua prima versione, poi abbandonata, al posto del "rosso Telecom Italia" c'era il "verde Omnitel" - si era in piena epoca Colannino ai tempi della scalata all'azienda telefonica di stato da poco privatizzata
  9. ^ TTS dall'inglese text-to-speech
  10. ^ ASR dall'inglese automatic-speech-recognition
  11. ^ Adesso esistono altre aziende italiane il cui nome deriva direttamente da quella torinese
  12. ^ redazione, Telecom, in attesa di Sparkle vende la «piccola» Loquendo, "il Giornale", 11 luglio 2009
  13. ^ Diego Longhin, Loquendo, il ministero convoca anche Bernabè, "la Repubblica", 2 agosto 2010
  14. ^ Diego Longhin, Loquendo, seconda offerta. I dipendenti: "Dà più garanzie", "la Repubblica", 6 agosto 2010
  15. ^ Salviamo Loquendo!. URL consultato il 10 agosto 2011.
  16. ^ "Un neo da estirpare", l'Informatica, cap. 1 In: Luciano Gallino, "La scomparsa dell'Italia industriale", Ed. Einaudi 2003 - ISBN 9788806166281
  17. ^ Marina Cassi, La comunità della scienza difende Loquendo, "La Stampa", 10 agosto 2011
  18. ^ comunicato stampa Telecom Italia vende Loquendo a Nuance ad un Enterprise Value di 53 milioni di euro, "Telecom Italia", 13 agosto 2011
  19. ^ comunicato stampa, Nuance acquisisce Loquendo, "Nuance", 15 agosto 2011
  20. ^ Luca Davi, Telecom Italia cede Loquendo al gruppo Nuance, "Il Sole 24 ORE", 14 agosto 2011

Bibliografia[modifica | modifica wikitesto]

  • Luigi Bonavoglia, "CSELT trent'anni", Ed. CSELT, 1994 [1]
  • Roberto Billi (a cura di), con i seguenti Autori dello CSELT: Agostino Appendino, Giancario Babini, Paolo Baggia, Roberto Billi, Alfredo Biocca, Pier Giorgio Bosco, Franco Canavesio, Giuseppe Castagneri, Alberto Ciaramella, Morena Danieli, Fulvio Faraci, Luciano Fissore, Roberto Gemello, Elisabetta Gerbino, Egidio Giachin, Giorgio Micca, Roberto Montagna, Luciano Nebbia, Silvia Quazza, Daniele Roffinella, Luciano Rosboch, Claudio Rullent, Pier Luigi Salza, Stefano Sandri, "Tecnologie vocali per l'interazione uomo-macchina. Nuovi servizi a portata di voce", Ed. Telecom Lab 1995, ISBN 888540409X, ISBN 9788885404090
  • Quarant'anni d'innovazione, ed. Millennium s.r.l, (supplemento al num 224 di Media Duemila, 2005)
  • torinowireless.it
  • smau.it
  • corriere.it
  • isticom.it
  • deputatids.it
  • h-care.eu
  • Forum P.A. 17-20 maggio 2010 - Cartella Stampa AVAYA

Collegamenti esterni[modifica | modifica wikitesto]

aziende Portale Aziende: accedi alle voci di Wikipedia che trattano di aziende