In breve:

Nvidia ha sviluppato un programma in grado di studiare la voce umana e replicarne ogni dettaglio

Una volta perfezionata, la tecnologia renderà pressoché indistinguibili le voci sintetizzate da quelle reali

I primi sintetizzatori vocali risalgono agli anni ‘60

La tecnologia si sta avvicinando sempre più agli scenari dipinti dal cinema

Tra non molto potrebbe rivelarsi complicato distinguere la voce di un essere umano da quella riprodotta da un sintetizzatore. Nvidia ha infatti reso noti i propri progressi nel settore dell’intelligenza artificiale, presentando un programma in grado di “studiare” la voce umana e replicarne ogni dettaglio. Il risultato, dovesse essere paragonabile a quello mostrato dall’azienda, si avvicinerebbe clamorosamente all’obiettivo.

Nvidia vuole cambiare le voci sintetiche

Nvidia, azienda nota al grande pubblico per la produzione di schede grafiche per computer, ha deciso di rivoluzionare il mondo delle “voci sintetiche”. La sua nuova tecnologia Rad-Tts, recentemente presentata al pubblico, permette di compiere un passo avanti rispetto alle voci robotiche che attualmente conosciamo. Gli esempi sono i più disparati, da Siri ad Alexa. Assistenti vocali avanzati ma chiaramente distinguibili dalla voce umana. A differenza di queste voci sintetiche tradizionali, che prevedono la registrazione da parte delle aziende produttrici di parole e fonemi necessari a leggere un testo scritto o a comporre frasi con una voce standardizzata, la tecnologia di Nvidia permetterebbe al sintetizzatore vocale di studiare la voce dell’utente. Meglio spiegarla in parole semplici.

Studiare la tua voce per replicarne ogni particolare

A differenza degli assistenti vocali attuali, Nvidia ha sviluppato un algoritmo di intelligenza artificiale in grado di studiare la voce dell’utente e replicarne i dettagli, tanto da rendere la voce sintetica di fatto indistinguibile da quella umana. Non ci credete? L’azienda stessa ne dà prova in un video caricato sul proprio canale Youtube.

Se questa tecnologia dovesse diffondersi, basterà dare in pasto all’algoritmo una registrazione della propria voce, lasciar lavorare il codice e successivamente “far parlare” il proprio computer replicando perfettamente la propria voce. “Un’altra delle sue funzioni è la conversione della voce”, spiega l’azienda nella propria nota. “Permette alle parole pronunciate o cantate da uno speaker di essere ascoltate con la voce di un altro speaker. Con questa interfaccia, i nostri montatori video potrebbero registrare loro stessi mentre leggono un testo e poi usare il modello ad intelligenza artificiale per convertire questo testo nella voce di una narratrice femminile, ad esempio”. Questa nuova tecnologia permetterebbe quindi di fare montaggio audio non soltanto per tagliare oppure rimuovere il rumore di fondo da una registrazione ma cambiare l’intonazione della voce, facendo “interpretare” una propria registrazione in maniera completamente diversa, mantenendo però le caratteristiche di fondo del narratore originale.

Le applicazioni sono le più disparate (e anche un po’ inquietanti)

Questo sintetizzatore vocale avanzato potrebbe essere usato nei videogiochi, essere d’aiuto per persone con disabilità, impiegato per aiutare gli utenti nelle traduzioni in diverse lingue. Nvidia si spinge però anche oltre: “Potrebbe persino ricreare performance di cantanti iconici, non soltanto azzeccando la melodia di una canzone, ma anche le emozioni dell’espressione della voce”. Di fatto, quindi, potrebbe essere sufficiente una registrazione audio di durata limitata per replicare “l’identità vocale” di qualsiasi persona al mondo. Solleva ancor più riflessioni il fatto che Nvidia non si stia limitando alla voce, sperimentando anche nuovi algoritmi per replicare il volto degli interlocutori in una videochiamata, ad esempio.

In questo caso basta inserire una propria foto nel programma per replicare il movimento dei muscoli facciali. Attualmente è ancora possibile notare la meccanicità e l’innaturalezza delle espressioni, ma i passi avanti sono notevoli e potrebbe non mancare molto al raggiungimento del fotorealismo.

Quanta strada rispetto ai primi sintetizzatori

La storia dei sintetizzatori vocali è più lunga di quanto si possa immaginare. Il primo dispositivo in grado di riconoscere le parole pronunciate dalla voce umana fu il “Shoebox” di Ibm all’inizio degli anni ‘60. Quest’ultimo riusciva a comprendere le dieci cifra, da “zero” a “nove” e a svolgere calcoli ordinati dall’uomo. Una sorta di calcolatrice vocale d’altri tempi. Nel 1968 uscì nelle sale cinematografiche “2001: Odissea nello spazio” che, è vero, non inventò alcun sintetizzatore vocale reale, ma presentò al mondo il mitologico Hal 9000, il calcolatore infallibile che interagiva direttamente con gli umani.

“Trailer del capolavoro di Stanley Kubrick, 2001: Odissea nello spazio”

Poi tra gli anni ’70 e ‘80 fu la volta dei progetti di riconoscimento vocale della Carniege Mellon University, di Tangora (evoluzione dello Shoebox di Ibm) e di uno tra gli eventi mediatici dal più grande impatto fino ad allora nel mondo dell’informatica, la presentazione dell’Apple Macintosh.

“La voce robotica del Macintosh proveniva davvero dal computer: Apple utilizzava MacInTalk, sintetizzatore realizzato negli anni ’80 dall’azienda”

Negli ultimi anni, poi, l’esplosione degli assistenti vocali come Siri, Alexa, Google e Cortana. Chissà se grazie all’evoluzione dettata da Nvidia si potrà un giorno arrivare allo scenario rappresentato da Spike Jonze in “Her”, con un Joaquim Phoenix innamorato della suadente voce sintetizzata di una intelligenza artificiale, interpretata da Scarlett Johansson (Micaela Ramazzotti nella doppiaggio italiano).