Noul AI de la Microsoft poate simula vocea oricui dupa doar 3 secunde de ascultare. Cercetătorii Microsoft au anunțat un nou model AI text-to-speech numit VALL-E, care poate simula îndeaproape vocea unei persoane atunci când i se oferă o mostră audio de trei secunde. Odată ce învață o anumită voce, VALL-E poate sintetiza sunetul vocii acelei persoane spunând orice și o poate face într-un mod care încearcă să păstreze tonul emoțional al vorbitorului.
Microsoft numește VALL-E un „model de limbaj de codec neuronal” și se bazează pe o tehnologie numită EnCodec. Spre deosebire de alte metode text-to-speech care sintetizează de obicei vorbirea prin manipularea formelor de undă, VALL-E generează coduri discrete de codec audio din solicitările text și acustice.
Practic analizează modul în care sună vocea uneii persoane, sparge aceste informații în componente discrete (numite „jetoane”) datorită EnCodec și folosește date pentru a potrivi cu ceea ce „știe” despre cum ar suna acea voce dacă ar folosi alte fraze în afara eșantionului de trei secunde.
Creatorii săi speculează că VALL-E ar putea fi folosit pentru aplicații text-to-speech de înaltă calitate. Înregistrarea vocii unei persoane ar putea fi editată și schimbată dintr-o transcriere a textului (făcându-l să spună ceva ce nu au făcut inițial) și crearea de conținut audio atunci când este combinată cu alte modele ai generative, cum ar fi GPT-3.
Pentru a sintetiza vorbirea personalizată (de exemplu, TTS zero-shot), VALL-E generează simbolurile acustice corespunzătoare condiționate de simbolurile acustice ale înregistrării de 3 secunde înscrise, relatează arstechnica.com
În cele din urmă, token-urile acustice generate sunt folosite pentru a sintetiza forma de undă finală cu decodorul codec neuronal corespunzător.
Microsoft a introdus capacitățile de sinteză ale vorbirii VALL-E într- o bibliotecă audio, asamblată de Meta, numită LibriLight. Acesta conține 60.000 de ore de vorbire în limba engleză de la mai mult de 7.000 de vorbitori, majoritatea extrase din cărțile audio din domeniul public LibriVox.
Pentru ca VALL-E să genereze un rezultat bun, vocea din eșantionul de trei secunde trebuie să se potrivească îndeaproape cu o voce din datele de antrenament.
Poate din cauza capacității VALL-E de a alimenta potențial răutățile și înșelăciunea, Microsoft nu a furnizat codul VALL-E. Cercetătorii par conștienți de potențialele daune sociale pe care le-ar putea aduce această tehnologie.
Deoarece VALL-E ar putea sintetiza vorbirea care menține identitatea vorbitorului, aceasta poate prezenta riscuri potențiale în utilizarea necorespunzătoare a modelului, cum ar fi falsificarea identificării vocale sau uzurparea identității unui anumit difuzor.
Pentru a atenua astfel de riscuri, este posibil să se construiască un model de detectare a modului în care a fost creat un clip audio.
Pe lângă păstrarea timbrului vocal și a tonusului emoțional al unui difuzor, VALL-E poate imita și „mediul acustic” al sunetului eșantionului.
De exemplu, dacă eșantionul a venit dintr-un apel telefonic, ieșirea audio va simula proprietățile acustice și de frecvență ale unui apel telefonic în ieșirea sa sintetizată (acesta este un mod fantezist de a spune că va suna ca un apel telefonic, de asemenea).
Iar probele Microsoft (în secțiunea „Sinteza diversității”) demonstrează că VALL-E poate genera variații ale tonului vocii prin schimbarea semințelor aleatorii utilizate în procesul de generare.