Chinezii au învățat o rețea neuronală să cânte

Dezvoltatorii chinezi au creat un algoritm care a învățat o rețea neuronală să transforme vorbirea în cânt.

Tehnologia se bazează pe dezvoltarea existentă a Tencent, rețeaua neuronală DurIAN.

Tehnologia anterioară a sintetizat videoclipuri cu oameni care vorbeau din text.

Acest algoritm vă permite să sintetizați o înregistrare a unei persoane care cântă pe baza unei înregistrări a vorbirii sale normale.

Noul produs vă permite, de asemenea, să lucrați la o sarcină într-un ciclu invers, adică să sintetizați vorbirea pe baza cântării.

Experții observă că dezvoltarea algoritmilor de rețele neuronale pentru sinteza vorbirii face în prezent posibilă crearea unor sisteme care sunt foarte greu de distins de oamenii reali.

Astfel, dezvoltatorii Google au introdus un asistent vocal pentru rezervarea de locuri în 2018.

Această tehnologie nu numai că poate vorbi realist, folosind cuvintele corect, dar este chiar capabilă să folosească efecte care conferă credibilitate „interlocutorului electronic”, datorită unor „virgule fonetice” precum „um” sau „um”.

Rezultatele s-au dovedit a fi atât de realiste încât dezvoltatorii companiei au trebuit chiar să învețe algoritmul să avertizeze la începutul unei conversații că conversația nu este cu o persoană, ci cu un robot.

Similar cu alți algoritmi de rețele neuronale, succesul tehnologiilor de sinteză a vorbirii depinde în mare măsură nu de arhitectură, ci de cantitatea de date de antrenament disponibile.

Când am creat un sistem de sinteză a cântării, a trebuit să implementăm o sarcină aparent similară.

Dar, în realitate, sarcina s-a dovedit a fi mai dificilă din cauza disponibilității limitate a datelor.

Inginerii chinezi de la Tencent au creat în sfârșit un sistem care poate reproduce înregistrări audio realiste ale cântării, bazate exclusiv pe mostre de vorbire introduse.

Dezvoltatorii au instalat un așa-numit bloc de recunoaștere a vorbirii în noul algoritm.

Acest bloc creează foneme pe baza înregistrării audio primite, determinând durata și frecvențele fundamentale ale acestora.

Apoi, aceste date merg într-un alt bloc, format dintr-un encoder și un decodor.

În această etapă, se formează o spectrogramă de cretă, pe baza căreia o rețea neuronală separată creează o înregistrare audio.

Dezvoltatorii au antrenat rețeaua neuronală pe două dintre propriile seturi de date, constând dintr-o oră și jumătate de cânt și 28 de ore de vorbire.

Dezvoltatorii au testat eficacitatea noului lor produs pe 14 voluntari, care au evaluat realismul cântării sintetizate, precum și asemănarea timbrului sunetului cu înregistrarea originală.

După cum sa dovedit, una dintre variantele de algoritm a obținut 3,8 puncte pentru realism și 3,65 pentru identitate.

Fotografie: Pixabay