DE NIEUWE TEKST-NAAR-SPRAAK-AI VAN GOOGLE IS ZO GOED DAT WE DURVEN WEDDEN DAT JE HET NIET VAN EEN ECHT MENS KUNT ONDERSCHEIDEN

Kun je het verschil zien tussen door AI gegenereerde computerspraak en een echte, levende mens? Misschien heb je altijd gedacht dat je het kon. Misschien ben je dol op Alexa en Siri, maar geloof je dat je geen van beide met een echte vrouw zou verwarren.

Dingen staan op het punt een stuk interessanter te worden. De technici van Google hebben hard gewerkt aan het maken van een tekst-naar-spraaksysteem met de naam Tacotron 2 . Volgens een papier ze deze maand publiceerden, maakt het systeem eerst een spectrogram van de tekst, een visuele weergave van hoe de spraak zou moeten klinken. Dat beeld wordt door het bestaande WaveNet-algoritme van Google gehaald, dat het beeld gebruikt om extreem natuurlijk klinkende menselijke spraak te produceren.

hoe oud is carol kane

Met deze methode rapporteren de onderzoekers: 'Ons model haalt een gemiddelde opiniescore (MOS) van 4,53 vergelijkbaar met een MOS van 4,58 voor professioneel opgenomen spraak.' (Een gemiddelde opiniescore is een telecommunicatieterm die meet hoe levensecht iets klinkt.)

Zoals de audiomonsters van Google aantonen, kan Tacotron 2 uit de context het verschil detecteren tussen het zelfstandig naamwoord 'desert' en het werkwoord 'desert', evenals het zelfstandig naamwoord 'present' en het werkwoord 'present', en de uitspraak dienovereenkomstig wijzigen. Het kan de nadruk leggen op woorden met een hoofdletter en de juiste verbuiging toepassen bij het stellen van een vraag in plaats van het maken van een verklaring.

En het kan tekst genereren die zo op menselijke spraak lijkt dat het moeilijk of onmogelijk is om het verschil te weten. Als je wilt zien hoe moeilijk het is, ga dan naar Google's pagina met audiovoorbeelden , en scroll naar beneden naar de laatste set samples, getiteld 'Tacotron 2 or Human?' Daar vind je Tacotron 2 en een echte persoon die elk zinnen zeggen als: 'Dat meisje heeft een video gemaakt over Star Wars-lippenstift.'

SPOILER ALERT: Om jezelf te testen, luister naar de voorbeelden en raad welke dat is voordat je de rest van deze kolom leest.

Welke samples zijn tekst-naar-spraak en welke een echte menselijke stem? De technici van Google zeggen het niet, maar ze hebben een heel belangrijke aanwijzing achtergelaten. Elk van de .wav-bestandsvoorbeelden heeft een bestandsnaam die de term 'gen' of 'gt' bevat. Op basis van het artikel is het zeer waarschijnlijk dat 'gen' spraak aangeeft die wordt gegenereerd door Tacotron 2, en 'gt' echte menselijke spraak is. ('GT' staat waarschijnlijk voor 'ground truth', een term voor machine learning die in feite 'the real deal' betekent.)

Ervan uitgaande dat dit correct is, zijn hier de antwoorden op de test: