Wetenschap & Techniek

Stemgeluid is genoeg voor gezichtsreconstructie

foto: MIT/Githubfoto: MIT/Github

Nieuws
Stemgeluid is genoeg voor gezichtsreconstructie

Alleen een stem, is dat genoeg om te raden hoe iemands gezicht eruit ziet? Voor veel mensen niet, maar een nieuw algoritme brengt het er heel aardig van af.

Gezichtsreconstructie op basis van de stem

Goed, het algoritme mocht eerst wel een tijdje trainen. Miljoenen video's van pratende mensen kreeg de software te verstouwen. Daaruit destilleerde het programma overeenkomsten tussen het stemgeluid en de gezichten van de sprekers.

Toen werd het tijd voor het echte werk: op basis van een paar seconden audio bepalen hoe het gezicht van de spreker er uit ziet. Zonder enige foto- of videomateriaal. Het algoritme moest de gezichten dus puur op basis van het stemgeluid reconstrueren.

Niet perfect, wel herkenbaar

Het eindresultaat is niet perfect, maar wel duidelijk herkenbaar, zoals je op de foto boven dit artikel kunt zien. De computer maakte geen spitting image van Bond-acteur Daniel Craig, maar het is wel een Daniel Craig-achtig gezicht. De hoeveelheid audio maakte daarbij wel een verschil: zes seconden stemgeluid leidde tot een duidelijk betere reconstructie dan drie seconden, zoals je op onderstaande foto kunt zien.

Het onderzoek, gedaan aan het Massachusetts Institute of Technology (MIT), werd gepresenteerd op de Conference on Computer Vision and Pattern Recognition en is online na te lezen.

Wordt het algoritme beter dan de mens? NPO Focus ging op zoek naar het antwoord.

NPO Radio 1 houdt je dagelijks op de hoogte over de laatste ontwikkelingen in de wetenschap

Maandag t/m vrijdag rond 16.20 uur in Nieuws en Co
Iedere werkdag van 02.00 tot 04.00 uur in Focus
En wanneer je maar wilt in de podcast Focus Wetenschap

Ster advertentie