Рамис Ганиев
Исследователи из Массачусетского технологического института создали нейросеть Speech2Face, которая способна рисовать портреты людей, просто послушав их голоса. Технология пока далека от идеала, но ее способность определять пол, национальность и возраст человека впечатляет.
Для обучения нейросети использовался набор AVSpeech с миллионом коротких видеороликов с тысячами говорящих людей. Дорожки с видео и звуком разделены, поэтому система смогла изучить каждый тип материала максимально подробно. На первом этапе работы, алгоритм VGG-Face изучал фрагменты видео и создавал портреты фигурирующих на них людей в анфас и нейтральным выражением лица. Другая часть алгоритма изучала спектрограмму голоса и накладывала на полученные портреты дополнительные изменения — в итоге получился примерный портрет каждого разговаривающего человека.
Нейросеть для создания портретов на основе голоса — уже реальность
Если сравнить лицо человека с видео и предложенный алгоритмом вариант, то можно найти множество отличий. Впрочем, исследователи уверяют, что они изначально не хотели создать максимально похожий портрет человека — на тон и интонацию человеческого голоса влияют множество факторов, поэтому идеального результата они бы все равно не получили. Зато нейронная сеть отлично справляется с тем, что важно исследователям, а именно с точным определением пола, национальности и возраста.
Авторы работы отметили, что на данный момент алгоритм слабоват при определении возраста, но они в силах повысить точность. Также было обнаружено, что алгоритм лучше воссоздает лица с европейской и азиатской внешностью, но это связано только с тем, что на обучающих видеороликах было не равное количество лиц разных национальностей.
Зачем нужна нейросеть?
Чем же может быть полезна эта технология в будущем? Как вариант, при помощи нее когда-нибудь может быть создан сервис, где виртуальный аватар пользователя создается автоматически, на основе его голоса. Новое исследование также несет большую научную пользу — изучив данные, ученые могут найти взаимосвязь между внешностью человека и его голосом.