Нейросеть Google научилась реалистично имитировать человеческую речь
Программа интонационно выделяет слова и знаки препинания.
Google создал систему преобразования текста в речь Tacotron 2, которая с поразительной точностью имитирует голос человека.
Система состоит из двух нейросетей глубокого обучения. Первая из них преобразует текст в спектрограмму — визуальное изображение звуковых частот. Затем алгоритм WaveNet, созданный исследовательской лабораторией DeepMind, считывает данные и генерирует соответствующие звуковые элементы.
Ниже — два звуковых отрывка. Один из них принадлежит человеку, другой — нейросети. При этом Google не указал, в каком порядке расположены образцы. Однако при загрузке файлов можно обнаружить, что в названии первого образца есть слово gen. Это может свидетельствовать о том, что отрывок сгенерирован ИИ.
Tacotron 2 умеет выделять определённые слова и учитывать пунктуационные знаки:
Впервые Google рассказал о своём алгоритме WaveNet в 2016 году — технология теперь используется для голосового помощника Google Assistant. В будущем Tacotron 2 также может стать мощным дополнением к сервису.
Пока исследователи обучили программу имитировать только один женский голос. Чтобы система заговорила другим голосом, её придется тренировать заново.
Ранее Google выкатил голосовой эксперимент, который позволяет следить за новостями с помощью бумажных фигурок.
Новости по теме:
Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru
Идет регистрация агентств-участников в рейтинги RUWARD 2024!
До 8 декабря идет этап регистрации диджитал-агентств/продакшенов в серии из 46 рейтингов узких диджитал-специализаций Руварда. Поторопитесь! =)