28 декабря 2017, 21:33

Нейросеть Google научилась реалистично имитировать человеческую речь

Программа интонационно выделяет слова и знаки препинания.

Google создал систему преобразования текста в речь Tacotron 2, которая с поразительной точностью имитирует голос человека.

Система состоит из двух нейросетей глубокого обучения. Первая из них преобразует текст в спектрограмму — визуальное изображение звуковых частот. Затем алгоритм WaveNet, созданный исследовательской лабораторией DeepMind, считывает данные и генерирует соответствующие звуковые элементы.

Ниже — два звуковых отрывка. Один из них принадлежит человеку, другой — нейросети. При этом Google не указал, в каком порядке расположены образцы. Однако при загрузке файлов можно обнаружить, что в названии первого образца есть слово gen. Это может свидетельствовать о том, что отрывок сгенерирован ИИ.

George Washington was the first President of the United States. Джордж Вашингтон был первым президентом США

Tacotron 2 умеет выделять определённые слова и учитывать пунктуационные знаки:

The buses aren't the PROBLEM, they actually provide a SOLUTION. Автобусы — не ПРОБЛЕМА, скорее, они предоставляют РЕШЕНИЕ

This is your personal assistant, Google Home. Это ваш персональный ассистент, Google Home

Впервые Google рассказал о своём алгоритме WaveNet в 2016 году — технология теперь используется для голосового помощника Google Assistant. В будущем Tacotron 2 также может стать мощным дополнением к сервису.

Пока исследователи обучили программу имитировать только один женский голос. Чтобы система заговорила другим голосом, её придется тренировать заново.

Ранее Google выкатил голосовой эксперимент, который позволяет следить за новостями с помощью бумажных фигурок.

Новости по теме:

Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru