25 октября 2017, 12:40

Искусственный интеллект научился распознавать речь конкретного человека в толпе

Даже среди говорящих на разных языках.

Технология разработана в Кембридже исследовательской лабораторией Mitsubishi Electric. Система использует машинное обучение, чтобы идентифицировать уникальные «голосовые отпечатки» разных людей. Затем искусственный интеллект разделяет голоса и восстанавливает речь каждого человека.

«Система была натренирована с помощью 100 англоязычных голосов, но она также может различить голос спикера, говорящего на японском», — представитель Mitsubishi Electric Нильс Мейнке (Niels Meinke).

ИИ различает и реконструирует речь двух людей, говорящих в один микрофон, с точностью до 90%. При наличии трёх спикеров точность падает до 80%. В обоих экспериментах система ранее не слышала голоса говорящих.

Новая технология могла бы помочь голосовым ассистентам лучше выполнять свои функции. ИИ также может использоваться правоохранительными органами для восстановления записей разговоров с шумовыми помехами, например, с музыкой на фоне.

В предварительных тестах система сумела разделить голоса пяти говорящих человек одновременно. В настоящее время Mitsubishi разрабатывает технологию распознавания голоса в лифтах и кондиционерах, которые являются источниками шума.

Ранее мы писали об искусственном интеллекте, который распознаёт протестующих в толпе даже с частично скрытыми лицами.

Читать по теме:

Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru

Автор иконки на тизере: Kiran Joseph, Noun Project