Искусственный интеллект научился распознавать речь конкретного человека в толпе
Даже среди говорящих на разных языках.
Технология разработана в Кембридже исследовательской лабораторией Mitsubishi Electric. Система использует машинное обучение, чтобы идентифицировать уникальные «голосовые отпечатки» разных людей. Затем искусственный интеллект разделяет голоса и восстанавливает речь каждого человека.
«Система была натренирована с помощью 100 англоязычных голосов, но она также может различить голос спикера, говорящего на японском», — представитель Mitsubishi Electric Нильс Мейнке (Niels Meinke).
ИИ различает и реконструирует речь двух людей, говорящих в один микрофон, с точностью до 90%. При наличии трёх спикеров точность падает до 80%. В обоих экспериментах система ранее не слышала голоса говорящих.
Новая технология могла бы помочь голосовым ассистентам лучше выполнять свои функции. ИИ также может использоваться правоохранительными органами для восстановления записей разговоров с шумовыми помехами, например, с музыкой на фоне.
В предварительных тестах система сумела разделить голоса пяти говорящих человек одновременно. В настоящее время Mitsubishi разрабатывает технологию распознавания голоса в лифтах и кондиционерах, которые являются источниками шума.
Ранее мы писали об искусственном интеллекте, который распознаёт протестующих в толпе даже с частично скрытыми лицами.
Читать по теме:
Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru
Автор иконки на тизере: Kiran Joseph, Noun Project
Эффективная и выгодная реклама с сервисом от МегаФона
Широкий выбор рекламных каналов, более 100 параметров по интересам, подробная аналитика и другие возможности уже ждут в Личном кабинете. А еще кешбэк 100% за запуск рекламы в первый месяц и еще 10% — каждый месяц.