Искусственный интеллект научился распознавать речь конкретного человека в толпе
Даже среди говорящих на разных языках.
Технология разработана в Кембридже исследовательской лабораторией Mitsubishi Electric. Система использует машинное обучение, чтобы идентифицировать уникальные «голосовые отпечатки» разных людей. Затем искусственный интеллект разделяет голоса и восстанавливает речь каждого человека.
«Система была натренирована с помощью 100 англоязычных голосов, но она также может различить голос спикера, говорящего на японском», — представитель Mitsubishi Electric Нильс Мейнке (Niels Meinke).
ИИ различает и реконструирует речь двух людей, говорящих в один микрофон, с точностью до 90%. При наличии трёх спикеров точность падает до 80%. В обоих экспериментах система ранее не слышала голоса говорящих.
Новая технология могла бы помочь голосовым ассистентам лучше выполнять свои функции. ИИ также может использоваться правоохранительными органами для восстановления записей разговоров с шумовыми помехами, например, с музыкой на фоне.
В предварительных тестах система сумела разделить голоса пяти говорящих человек одновременно. В настоящее время Mitsubishi разрабатывает технологию распознавания голоса в лифтах и кондиционерах, которые являются источниками шума.
Ранее мы писали об искусственном интеллекте, который распознаёт протестующих в толпе даже с частично скрытыми лицами.
Читать по теме:
Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru
Автор иконки на тизере: Kiran Joseph, Noun Project
Успейте купить корпоративный пакет COSSA-2025 со скидкой!
Cossa анонсирует главный рекламный формат на весь 2025 год: сразу 8 различных опций.
Пакет идеально подходит для онлайн-сервисов, стартапов, интернет-компаний и digital-агентств.
Успейте приобрести пакет до повышения цены!