30 ноября 2017, 18:06

Mozilla выпустила эффективный алгоритм распознавания речи и сайт для его обучения

Проект с открытым исходным кодом.
Основан на разработках Google и Baidu.
Учить программу может любой желающий.

Mozilla

Компания Mozilla представила систему распознавания речи с эффективностью, «близкой к человеческому уровню». Алгоритм DeepSpeech показывает коэффициент ошибок по каждому слову в 6,5%. При этом компания ставила перед собой цель в 10%, а корпорация Microsoft ранее добилась результата в 5,5%.

Система основана на средстве машинного обучения с открытым кодом TensorFlow от Google. Также программисты Mozilla применяли метод «глубокого обучения многослойной нейросети», описанный в работе 2014 года исследователей из Baidu. Исходный код DeepSpeech также доступен бесплатно для всех разработчиков.

Компания также рассказала о ресурсе Common Voice. Через «общий голос» любой человек может ИИ-алгоритму понять человеческую речь. Для этого нужно зайти на сайт, надиктовать три фразы на английском языке. Ещё можно проверить записи других добровольцев на соответствие предложенным фразам.

Обучающий массив данных содержит около 400 тысяч фраз с общей длительностью 500 часов. Более 20 тысяч человек со всей планеты предоставили образцы своего голоса для проекта. По мнению разработчиков, это поможет будущим системам различать любые акценты. Пока алгоритм работает только с английским, но разработчики обещают добавить и другие языки.

Материалы по теме:

Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru

Автор иконки на тизере: Bernar Novalyi, Noun Project