26 июня 2017, 13:20

МТИ и Google создали ИИ, который сопоставляет звук, изображение и текст для восприятия мира

Алгоритм, который учится как человек.

Исследования ИИ

Исследования ИИ обычно рассматривают способность распознавания изображения, звука и текста как три разных алгоритма. Однако две новые статьи от МТИ и Google описывают целостный подход, который соединяет все три чувства для обучения интеллектуальных машин.

Юсуф Айтар (Yusuf Aytar), аспирант по ИИ в Массачусетском технологическом институте, говорит, что ни один из методов Google или МТИ не работает лучше, чем однозадачные алгоритмы. Однако подчеркивает — это лишь вопрос времени.

«Чем больше у вас чувств, тем аккуратнее ваши действия», — убежден ученый.

Ученые МТИ не обучают ИИ чему-то новому — но закладывают «умение» сопоставлять полученные данные. Для обучения нейросети показали видео, которое может быть связано с аудио. После того как ИИ обнаружил объекты в видео, он попытался предсказать, как они соответствуют звуковому ряду. Затем исследователи скормили машине текст, чтобы она могла ассоциировать слова с изображением.

Модель Google ведет себя аналогично, но, помимо прочего, умеет переводить текст.

Ранее инженеры Google превратили ИИ в родителя и учителя себе подобных, а Microsoft анонсировал приложение для создания креативных видео с искусственным интеллектом на борту.

Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru

Автор иконки на тизере: Oksana Latysheva, Noun Project