МТИ и Google создали ИИ, который сопоставляет звук, изображение и текст для восприятия мира
Алгоритм, который учится как человек.
Исследования ИИ обычно рассматривают способность распознавания изображения, звука и текста как три разных алгоритма. Однако две новые статьи от МТИ и Google описывают целостный подход, который соединяет все три чувства для обучения интеллектуальных машин.
Юсуф Айтар (Yusuf Aytar), аспирант по ИИ в Массачусетском технологическом институте, говорит, что ни один из методов Google или МТИ не работает лучше, чем однозадачные алгоритмы. Однако подчеркивает — это лишь вопрос времени.
«Чем больше у вас чувств, тем аккуратнее ваши действия», — убежден ученый.
Ученые МТИ не обучают ИИ чему-то новому — но закладывают «умение» сопоставлять полученные данные. Для обучения нейросети показали видео, которое может быть связано с аудио. После того как ИИ обнаружил объекты в видео, он попытался предсказать, как они соответствуют звуковому ряду. Затем исследователи скормили машине текст, чтобы она могла ассоциировать слова с изображением.
Модель Google ведет себя аналогично, но, помимо прочего, умеет переводить текст.
Ранее инженеры Google превратили ИИ в родителя и учителя себе подобных, а Microsoft анонсировал приложение для создания креативных видео с искусственным интеллектом на борту.
Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru
Автор иконки на тизере: Oksana Latysheva, Noun Project
Эффективная и выгодная реклама с сервисом от МегаФона
Широкий выбор рекламных каналов, более 100 параметров по интересам, подробная аналитика и другие возможности уже ждут в Личном кабинете. А еще кешбэк 100% за запуск рекламы в первый месяц и еще 10% — каждый месяц.