МТИ и Google создали ИИ, который сопоставляет звук, изображение и текст для восприятия мира
Алгоритм, который учится как человек.
Исследования ИИ обычно рассматривают способность распознавания изображения, звука и текста как три разных алгоритма. Однако две новые статьи от МТИ и Google описывают целостный подход, который соединяет все три чувства для обучения интеллектуальных машин.
Юсуф Айтар (Yusuf Aytar), аспирант по ИИ в Массачусетском технологическом институте, говорит, что ни один из методов Google или МТИ не работает лучше, чем однозадачные алгоритмы. Однако подчеркивает — это лишь вопрос времени.
«Чем больше у вас чувств, тем аккуратнее ваши действия», — убежден ученый.
Ученые МТИ не обучают ИИ чему-то новому — но закладывают «умение» сопоставлять полученные данные. Для обучения нейросети показали видео, которое может быть связано с аудио. После того как ИИ обнаружил объекты в видео, он попытался предсказать, как они соответствуют звуковому ряду. Затем исследователи скормили машине текст, чтобы она могла ассоциировать слова с изображением.
Модель Google ведет себя аналогично, но, помимо прочего, умеет переводить текст.
Ранее инженеры Google превратили ИИ в родителя и учителя себе подобных, а Microsoft анонсировал приложение для создания креативных видео с искусственным интеллектом на борту.
Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru
Автор иконки на тизере: Oksana Latysheva, Noun Project
Успейте купить корпоративный пакет COSSA-2025 со скидкой!
Cossa анонсирует главный рекламный формат на весь 2025 год: сразу 8 различных опций.
Пакет идеально подходит для онлайн-сервисов, стартапов, интернет-компаний и digital-агентств.
Успейте приобрести пакет до повышения цены!