Нейросеть Microsoft научилась рисовать объекты по текстовому описанию
Для этого система использует математический аналог воображения.
Microsoft разработал бота, который рисует оригинальные изображения на основе текстового описания. К примеру, так система проиллюстрировала жёлтую птицу с чёрными крыльями и коротким клювом:
«Эта птица может не существовать в реальном мире — она всего лишь объект воображения нашего компьютера», — комментирует один из исследователей Microsoft.
Команда начала исследования в области компьютерного зрения и обработки естественного языка с помощью CaptionBot — ИИ-системы, которая автоматически создаёт подписи к фотографиям. Затем учёные разработали приложение Seeing AI, которое анализирует окружающее пространство и «озвучивает» его для незрячих людей.
Новая технология состоит из двух частей: первая — нейросеть Attentional Generative Adversarial Network (AttnGAN) — генерирует изображения, а вторая часть, так называемый дискриминатор, оценивает их качество. Система умеет прорисовывать как крупные штрихи, так и мелкие детали.
Бот-художник учился на фотографиях и подписях к ним. Учёные также перевели в математический вид концепцию человеческого внимания, которое включается, когда мы рисуем картины на основе сложных описаний. Идея в том, чтобы научить машины понимать мир так же, как это делают люди.
Тем временем ИИ-программы Alibaba и Microsoft Research Asia впервые превзошли человеческий уровень понимания текста. А нейросеть, созданная японскими учёными, научилась «считывать» человеческие мысли и воспоминания.
Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru
Успейте купить корпоративный пакет COSSA-2025 со скидкой!
Cossa анонсирует главный рекламный формат на весь 2025 год: сразу 8 различных опций.
Пакет идеально подходит для онлайн-сервисов, стартапов, интернет-компаний и digital-агентств.
Успейте приобрести пакет до повышения цены!