19 января 2018, 13:16

Нейросеть Microsoft научилась рисовать объекты по текстовому описанию

Для этого система использует математический аналог воображения.

Microsoft разработал бота, который рисует оригинальные изображения на основе текстового описания. К примеру, так система проиллюстрировала жёлтую птицу с чёрными крыльями и коротким клювом:

Бот-художник от Microsoft

«Эта птица может не существовать в реальном мире — она всего лишь объект воображения нашего компьютера», — комментирует один из исследователей Microsoft.

Команда начала исследования в области компьютерного зрения и обработки естественного языка с помощью CaptionBot — ИИ-системы, которая автоматически создаёт подписи к фотографиям. Затем учёные разработали приложение Seeing AI, которое анализирует окружающее пространство и «озвучивает» его для незрячих людей.

Новая технология состоит из двух частей: первая — нейросеть Attentional Generative Adversarial Network (AttnGAN) — генерирует изображения, а вторая часть, так называемый дискриминатор, оценивает их качество. Система умеет прорисовывать как крупные штрихи, так и мелкие детали.

Бот-художник учился на фотографиях и подписях к ним. Учёные также перевели в математический вид концепцию человеческого внимания, которое включается, когда мы рисуем картины на основе сложных описаний. Идея в том, чтобы научить машины понимать мир так же, как это делают люди.

Тем временем ИИ-программы Alibaba и Microsoft Research Asia впервые превзошли человеческий уровень понимания текста. А нейросеть, созданная японскими учёными, научилась «считывать» человеческие мысли и воспоминания.

Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru