Нейросеть Microsoft научилась рисовать объекты по текстовому описанию
Для этого система использует математический аналог воображения.
Microsoft разработал бота, который рисует оригинальные изображения на основе текстового описания. К примеру, так система проиллюстрировала жёлтую птицу с чёрными крыльями и коротким клювом:
«Эта птица может не существовать в реальном мире — она всего лишь объект воображения нашего компьютера», — комментирует один из исследователей Microsoft.
Команда начала исследования в области компьютерного зрения и обработки естественного языка с помощью CaptionBot — ИИ-системы, которая автоматически создаёт подписи к фотографиям. Затем учёные разработали приложение Seeing AI, которое анализирует окружающее пространство и «озвучивает» его для незрячих людей.
Новая технология состоит из двух частей: первая — нейросеть Attentional Generative Adversarial Network (AttnGAN) — генерирует изображения, а вторая часть, так называемый дискриминатор, оценивает их качество. Система умеет прорисовывать как крупные штрихи, так и мелкие детали.
Бот-художник учился на фотографиях и подписях к ним. Учёные также перевели в математический вид концепцию человеческого внимания, которое включается, когда мы рисуем картины на основе сложных описаний. Идея в том, чтобы научить машины понимать мир так же, как это делают люди.
Тем временем ИИ-программы Alibaba и Microsoft Research Asia впервые превзошли человеческий уровень понимания текста. А нейросеть, созданная японскими учёными, научилась «считывать» человеческие мысли и воспоминания.
Хотите подсказать новость или поделиться экспертным мнением? Пишите: news@cossa.ru
IT-конференция МТС True Tech Day 17 мая
Что будет:
- 5 тематических треков: Main, Development, AI/ML, Cloud, Science;
- 50 спикеров с докладами про архитектуру, облачные платформы, NLP4Code, вероятностное программирование, безопасность контейнеров и другое;
- 10 часов нетворкинга;
- Цифровые зоны и digital-интеграции;
- А ещё вечеринка со звездой.