Google I/O 2024: Gemini 1.5 PRO, генерация видео и все, что анонсировал Google
В этом году традиционно было много разговоров об искусственном интеллекте: слово «AI» прозвучало из уст спикеров минимум 121 раз за два часа.
Gemini 1.5 PRO
1 млн токенов контекста: Gemini 1.5 PRO предлагает контекстное окно в 1 миллион токенов, а в тестовом доступе уже достигнут результат в 2 миллиона токенов
Новая версия Gemini 1.5 Pro уже доступна платным пользователям версии кабинета Gemini Advanced в некоторых стран мира. К сожалению, Россия не входит в их число.
Gemini 1.5 Flash — это легкая версия Gemini, более доступная для пользователей, но при этос ограниченная в возможностях (аналогичные истории это GPT 3.5 и GPT-4 или еще Claude Sonnet и Cloude 3.0 Opus).
Project Astra и Gemini Live
Планируется что агенты будут работать с Gmail почтой (в т. ч. отвечать на ваши письма при необходимости, согласно вашей задачи) и другими сервисами Google, также с Google Meet. На данный момент всё только в режиме анонса, ассистент не был представлен в живую даже на сцене.
Обработка видео в прямом эфире, агент Gemini поможет в реальном времени с тем что вы покажете на экране.
Из интересного, ассистент может вспомнить где лежали ваши очки, которые он (т. е. нейросеть) видел некоторое время назад
Немного походит на ассистента на базе GPT-4o представленного OpenAI днем ранее, с разницей в том что разработка от Google недоступна, а только анонсирована.
Gemini на Android и Gemini Nano
В ближайшем будущем Google Assistant будет заменен на «Близнецов» для мобильных устройств с новой версией Android. Пользователи смогут перетаскивать изображения, созданные с помощью искусственного интеллекта, прямо в свои Gmail, Google Messages и другие приложения. Между тем, по словам Google, пользователи YouTube смогут нажать «Спросить это видео», чтобы найти конкретную информацию в этом видео YouTube
Gemini Nano — легковесная нейросетевая модель которая будет встроена уже в следующую версию Chrome.
Music AI Sandbox (Music FX)
Этот проект занимается генерацией музыки и развивается совместно с музыкантами, чтобы избежать обвинений в нарушении авторских прав. Ознакомительные музыкальные нейросетевые инструменты от Google доступны по ссылке, но основные инструменты для работы с музыкой предназначены только для избранных пользователей.
Imagen 3
Imagen 3 — новая модель для генерации изображений. Как и предыдущие версии Imagen, она недоступна для широкой аудитории. Желающие могут встать в лист ожидания, найдя ссылку на гугл-форму на странице.
Veo для генерации видео
Veo — инструменты для генерации видео, проект который планирует стать достойным конкурентом Sora от OpenAI. Тестовые инструменты Veo недоступны для широкой аудитории, но можно встать в список ожидания .
Демо-ролики выглядят достаточно хорошо, однако неизвестно сколько попыток потребовалось для создания удачных кадров. Российским пользователя рассчитывать на ранний и вообще на какой-либо доступ не стоит.
TPU 6 Trillium и Firebase Genkit
Google представил TPU 6 Trillium — новое поколение чипов для тренировки моделей ИИ, которые станут доступны в облаке Google к концу 2024 года.
Firebase получил новое дополнение под названием Firebase Genkit, предназначенное для облегчения разработки приложений на основе ИИ на JavaScript/TypeScript. В скором времени планируется поддержка Go.
Поиск с AI и Gems
Google обещает в будущем модифицировать поиск. Планируется, что нейросеть Gemini будет использовать множество шагов для анализа полученной по вашему запросу информации и формирования лучшего ответа или полноценного решения по вашему вопросу.
Gems — gока в виде анонса, недоступно для пользователей на данный момент. Походит на своеобразный аналог GPTs для ChatGPT.
Оригинал на https://gerwin.io/journal/google-i-o-2024-gemini-1-5-pro