Google запускает Gemini 2.5 Flash Image, чтобы бросить вызов ChatGPT
Google официально представила значительное обновление своего редактора изображений на основе искусственного интеллекта Gemini, введя новые функции, которые делают его прямым конкурентом ChatGPT от OpenAI и других ведущих платформ для генерации изображений с помощью ИИ. Обновление под названием Gemini 2.5 Flash Image было выпущено во вторник и обеспечивает повышенную точность редактирования при сохранении консистентности персонажей — ключевой слабости конкурирующих моделей.
Новая модель представляет собой последнюю попытку Google догнать господство OpenAI в области генерации изображений с помощью искусственного интеллекта. Согласно судебным документам, опубликованным в апреле 2025 года, ChatGPT сохраняет значительное преимущество с примерно 600 миллионами ежемесячных активных пользователей по сравнению с 350 миллионами у Gemini. Тем не менее, Google, похоже, предпринимает стратегические шаги для сокращения этого разрыва.
Обновление выходит из подразделения DeepMind компании Google и основывается на существующих возможностях искусственного интеллекта компании по созданию изображений. Что отличает эту модель — это её способность сохранять черты лица, характеристики животных и другие визуальные детали при внесении изменений — область, в которой ChatGPT и другие конкуренты часто испытывают трудности. Например, при просьбе ChatGPT изменить цвет рубашки часто возникают искажённые лица или изменённые фоны, тогда как новый редактор Gemini поддерживает визуальную согласованность.
Модель уже вызвала значительный ажиотаж под своим тестовым кодовым именем «nano-banana», которое появилось анонимно на LMArena, платформе для оценки моделей ИИ с краудсорсингом. Генеральный директор Google DeepMind Демис Хассабис даже присоединился к рекламной кампании, опубликовав микроскопическую фотографию банана с подписью «странный объект замечен под микроскопом на выходных в лаборатории».
Николь Брихтова, руководитель продукта визуальных генеративных моделей в Google DeepMind, подчеркнула ориентированный на потребителя дизайн модели в интервью TechCrunch. Новые возможности включают многократное редактирование, позволяющее пользователям последовательно вносить изменения без необходимости начинать сначала, а также смешивание дизайнов, которое применяет стилистические элементы одного изображения к объектам на другом.