Google только что выкатили масштабное обновление — Gemini 3.1 Pro. Это не просто рядовой набор патчей или «багфиксов». Перед нами серьезный претендент на звание самого умного ИИ на текущий момент. Главный прорыв заключается в том, что gemini научилась рассуждать, а не просто угадывать следующее слово в предложении.
В этой статье мы подробно разберем, что скрывается под капотом новой gemini нейросеть, как работает адаптивное мышление и почему обновление Veo 3.1 стало настоящей революцией для креаторов и видеографов.
Долгое время языковые модели страдали от одной проблемы: они были отличными имитаторами, но плохими мыслителями. Новая модель gemini pro меняет парадигму. На сложнейшем тесте ARC-AGI-2 (бенчмарк, где ИИ должен решать логические задачи, которых не было в его обучающей выборке) нейросеть набрала впечатляющие 77.1%. Это почти двукратный рост по сравнению с предыдущими итерациями.
💡 Определение: Gemini 3.1 Pro — это генеративная ИИ-модель нового поколения от Google, способная к многоступенчатым логическим рассуждениям, планированию сложных цепочек задач и глубокому анализу контекста.
Одна из главных фишек gemini 3 pro — функция Adaptive Thinking (адаптивное мышление). Теперь пользователь или сама система может выбирать режим работы в зависимости от сложности задачи.
Эпоха обычных вопросно-ответных систем уходит в прошлое. Новая gemini google оптимизирована для выполнения полноценных цепочек задач. Это означает, что модель лучше управляет внешними инструментами, самостоятельно пишет скрипты, проверяет их на ошибки и доводит дело до конца без лишних «пинков» со стороны человека. Такая автономность — огромный шаг вперед для всей индустрии gemini ai.
Вместе с текстовой моделью обновилась и генеративная видеосеть Veo 3.1. Ключевое нововведение — кардинально улучшенный режим «In-betweening» (генерация кадров между первым и последним изображением). Это стало возможным благодаря внедрению продвинутой логики.
Раньше нейросети делали банальный «морфинг»: алгоритм пытался плавно превратить пиксели кадра А в пиксели кадра Б. Если между ними было смысловое различие (например, машина сначала стоит, а в конце летит в заносе), в середине видео часто возникала визуальная «каша», а объект терял форму.
В gemini 3 и Veo 3.1 применяется новый подход. Модель сначала строит логическую траекторию. Благодаря выдающимся аналитическим способностям gemini, нейросеть «понимает», что между «стоящей» и «летящей» машиной должно произойти ускорение, наклон кузова и появление дыма из-под колес. Это больше не интерполяция, а полноценная симуляция физического движения.
Если раньше пользователи были ограничены схемой «Начало — Конец», то теперь Veo 3.1 позволяет задавать промежуточные ключевые кадры (B, C, D). Вы можете выстроить сложную мизансцену:
Veo свяжет эти точки в единый бесшовный дубль, сохраняя геометрию автомобиля и корректное освещение на протяжении всего пути. Теперь этот функционал напрямую интегрирован в платформу, доступную через gemini google com.
Теперь между кадрами можно вставить текстовую инструкцию, определяющую характер движения. Например, добавляя промпт: «сделай это в стиле динамичного стрит-рейсинга с резким наездом камеры», вы заставляете нейросеть пересчитать кадры в соответствии с динамикой текста.
Кроме того, архитектура Veo 3.1 держит консистентность объектов почти на 100%. Это достигается за счет того, что gemini выступает строгим «контролером» каждого кадра, проверяя его на логическое соответствие. Больше никаких колес, превращающихся в дым!