«Искусственный интеллект от Google: революция в исследовательских инструментах и робототехнике»

Корпорация Google анонсировала ряд новшеств в области искусственного интеллекта для агентств. К ним относятся: режим глубоких исследований в NotebookLM, новый «мозг для роботов» SIMA 2 и инструменты для онлайн-шопинга.

Google обновила своего ИИ-ассистента для работы с заметками NotebookLM, добавив инструмент, который упрощает исследовательский процесс, а также расширенную поддержку для различных форматов файлов.

Сервис запустил функционал Deep Research — решение для автоматизации поиска информации в интернете. Компания утверждает, что данный инструмент функционирует как самостоятельный исследователь, способный составить детализированный отчет или предложить соответствующие статьи, научные работы и сайты.

Deep Research принимает заданный вопрос, разрабатывает план исследования и анализирует интернет-ресурсы. Спустя несколько минут он предлагает отчет, który можно добавить в блокнот.

Работа режима происходит в фоновом режиме, что позволяет одновременно выполнять и другие задачи.

Инструмент доступен через поиск, и пользователи могут выбирать между детальным Deep Research и более быстрым Fast Research.

Дополнительно в NotebookLM теперь поддерживаются Google Sheets, ссылки на файлы из Drive, PDF-документы из Google Drive и Microsoft Word.

Обновления ожидаются в течение следующей недели.

NotebookLM — это ИИ-ассистент от Google, который служит для работы с заметками, исследованиями и документами. Он позволяет загружать различные материалы, такие как PDF, статьи, таблицы, изображения, ссылки, юридические документы и лекции, формируя структурированную базу знаний.

Сервис был запущен в 2023 году и с тех пор его функциональность постепенно расширяется с помощью искусственного интеллекта. В начале 2025 года появилась функция Video Overviews, которая превращает сложные мультимедийные материалы в понятные визуальные презентации.

В мае NotebookLM стал доступен для пользователей Android и iOS.

Google продолжает развивать свое направление в области робототехники, презентовав в рамках подразделения DeepMind SIMA 2 — новое поколение универсального ИИ-агента. Он «выходит за рамки простого выполнения инструкций» и начинает осознавать окружающую среду и взаимодействовать с ней.

Первая версия SIMA была обучена на множестве геймплейных видеозаписей, что позволило ей играть в различные 3D-игры, подобно человеку. Она была представлена в марте 2024 года и могла выполнять базовые команды в различных виртуальных пространствах, но сложные задачи выполняла лишь в 31% случаев.

SIMA 2 использует языковые и аналитические возможности Gemini и работает на основе версии 2.5 flash-lite. Точность выполнения задач возросла до 65%.

«SIMA 2 представляет собой значительный прогресс по сравнению с первой версией. Это более универсальный агент, который способен справляться со сложными задачами в новых для него средах», — отметил на пресс-брифинге старший научный сотрудник DeepMind Джо Марино.

Этот ассистент может самообучаться, улучшая навыки на основе собственного опыта. Это важный шаг к созданию более универсальных роботов и систем, подчеркнул Марино.

Исследователи из подразделения ИИ Google отметили, что работа над так называемыми «воплощенными агентами» крайне важна для развития общего интеллекта. Таких помощников обучают взаимодействовать с физическим и виртуальным мирами, как это делает человек или робот.

В отличие от неактивных ассистентов, которые могут управлять календарем, делать заметки или выполнять код, активно вовлеченные агенты имеют более широкий диапазон задач.

Старший научный сотрудник DeepMind с нейробиологическим образованием Джейн Ван акцентировала внимание на том, что SIMA 2 значительно превышает простое игровое поведение.

«Мы ожидаем от него настоящего понимания происходящего, осознания своих задач и адекватной реакции. Это действительно сложная задача», — добавила она.

Интеграция Gemini позволила SIMA 2 удвоить эффективность по сравнению с предыдущей моделью. Новый агент сочетает развитые языковые и аналитические функции ИИ с навыками взаимодействия, полученными в процессе обучения.

Марино продемонстрировал SIMA 2 в игре No Man’s Sky, где агент описывал окружающий ландшафт и принимал решения о своих дальнейших действиях. Для внутреннего анализа он использовал систему Gemini.

В другой игре помощника попросили подойти к дому цвета спелого томата. ИИ проанализировал ситуацию: «Он красный, значит направление к соответствующему дому». Затем агент начал двигаться в указанном направлении.

Благодаря Gemini ИИ-агент способен понимать и интерпретировать инструкции, даже поданные в виде эмодзи. Команда «🪓🌲» вызовет действие — рубку дерева.

SIMA 2 успешно ориентируется в фотореалистичных мирах, созданных с помощью Genie, и может распознавать объекты вроде скамеек, деревьев и бабочек, а также взаимодействовать с ними.

Используя возможности Gemini, новая версия SIMA может обучаться почти без человеческого вмешательства, опираясь на начальные данные лишь как на базис.

Команда помещает агента в новое окружение, а отдельная модель генерирует для него задачи.

SIMA 2 анализирует свои ошибки и постепенно совершенствует свои навыки. Это фактически обучение методом проб и ошибок без участия человека: роль учителя исполняет другой ИИ.

В DeepMind считают, что это новое решение — шаг к созданию по-настоящему универсальных роботов.

«Для эффективного выполнения задач в реальном мире системе необходимы две ключевые составляющие: глубокое понимание окружающей среды и способность рассуждать», — отметил старший инженер и исследователь Фредерик Бесс.

Например, если человеку поручить гуманоидному роботу проверить количество оставшихся банок фасоли в шкафу, ему нужно знать, что такое фасоль, шкаф и как туда добраться.

SIMA 2 как раз сосредоточена на этом «высоком уровне поведения», добавил Бесс.

Неизвестно, когда новое решение будет интегрировано в физические роботы.

Еще одной важной областью для поискового гиганта является ИИ для шопинга. Компания представила ряд новых инструментов для онлайн-покупок, включая:

«Мы верим, что процесс покупок не должен быть изнурительным. Наша цель — сохранить все приятные моменты, такие как просмотр товаров и неожиданные находки, и устранить скучные и сложные этапы», — отметила вице-президент и руководитель разработки рекламы и коммерции в Google Видхья Срнивасан.

Одной из новинок стали разговорные покупки в режиме AI Mode. Пользователь может общаться с поисковиком как с чат-ботом; в ответ ИИ покажет изображения товаров, а также предоставит информацию о ценах, отзывах и наличии.

Модуль Gemini обучен формировать детализированные идеи и подборки, а не ограничиваться краткими советами по запросам о покупке. На данный момент эта функция доступна только в США.

Агентский чек-аут — это автоматическое уведомление о любых изменениях цены на интересующий товар. Сервис способен уведомлять о снижении цен.

«Это удобно для покупателей, так как им не нужно постоянно отслеживать цену на нужный товар, и полезно для продавцов, поскольку покупатели вернутся, хотя иначе они могли бы уйти», — добавила вице-президент по продуктам Google Shopping Лилиан Ринкон.

Еще одна новая функция позволяет ИИ делать звонки в магазины от имени пользователя, запрашивая информацию о наличии товара и текущих акциях. Эта технология основана на базе, представленном в 2018 году, Google Duplex, Shopping Graph и платежной инфраструктуре Google.

Для использования этого инструмента необходимо указать желаемый товар. ИИ обзвонит местные магазины, задаст вопросы о детали и предоставит краткий отчет.

Напомним, в ноябре Google внедрила сводки сообщений, приоритизацию уведомлений и другие функции на основе искусственного интеллекта в своих смартфонах Pixel.