OLMo 2 32B: Революция в открытом ИИ с прозрачной архитектурой и выдающейся производительностью

Новая языковая модель с открытым исходным кодом продемонстрировала производительность, сопоставимую с лучшими коммерческими системами, при этом оставаясь полностью прозрачной. Институт искусственного интеллекта Аллена (Ai2) сообщил, что его модель OLMo 2 32B обошла как GPT-3 .5-Turbo, так и GPT-4o mini, а также предоставил доступ к её коду, данным обучения и техническим характеристикам.

Эта модель выделяется своей высокой эффективностью, затрачивая лишь одну треть ресурсов, необходимых для других моделей, таких как Qwen2.5-32B. Это делает её особенно привлекательной для исследователей и разработчиков с ограниченными возможностями.

Команда разработчиков применяла трехфазный подход в процессе обучения. В первую очередь, модель изучила основные языковые паттерны на основе 3,9 триллионов токенов. Затем она проанализировала высококачественные документы и академические материалы, а в завершающей части усвоила принцип следования инструкциям, используя систему Tulu 3.1, которая сочетает контролируемые и методы обучения с подкреплением.

Для упрощения управления процессом команда разработала OLMo-core, новую программную платформу, которая эффективно координирует несколько вычислительных устройств и отслеживает прогресс обучения. Обучение проводилось на суперкомпьютерной сети Augusta AI, состоящей из 160 машин с графическими процессорами H100, достигая производительности более 1800 токенов в секунду на одно устройство.

Хотя множество проектов в области AI, такие как Llama от Meta, заявляют о своем открытом исходном коде, OLMo 2 полностью соответствует всем трём основным критериям: имеется открытый код модели, ее вес и данные для обучения. Команда опубликовала все компоненты, включая набор данных Dolmino, что обеспечивает полную воспроизводимость и возможность анализа.

“С небольшими шагами любой сможет осуществлять предварительное, промежуточное и постобучение — все, что нужно, чтобы создать модель уровня GPT-4 в своей области. Это значительный шаг вперед в развитии opensource AI для реальных приложений,” — отметил Натан Ламберт из Ai2 в своем комментарии.

Это основано на предыдущих исследованиях с использованием Dolma в 2023 году, которые помогли создать базу для открытого обучения AI. Команда также загрузила разные контрольные точки, представляющие версии языковой модели, изменяющиеся на протяжении всего обучения. Статья, опубликованная вместе с версиями 7B и 13B OLMo 2 в декабре, содержит дополнительную техническую информацию.

По мнению Ламберта, разрыв между открытыми и закрытыми системами AI сократился приблизительно до 18 месяцев. Хотя OLMo 2 32B соответствует Gemma 3 27B от Google в базовом обучении, Gemma 3 показывает лучшие результаты после тонкой настройки, что предполагает возможность улучшения методов постобучения в открытом коде.

Команда намерена улучшить логическое обоснование модели и расширить её способности к обработке более длинных текстов. Желающие могут протестировать OLMo 2 32B в Chatbot Playground от Ai2.

Хотя в январе Ai2 выпустила ещё более мощную модель Tülu-3-405B, которая превосходит GPT-3.5 и GPT-4o mini, Ламберт уточнил, что она не является полностью открытой из-за отсутствия участия лаборатории в её предварительном обучении.

Источник