Джек Моррис вернул gpt-oss-20b к истокам: как переосмысленная модель освобождает генерацию текста

Менее двух недель назад OpenAI представила новое поколение своих выдающихся моделей с открытыми весами — семейством gpt‑oss. Это событие произошло под свободной лицензией Apache 2.0 и стало первым таким выпуском компании со времён появления GPT-2 в 2019 году. Вскоре после анонса внешние разработчики начали активно переосмыслять новую модель.

Одним из наиболее примечательных примеров стал проект Джека Морриса — аспиранта Cornell Tech, предыдущего исследователя в Google Brain и текущего сотрудника Meta✶. На этой неделе он анонсировал gpt‑oss-20b‑base, свою модификацию меньше по размеру gpt‑oss-20B. В его версии исключено поведение, связанное с логическим рассуждением, что позволило вернуть модель к предобученному состоянию, в котором ответы генерируются быстрее и более свободно, без строгих фильтров.

Теперь модель доступна на Hugging Face под лицензией MIT, что открывает возможности как для научных исследований, так и для коммерции.

«Мы по сути убрали этап выравнивания в обучении больших языковых моделей, — отметил он в посте на X. — Теперь модель возвращается к естественной генерации текста, без излишних рассуждений, просто предсказывая следующий токен в последовательности.»

Вместо поисков «взлома» модели с помощью сложных промптов — что, по словам Морриса, показало себя неэффективным в ранних тестах, — он выбрал другой подход, опираясь на советы бывшего сооснователя OpenAI и нынешнего главного научного сотрудника стартапа Thinking Machines Джона Шульмана.

Ключ к успеху заключался в том, чтобы рассматривать «откат выравнивания» как небольшую задачу оптимизации: если основная часть предобученных знаний все ещё содержится в весах модели, то не требуется больших корректировок для возврата к базовому поведению.

Моррис осуществил эту идею, внедрив обновление LoRA (low-rank adapter) в три слоя модели — MLP-слои на позициях 7, 15 и 23, используя ранг 16.

Это означало обучение примерно 60 миллионов параметров, что составляет всего 0,3% от общего количества в 21 миллиард. В качестве обучающего материала он использовал около 20 000 документов из датасета FineWeb, сохраняя их в формате предобучения с многоточиями для разделения фрагментов. Таким образом, модель не обучалась заново, а активировала свою способность к свободной генерации текста.

Процесс обучения занял четыре дня на восьми GPU NVIDIA H200, сообщил Моррис в личных сообщениях на X. При этом применялась скорость обучения 2e-6, размер батча 16 и максимальная длина последовательности в 8192 токена.

Затем он встроил веса LoRA обратно в модель, так что пользователи могут запускать её как полноценный рабочий артефакт.

Он также столкнулся с ограничениями существующих открытых инструментов для дообучения архитектур типа mixture-of-experts (MoE), на которых построена gpt‑oss.

По словам Морриса, он использовал фреймворк Hugging Face, который часто давал сбой и поддерживал лишь определённые режимы обучения. В конечном итоге ему пришлось написать собственный скрипт для регулярного сохранения прогресса и обхода проблемных батчей во избежание перегрузки памяти GPU.

Важно отметить: отвечая на вопросы и критику от сообщества AI в X, Моррис подчеркнул, что он не утверждает, будто ему удалось восстановить веса базовой модели — те самые внутренние настройки нейронов, формирующие работу нейросети.

По его словам, результатом работы стало «восстановление распределения базовой модели — пусть и с некоторыми неточностями». Это означает, что вероятность паттернов, на основании которых модель формирует свои ответы, сохраняется, даже если конкретные веса, отвечающие за эти паттерны, могут отличаться.

Финальная версия gpt‑oss-20b‑base стала значительно более свободной в своих ответах: теперь она гораздо реже формулирует сложные рассуждения и предоставляет более широкий спектр ответов, включая те, от выполнения которых отказывалась выравненная модель OpenAI, например, списки ненормативной лексики или даже планы нарушений закона.

В коротких тестах Моррис обнаружил, что модель может буквально воспроизводить отрывки из защищённых авторским правом произведений — три из шести проверенных им книг оказались в числе запомненных, что свидетельствует о сохранённой информации из обучающих данных.

Тем не менее, следы выравнивания всё ещё заметны. Моррис отметил: если задать разговорный формат («Human: … Assistant: …»), она иногда по-прежнему ведёт себя как вежливый чат-бот. И даже с использованием оригинального шаблона gpt‑oss для чата, она может выполнять рассуждательные задачи, хотя и с потерей качества.

Чтобы достичь наилучших результатов в режиме свободного текста, он советует начинать свои запросы со специального начального токена <|startoftext|> и полностью избегать шаблонов диалога.

Отзывы разработчиков о моделях gpt‑oss оказались весьма разнообразными — от восторга до откровенного разочарования.

Сторонники подчеркивали открытость лицензии, эффективность и высокие результаты в STEM-задачах.

Глава Hugging Face, Клем Дэланг, охарактеризовал данный релиз как «значительный вклад в открытую экосистему» и призвал сообщество дать моделям время на эволюцию.

Критики отмечали, что модели, похоже, в значительной степени обучены на синтетических данных, благодаря чему они отлично справляются с математикой и программированием, но хуже работают в художественных задачах, обсуждениях на культурные темы и в многоязычном режиме.

Некоторые ранние тестировщики также выражали беспокойство по поводу оставшихся фильтров безопасности и возможной геополитической предвзятости.

На этом фоне gpt‑oss-20b‑base Морриса демонстрирует, как быстро открытые модели могут быть переработаны и адаптированы для новых целей — всего за несколько дней после официального выпуска.

В отличие от сдержанных реакций на сам релиз OpenAI, отклики на работу Морриса в основном были положительными. Тем временем Моррис сообщил о своём намерении и дальше работать над возвращением моделей рассуждений к их базовому состоянию, на этот раз сосредоточив внимание на моделях Qwen.

Деятельность Meta запрещена на территории Российской Федерации.

Попробовать gpt‑oss-20b, gpt‑oss-120b или ChatGPT 5 можно в BotHub. По этой ссылке вы получите 100 000 бесплатных капсов для немедленного начала работы.