Искусственный интеллект для всех: Nvidia запускает Granary — датасет с миллионом часов речи для 25 европейских языков

Несмотря на то что сегодня кажется, будто искусственный интеллект присутствует повсюду, на самом деле его эффективное применение охватывает лишь небольшую часть из более чем семи тысяч существующих языков, что оставляет значительную аудиторию без внимания. Nvidia решила восполнить этот пробел, прежде всего в Европе.

Компания анонсировала мощный набор открытых решений, который даст разработчикам возможность создавать качественные системы распознавания и синтеза речи для 25 европейских языков. В этот список включены не только распространенные языки, но и менее популярные, такие как хорватский, эстонский и мальтийский.

Цель проекта ясна и амбициозна: помочь программистам разрабатывать голосовые сервисы, уже ставшие привычными для многих пользователей, — от многоязычных чат-ботов, которые по-настоящему воспринимают собеседника, до систем клиентской поддержки и быстрых переводчиков.

В центре этой инициативы находится Granary — обширная библиотека человеческой речи. Она содержит около миллиона часов аудиозаписей, которые тщательно отбирались для обучения ИИ пониманию и переводу устной речи.

Чтобы обеспечить максимальную эффективность использования этих данных, Nvidia предлагает две новые языковые AI-модели:

Canary-1b‑v2 — большая модель, ориентированная на высокую точность в сложных задачах транскрипции и перевода;

Parakeet‑tdt-0.6b‑v3 — модель для молниеносных приложений, в которых скорость имеет первостепенное значение.

Для интересующихся техническими деталями подойдет научная статья о Granary, которую представят на конференции Interspeech в Нидерландах в этом месяце. А те, кто не хочет ждать, могут сразу скачать набор данных и обе модели на Hugging Face.

Однако действительно впечатляющим является то, как были собраны эти данные. Известно, что обучение ИИ требует огромных объемов информации, а сбор таких данных обычно занимает месяцы и требует значительных затрат, не обходясь без утомительной ручной разметки.

Чтобы оптимизировать этот процесс, команда Nvidia по распознаванию речи совместно с исследователями из Университета Карнеги — Меллона и Фонда Бруно Кессле разработала автоматизированный поток обработки, который, используя разработанный ими набор инструментов NeMo, трансформировал сырое неразмеченное аудио в структурированные данные высокого качества, что позволило ИИ эффективно обучаться.

Это не просто технологический прорыв — это значительный шаг к цифровому равенству: теперь разработчик в Риге или Загребе может создать голосовой AI-сервис, который по-настоящему понимает его язык. При этом требуемых данных Granary нужно примерно в два раза меньше, чем для других известных корпусов, чтобы достичь аналогичного уровня точности.

Два новых решения от Nvidia показывают этот потенциал. Canary представляет собой мощную систему: ее качество перевода и транскрипции сопоставимо с моделями, объем которых в три раза больше, но при этом она в десять раз быстрее. Parakeet может обрабатывать 24-минутные записи совещаний, определяя язык самостоятельно. Обе модели точно расставляют знаки препинания, учитывают регистр и предоставляют точные временные метки для каждого слова — всего, что необходимо для профессиональных приложений.

Предоставляя данные и инструменты вместе с новыми методами разработчикам по всему миру, Nvidia инициирует не только релиз нового продукта, но и волну инноваций, мечтая о будущем, в котором ИИ говорит на вашем языке, независимо от вашего местоположения.

Делегируйте рутинные задачи вместе с BotHub. Сервис доступен без VPN и принимает российские карты. Переходите по ссылке и получите 100 000 бесплатных капсов, чтобы начать работу с нейросетями прямо сейчас.