Боты-скрейперы ставят под угрозу открытость интернета: Wikimedia сообщила о резком росте трафика

Опубликовано: April 3, 2025

Фонд Викимедиа, который является организацией-учредителем Википедии и нескольких других краудсорсинговых проектов по сбору знаний, сообщил в среду о том, что с января 2024 года потребление полосы пропускания для загрузки мультимедиа с Wikimedia Commons увеличилось на 50%. В своем блоге, опубликованном во вторник, фонд объяснил, что причина этого роста не в возросшем интересе пользователей к знаниям, а в автоматических скраперах, которые используют данные для обучения искусственного интеллекта.

«Наша инфраструктура предназначена для обработки резких всплесков трафика во время крупных мероприятий, но объем, создаваемый ботами-скрейперами, выходит за рамки привычного и создает новые риски и затраты», — утверждается в сообщении.

Wikimedia Commons представляет собой открытое хранилище изображений, видео и аудиофайлов, которые доступны по свободным лицензиям или находятся в общественном достоянии.

При более детальном рассмотрении, Викимедиа сообщает, что почти 65% самого ресурсоемкого трафика поступает от ботов, хотя на них приходится лишь 35% общего количества просмотров страниц. Это несоответствие возникает из-за того, что часто используемый контент находится ближе к пользователям в кэше, а менее популярный — хранится дальше в основном центре обработки данных, обслуживание которого обходится дороже. Именно такой контент чаще всего запрашивают боты.

«Пользователи, как правило, фокусируются на определенных темах, тогда как поисковые роботы просматривают гораздо больше страниц, включая менее популярные», — отмечает Викимедиа.

Эта ситуация приводит к тому, что такие запросы чаще направляются в основной центр обработки данных, что значительно увеличивает затраты на ресурсы.

Итак, команде по надежности сайта Фонда Викимедиа приходится прилагать много усилий для блокировки краулеров, чтобы предотвратить сбои для обычных пользователей. И это еще не все, так как у фонда возникают и дополнительные затраты на облачную инфраструктуру.

Эта проблема является частью растущей тенденции, угрожающей открытому интернету. В прошлом месяце инженер-программист и сторонник открытого исходного кода Дрю ДеВолт выразил недовольство по поводу того, что AI-краулеры игнорируют «robots.txt», который предназначен для ограничения автоматизированного трафика. Кроме того, «прагматичный инженер» Гергей Орос также отмечал, что AI-скраперы от таких компаний, как Meta*, увеличили нагрузку на пропускную способность его собственных проектов.

Инфраструктура с открытым исходным кодом оказывается под давлением, и разработчики пытаются бороться с этой ситуацией «умом и местью», как сообщалось в TechCrunch. Некоторые технологические компании также активно работают над решением этой проблемы — например, Cloudflare недавно запустила AI Labyrinth, использующий контент, сгенерированный AI, для замедления поисковых роботов.

Тем не менее, эта борьба напоминает игру в кошки-мышки, которая может привести к тому, что многие издатели начнут использовать авторизацию и платный доступ, что окажет негативное влияние на всех пользователей интернета.

Meta* и её продукты (Facebook, Instagram) заблокированы на территории России.