Reddit ограничивает доступ к Internet Archive для защиты пользовательских данных

Reddit сообщает, что организации, занимающиеся искусственным интеллектом, используют данные из Wayback Machine, нарушая правила платформы, и поэтому намерены запретить Internet Archive индексировать значительную часть материалов Reddit, как сообщает The Verge.

Wayback Machine больше не сможет сканировать страницы с содержанием постов, комментариев или профилей пользователей на Reddit. Internet Archive будет иметь возможность индексировать только главную страницу Reddit.com, то есть только информацию о наиболее популярных заголовках и постах в разные дни.

«Мы знаем о случаях, когда компании, работающие с искусственным интеллектом, нарушают правила платформы, включая и наши собственные, извлекая данные из Wayback Machine», — заявил Тим Ратшмидт, представитель компании.

Internet Archive предназначен для сохранения цифрового архива интернет-сайтов и других культурных объектов, а Wayback Machine позволяет пользователям просматривать страницы в том виде, в каком они были доступны в определённые даты. Однако Reddit считает, что не весь его контент подлежит архивированию таким образом. «Пока они не смогут защитить свой сайт и следовать правилам платформы (например, учитывать конфиденциальность пользователей и удалять ненужный контент), мы ограничиваем их доступ к данным Reddit для защиты пользователей», — отметил Ратшмидт.

Он также сообщил, что Reddit уведомил Internet Archive о введении ограничений. В прошлом Reddit уже выражал «беспокойство» по поводу возможности пользователей извлекать контент из Internet Archive.

Недавно Reddit заключил соглашение с Google на предоставление данных для тренировки искусственного интеллекта, стоимость лицензии составила $60 миллионов в год, согласно информации Bloomberg.

В начале июня 2025 года Reddit подал иск к стартапу Anthropic, обвинив его в незаконном использовании материалов с платформы для обучения нейросети Claude. Упоминается более 100 тысяч обращений к ресурсу с июля 2024 года — после того, как Anthropic якобы запретила веб-сканирование Reddit.

Reddit намерен строго контролировать размещение контента на своей платформе и планирует ввести систему верификации, чтобы удостовериться, что посты создаются реальными людьми.