Разработчики открытого ПО объявили партизанскую войну сборщикам данных для ИИ

28 мар 2025, 14:53

Война за контент между разработчиками открытого программного обеспечения и ботами, собирающими данные для искусственного интеллекта, перешла в новую фазу. Если раньше владельцы сайтов лишь жаловались на игнорирование файлов robots.txt, то сегодня они разворачивают настоящие цифровые ловушки и системы противодействия. Речь идет не просто о неудобстве, а о прямой угрозе доступности целых платформ, где хостинг критически важных для IT-индустрии проектов висит на волоске.

Когда файл robots.txt перестал быть законом

Проблема, с которой столкнулись администраторы, носит системный характер. ИИ-боты, обученные игнорировать стандартные протоколы, действуют агрессивно: они подменяют User-Agent, меняют IP-адреса и сканируют сайты в десятки раз интенсивнее обычных пользователей. Это приводит к тому, что серверы, особенно некоммерческие, просто захлебываются от запросов. Разработчик Се Ясо (Xe Iaso) в январе публично заявил, что AmazonBot фактически устроил DDoS-атаку на его Git-сервер, полностью парализовав работу. Бот игнорировал любые запреты и использовал технические уловки для обхода защиты.

Anubis: цифровой страж для Git-репозиториев

Ответом Ясо стала программа Anubis, которая работает как строгий вышибала. Вместо того чтобы полагаться на честность ботов, она проверяет клиентов на способность выполнять действия, свойственные человеку. Anubis блокирует автоматизированные системы, но пропускает реальные браузеры. Проект, опубликованный на GitHub 19 марта, мгновенно набрал популярность: 2000 звезд и десятки форков за несколько дней. Этот успех — не просто признание заслуг автора, а маркер эпидемии. По словам основателя платформы SourceHut Дрю ДеВолта (Drew DeVault), от 20% до 100% его рабочего времени теперь уходит исключительно на отражение атак веб-сканеров.

Лабиринты и кувшиночники: тактика выматывания ресурсов

Разработчики пошли дальше простой блокировки. Анонимный программист под псевдонимом Aaron создал решение Nepenthes, названное в честь тропического растения-хищника. Система заманивает ботов в бесконечный лабиринт сгенерированной бессмыслицы, заставляя их тратить вычислительные мощности на переработку мусора. Аналогичный подход, получивший название AI Labyrinth, недавно внедрила компания Cloudflare. Ее система активируется автоматически, если бот нарушает директиву «no crawl», и уводит его в дебри бесполезного контента. Это вынуждает владельцев ботов нести прямые финансовые потери от простоя своих мощностей.

Вынужденная геополитика и бойкот

Ситуация накалилась до такой степени, что администраторы идут на крайние меры. Администратор проекта Linux Fedora Кевин Фензи (Kevin Fenzi) был вынужден полностью заблокировать доступ к серверам из Бразилии, а разработчик KDE Plasma Никколо Венеранди (Niccolò Venerandi) временно отключил все китайские IP-адреса. Такие решения хоть и решают проблему локально, но наносят удар по открытости сообщества. Дрю ДеВолт призвал к тотальному бойкоту всех современных ИИ-инструментов, включая большие языковые модели и GitHub Copilot, однако в реальности этот призыв вряд ли будет услышан корпорациями.

Еще полгода назад основной жалобой разработчиков было воровство контента для обучения нейросетей. Сегодня проблема сместилась в плоскость инфраструктурной безопасности. Сайты с открытым кодом, которые являются фундаментом современного программирования, оказались под ударом не из-за хакеров, а из-за легитимных, но бездумных алгоритмов крупных технологических компаний. Борьба идет не за авторские права, а за физическую возможность серверов оставаться в сети. Пока корпорации ищут компромиссы, энтузиасты создают «умные капканы», превращая войну с ботами в соревнование инженерной мысли.

Опубликовано: Мировое обозрение Источник