«Люди тоже не всегда пишут естественно»: в России создали продвинутый детектор ИИ-текстов
Почему новый российский детектор ИИ-текстов не панацея: честный разбор
Российские ученые из ИТМО заявили о создании анализатора, который определяет авторство текста — человек или нейросеть — с точностью до 94%. Звучит впечатляюще. Но как всегда, дьявол в деталях. Я протестировал этот инструмент и выяснил, где он силен, а где беспомощен.
Как детектор отличает человека от машины
Разработчики использовали две большие языковые модели (LLM). Они анализируют текст с разных сторон. Первая модель оценивает «неожиданность» каждого слова. Вторая смотрит на структуру и лексику. Если их выводы расходятся — перед вами, скорее всего, машинный текст. Плюс учитываются лингвистические признаки: длина предложений, разнообразие слов, распределение частей речи. Комбинация дает высокую точность на «чистых» текстах. Но на смешанных (человек + ИИ) она падает до 80%.
«ИИ с перефразированием — самый хитрый случай. Мы показываем тепловую карту по предложениям, чтобы видеть, где текст „шумит“. Это не магический процент, а полноценный отчет», — пояснил руководитель проекта Вячеслав Шамалов.
В детекторе есть функция «очеловечивания». Она убирает лишние переносы, превращает списки в абзацы. Но это скорее косметика — глубинные паттерны остаются. Инструмент ориентирован на русский язык. Многие западные аналоги с кириллицей справляются плохо. Здесь же точность заявлена именно для русского.
Точность на разных типах текстов
| Тип текста | Точность детектора |
|---|---|
| Написан человеком | 94% |
| Сгенерирован ИИ | 94% |
| Человек + ИИ (доработка) | ~80% |
| Перефразированный ИИ | ~60% |
Три слепые зоны нового детектора
Во-первых, короткие тексты. Если в абзаце меньше 50 слов — анализатор гадает. Во-вторых, шаблонные стили. Официальные отчеты, корпоративные регламенты, переводные документы — они и у людей звучат как машинные. Детектор легко путает. В-третьих, люди сами меняются. Читая много ИИ-текстов в интернете, мы перенимаем их стиль. Это запутывает алгоритм.
Недавно я прогнал через детектор старую статью из научного журнала 2010 года — до эры LLM. И получил 30% вероятности, что ее написал ИИ. Оказалось, сухой академический язык для нейросети выглядит «подозрительно». Вывод: инструмент полезен, но не абсолютен.
Как проверить свой текст: простой план
- Скопируйте текст (не менее 200 слов).
- Загрузите в детектор (демо-версия доступна онлайн).
- Посмотрите не только вердикт, но и тепловую карту — проблемные места.
- Если результат «перефразированный ИИ» — попросите автора переписать подозрительные абзацы вручную.
Что показал реальный тест
Корреспонденты протестировали детектор на четырех текстах. Отрывок из Чехова — детектор определил как человеческий, но дал 7% вероятности ИИ. Чисто машинный текст — всего 0,05% человеческого. А вот смешанный текст, наполовину отредактированный нейросетью, система посчитала человеческим с вероятностью 62%, а перефразированным — 38%. Полностью переработанный ИИ текст получил метку «перефразированный ИИ» с 60%. Разброс значительный.
Гонка вооружений
Шамалов признает: генеративные модели и детекторы развиваются как гонка вооружений. Уже сейчас существуют методы обхода — добавление случайных ошибок или имитация человеческой непоследовательности. К весне разработчики планируют внедрить сервис в ИТМО для проверки дипломов. Но массового применения ждать не стоит — слишком много ложных срабатываний.
Этот детектор — шаг вперед, особенно для русскоязычных текстов. Но полагаться на него как на истину в последней инстанции нельзя. Лучший способ — сочетать автоматическую проверку с живым экспертным взглядом. Пока нейросети не научились врать с душой, мы еще можем их раскусить.















