Среда 29 апреля 2026 года

 

Вы здесь:  Главная» Все новости» Новости компаний» ReText.AI опубликовала open-research: дообученная Gemma-2 с методом SimPO обходит ИИ-детекторы в 67% случаев на кулинарных текстах


ReText.AI опубликовала open-research: дообученная Gemma-2 с методом SimPO обходит ИИ-детекторы в 67% случаев на кулинарных текстах

Четверг, 16 Апреля 2026 13:18

Российская команда дообучила модель Gemma-2-9B-IT методом Simple Preference Optimization на датасете из 19 804 пар текстов, собранном из COLING-2025 и AINL-eval. В датасет вошли генерации восьми моделей разного масштаба — от 3 до 235 миллиардов параметров, включая Llama, Qwen, GigaChat и T-pro. Результат: медианная вероятность ИИ-авторства снизилась с 0.93 до 0.47, сообщает pronline.ru.

 

Команда ReText.AI опубликовала детальное исследование эффективности своей модели «очеловечивания» ИИ-текста. В основе решения лежит дообучение модели Gemma-2-9B-IT (с использованием unsloth) методом SimPO (Simple Preference Optimization) — подходом, оптимизирующим качество генерации без необходимости вручную размечать предпочтения.

 

Как собирали данные

 

Исходные данные взяты из двух академических источников: датасет COLING-2025 (воркшоп по детекции машинного текста, сабтаск B), который включает русскоязычные и англоязычные тексты, а также AINL-eval с научными публикациями.

 

Для каждого исходного человеческого текста были сгенерированы «машинные» варианты с помощью восьми моделей разного масштаба. В их число вошли Llama-3.2 (3B параметров), Qwen3-8B (8B), GigaChat-2-Max, GLM-4.6, Llama-3.3-70B (70B), GPT-oss-120B (120B), Qwen3-235B-A22B (235B) и T-pro-it-1.0. Таким образом, датасет охватил модели от компактных до самых крупных открытых аналогов GPT.

 

Итоговый датасет составил 19 804 пары текстов, автоматически распределенных по 20 тематическим кластерам — от кулинарных рецептов до IT-разработки и правовых документов.

 

Как считали эффективность

 

Ключевая метрика — humanizer_score. Она рассчитывается как разница между вероятностью ИИ-авторства до обработки и после обработки, умноженная на коэффициент уверенности детектора. Проще говоря, метрика показывает, насколько сильно модель «очеловечивания» снижает подозрения детектора.

 

Что получилось

 

До обработки медианная вероятность того, что детектор сочтет текст ИИ-сгенерированным, составляла 0.93. После обработки этот показатель упал до 0.47. Лучший результат по средней дельте показали рецепты — прирост «очеловеченности» составил 0.518.

 

Еще один важный показатель — Hard Flip Rate, то есть доля текстов, которые после обработки детектор перестал считать ИИ-генерацией и «перевернул» свой вердикт. В категории рецептов этот показатель достиг 66.7%. Всего из 20 тематических категорий в 14 доля таких «перевернутых» решений превысила 50%.

 

Топ-5 категорий по Hard Flip Rate:

 

  • Рецепты и кулинария — 66.7%
  • Правовые системы — 64.2%
  • Бизнес и анализ рынка — 61.0%
  • Научные исследования — 60.8%
  • Управление персоналом — 59.9%

 

Где технология работает хуже

 

Наиболее сложными категориями оказались повседневные тексты (41.0%), многоязычные тексты (43.6%) и цифровые технологии (44.0%). Разработчики связывают это с тем, что обучающий датасет был преимущественно русско- и англоязычным, а также с высокой вариативностью стиля в этих доменах.

 

Общие выводы исследования

 

Для более чем 90% текстов «очеловечивание» снижает вероятность обнаружения ИИ. Метод SimPO показал высокую эффективность даже на компактной модели в 9 миллиардов параметров — для её запуска не требуется огромных вычислительных мощностей. Структурированные домены — право, бизнес, наука — обрабатываются лучше всего, тогда как основной вызов остается за многоязычными текстами.

 

Полные результаты исследования с графиками, методологией и примерами опубликованы в блоге ReText.AI.

 

О компании. ReText.AI — российский сервис для работы с текстом на основе искусственного интеллекта. Ключевые инструменты: перефразирование текста, проверка орфографии и пунктуации, ИИ-детектор (проверка текста на ИИ), очеловечивание и сокращение текста. Ежемесячно сервисом пользуются сотни тысяч человек.

 
 
 
 
 
 
Читайте также
Nature: регулярное употребление кофе улучшает психическое самочувствие Nature: регулярное употребление кофе улучшает психическое самочувствие Новое исследование, проведенное учеными из Университетского колледжа Корка, предполагает, что как кофе с кофеином, так и кофе без кофеина изменяют микробиом кишечника таким образом, что это приводит к снижению стресса…
Ученые выяснили, как отладить циркадные ритмы и вернуть подросткам здоровый сон Ученые выяснили, как отладить циркадные ритмы и вернуть подросткам здоровый сон Миллионам подростков в мире знакома проблема позднего засыпания и хронического недосыпа. Группа ученых из Питтсбургского университета доказала, что «починить» биологические часы и наладить здоровый сон можно при помощи грамотного действия…
Коронавирусы проникают в клетки человека новым способом Коронавирусы проникают в клетки человека новым способом Международная группа исследователей выявила коронавирус летучих мышей из Восточной Африки, способный проникать в клетки человека. Результаты исследования были опубликованы в журнале Nature. Вирус — коронавирус кардиодермии (CcCoV) KY43, или CcCoV-KY43…
Интернет и СМИ
Главное за сутки
Пожар на промплощадке в Пермском крае и 98 БПЛА. Последствия атаки ВСУ на российские регионы Пожар на промплощадке в Пермском крае и 98 БПЛА. Последствия атаки ВСУ на российские регионы Силы ПВО за ночь сбили 98 украинских беспилотников над российскими регионами, сообщили в Минобороны РФ. Пожар произошел на промышленной площадке в Пермском крае после прилета дрона ВСУ. ТАСС собрал основное…
Без военной техники. Минобороны раскрыло детали парада Победы Без военной техники. Минобороны раскрыло детали парада Победы Военный парад в ознаменование 81-й годовщины Победы в Великой Отечественной войне пройдет 9 мая на Красной площади в Москве, сообщили в Минобороны России. В ведомстве добавили, что суворовцы и нахимовцы,…
ФСБ РФ задержала россиянина, готовившего теракты в Крыму ФСБ РФ задержала россиянина, готовившего теракты в Крыму Сотрудники ФСБ задержали 49-летнего россиянина, готовившего по заданию спецслужб Украины теракт против руководителя одной из правоохранительных структур и диверсии на объектах газо- и электроснабжения. Об этом сообщили в Центре общественных…
Тема дня
Молдавские шпионы в итоге послужили интересам России Молдавские шпионы в итоге послужили интересам России

Масштабный обмен задержанными произошел между Россией и Белоруссией, с одной стороны, и рядом стран ...

Фото
Самый древний пример восстановительной стоматологии найден в Шотландии Самый древний пример восстановительной стоматологии найден в Шотландии

Мост из золотой нити, найденный на черепе мужчины, умершего между 1460 и 1670 годами, является старе...

Опрос

Через месяц после начала войны в Иране на чьей стороне преимущество?

 

Анекдот дня

Кто виноват?

Что делать?

А зачем?

Еще »

Этот сайт использует файлы «cookie» с целью повышения удобства его использования. Во время посещения сайта вы соглашаетесь с тем, что мы обрабатываем ваши персональные данные с использованием сервиса «Яндекс. Метрика». Продолжая использовать сайт, вы соглашаетесь с Политикой конфиденциальности.

Интересные материалы
МЫ ВКОНТАКТЕ

Зарегистрировано Федеральной службой по надзору в сфере связи, информационных технологий и массовых коммуникаций

(Роскомнадзор). Реестровая запись от 07.06.2022 серия ЭЛ № ФС 77 – 83392. При использовании, полном или частичном

цитировании материалов planet-today.ru активная гиперссылка обязательна. Мнения и взгляды авторов не всегда совпадают с

точкой зрения редакции. На информационном ресурсе применяются рекомендательные технологии (информационные технологии

предоставления информации на основе сбора, систематизации и анализа сведений, относящихся к предпочтениям пользователей

сети "Интернет", находящихся на территории Российской Федерации)".