
Исследователи Принстонского университета оценили новые статьи «Википедии» на «машинность». Сравнение до и после распространения больших языковых моделей показало, что почти 5 % материалов на английском языке содержат значительные объёмы текста, который писал искусственный интеллект. В других языковых разделах этот показатель ниже, но явление выражено и там.
30 ноября 2022 года компания OpenAI представила сервис ChatGPT, который немедленно популяризировал использование больших языковых моделей (БЯМ) для генерации контента. ChatGPT набрал 100 миллионов пользователей всего за два месяца. В январе 2023 года о планах использовать ChatGPT для генерации контента объявила медиакомпания BuzzFeed.
Насколько быстро ИИ завоевал популярность, настолько же быстро тексты от БЯМ стали синонимом низкокачественной писанины. Уже в марте 2023 статьи от робота Buzzy на BuzzFeed раскритиковали: тексты оказались неинформативными и алогичными, содержали повторы оборотов и часто употребляемые (до уровня речевых паразитов) словосочетания. Эти качества стали признаком такого контента, который на английском прозвали «slop».
«Slop» переводится как «помои» и в наши дни употребляется часто: термин претендовал на звание слова 2024 года по версии Оксфордского словаря. Как рассказывает «Википедия», в контексте искусственного интеллекта словом «slop» обозначают низкопробный или нежелательный цифровой контент, заполняющий социальные медиа, галереи фотографий и картин, выдачу поисковых машин и даже печатные книги.
Сама «Википедия» тоже страдает от «помоев». По крайней мере, статей от БЯМ появляется достаточно, чтобы потребовался отдельный проект WikiProject AI Cleanup для их поиска, редактирования и удаления. AI Cleanup был запущен группой энтузиастов осенью прошлого года. На данный момент страница проекта перечисляет десятки статей, подозреваемых на контент от БЯМ. Какой-либо более детальной статистики о размахе явления AI Cleanup не имеет. Проект признаёт наличие проблемы и предлагает с ней бороться, а не пытается оценить её серьёзность.
Собственную оценку доли «помоев» в «Википедии» предложили исследователи Принстонского университета Крестон Брукс [Creston Brooks], Самуэль Эггерт [Samuel Eggert] и Денис Песков [Denis Peskoff]. Если верить этому анализу, почти каждую двадцатую новую страницу в «Википедии» отчасти или полностью написал искусственный интеллект.
Обнаружить тексты БЯМ даже вручную нелегко, поэтому для этого анализа потребовались автоматизированные детекторы. Эффективность систем обнаружения БЯМ — спорный вопрос. Ещё в 2019 году оценить «машинность» текста удавалось с точностью в 73 % (arXiv:1905.12616), и в последующие пять лет качество работы моделей лишь росло. В 2022 году для обмана системы антиплагиата MOSS достаточно было по нынешним меркам примитивной модели GPT-J на 6 млрд параметров (arXiv:2201.07406).
Одновременно с этим любые проценты ошибки больно бьют по реальным людям. На основе таких детекторов пытаются оценивать, кто выполнял домашнюю работу, а кому сочинение писал ChatGPT. В последнее время в СМИ с примерами объясняют, почему в академической среде нельзя полагаться на такие детекторы. Исследования указали на проблему ещё раньше: в апреле 2023 года было показано, что коммерческие детекторы излишне часто реагируют на сочинения на английском от тех, для кого этот язык неродной (arXiv:2304.02819).
Впрочем, не всё потеряно: продукты этой сферы испытывают коммерческий спрос, поэтому их активно развивают. Часто для такого анализа задействуют как компаративный анализ (разнообразие лингвистических единиц, варьирование длины предложений и перплексию), так и лингвистический (повторения семантических смысловых единиц).
Авторы научной статьи по оценке «машинности» статей «Википедии» выбрали для своих целей два детектора, которые подходили по масштабу работ и точности:
-
Коммерческий детектор GPTZero. Продукт оценивает вероятность того, что текст был написан ИИ, полностью человеком или комбинацией ИИ и человеческого труда.
Поскольку это проприетарный продукт, он обладает фундаментальным недостатком: невозможно оценить методологию его работы, «подкрутить» его алгоритмы или сделать какие-то глубокие выводы о его эффективности для конкретной задачи. Конечно, на сайте GPTZero приводятся какие-то принципы работы, но без конкретики.
Изначально GPTZero поддерживал английский язык. В апреле 2024 года сервис покрыл потребности всей Северной Америки: было заявлено о поддержке испанского (второго по популярности в США после английского и основного языка Мексики) и французского, который имеет равный статус с английским в Канаде. Как пишут авторы анализа «машинности» Википедии, GPTZero в первую очередь предназначен для английского. Для текстов на других языках доля ложноотрицательных срабатываний может вырасти.
Наконец, заметный минус любого проприетарного коммерческого решения — цена. Авторы исследования суммарно потратили тысячу долларов на запросы к GPTZero. Бесплатных кредитов сервис, похоже, не давал. Научная статья за финансирование исследования благодарит лишь Адель Голдберг. Сам сервис с удовольствием цитирует исследование у себя на сайте как пример удачного применения детектора.
-
Метод Binoculars, который открыт, схема его работы хорошо известна, он используется на локально запускаемых моделях.
Брать именно Binoculars — вполне логичное и даже ожидаемое решение. В оригинальной научной статье про Binoculars в сравнении с другими продуктами заявлен хороший результат обнаружения выдачи ChatGPT на текстах из «Википедии».
Обнаружение сгенерированного ChatGPT текста в различных областях из датасета M4. По горизонтали: полнота, то есть доля положительных случаев, которые были обнаружены. По вертикали: точность, то есть сколько положительных ответов были правильными. arXiv:2401.12070 Метод Binoculars основан на оценке неожиданности единицы текста относительно предыдущего текста. Выглядит это как вычисление отношения логарифмов перплексии (показатель того, насколько строка неожиданно выглядит для модели
) и перекрёстной перплексии (насколько неожиданны предсказания токенов модели
для модели
). Метод основан на том, что сама по себе перплексия — слабый показатель «машинности» текста, её нужно сравнивать с неожиданностью для другой модели.
В реализации Binoculars для оценки «Википедии» в качестве моделей
и
брались Falcon-7B и Falcon-7B-Instruct. Выбор тоже оправдан: ссылаясь на доклад про эти БЯМ (arXiv:2311.16867), авторы анализа пишут, что среди прочего в датасет обучения моделей входили тексты из «Википедии». С другой стороны, это может вылиться в серьёзный недостаток: Binoculars даёт больше ложноположительных срабатываний в тех случаях, если «заряженные» в него модели обучались на фрагментах анализируемого текста.
Говоря проще, Binoculars укажет: конституцию США писала машина — очевидное ложное срабатывание. Так получится, поскольку исторический документ часто встречался в датасетах обучения и оттого для БЯМ предсказуем.
Для анализа были задействованы тысячи страниц «Википедии» на английском, немецком, итальянском и французском. Статьи выбирались случайно. В выборку не брали тексты короче 100 слов.
Язык |
Старые (до марта 2022 года) |
Новые (август 2024) |
---|---|---|
Английский |
2965 |
2909 |
Немецкий |
4399 |
3907 |
Итальянский |
2306 |
3003 |
Французский |
4351 |
3138 |
Для анализа команда сделала важное допущение: до марта 2022 года с помощью ИИ никто не писал, поэтому все дополнительные срабатывания в августе 2024 года — это плоды труда БЯМ. Хотя на тот момент уже существовали ныне кажущиеся примитивными БЯМ по типу GPT-2, уже 5 апреля Google выпустит PaLM, а ещё в марте (24 и 25, соответственно) были представлены SeeKeR и CODEGEN. Сами авторы анализа напоминают, что в апреле 2022 года была выпущена GPT-3.5, «докрученный» вариант которой к ноябрю начал обслуживать запросы ChatGPT.
В связи с этим возникли опасения, что старые (до марта 2022 года) страницы будут более выверенными из-за многих лет редактирований. На практике оказалось, что характеристика «большое число правок» у статьи слабо коррелирует с повышенной оценкой «машинности» текста, поэтому доля ложноположительных срабатываний у старых статей может быть даже завышена.
Нижняя граница получается по статьям, которые точно писали люди: по старым, до марта 2022. Затем этот процент вычитается из результата для статей от августа 2024 года. В общем-то, ничего нового в этом подходе нет: он уже встречался в опубликованном в мае 2024 года анализе, где таким методом выявляли частоту использования БЯМ в экспертных оценках научных публикаций (arXiv:2405.02150).
Оказалось, что из 2 909 новых статей в англоязычной «Википедии» 4,36 % (сырые 5,36 % минус 1 % ложноположительных срабатываний) содержат заметные объёмы текста, сгенерированные большими языковыми моделями. Если говорить о конкретных числах статей на английском, то GPTZero нашёл 156, Binoculars — 96. Мнения обоих детекторов совпали независимо друг от друга относительно 45 статей.
Даже простая статистика выявляет, насколько тексты от ИИ низкокачественные: в «подозреваемых» статьях мало ссылок на внешние источники. В таблице ниже сравниваются две группы: все новые статьи и только «подозреваемые». В последнем случае речь идёт о 207 статьях на английском, 174 — на французском, 249 — немецком, 206 — итальянском. Как и в остальных случаях, порог был задан так, чтобы уровень ложноположительных срабатываний составил 1 % для каждого из использованных инструментов.
Язык |
Сносок на предложение |
Внешних ссылок на слово |
||
---|---|---|---|---|
Только обнаруженные как ИИ |
Все новые статьи |
Только обнаруженные как ИИ |
Все новые статьи |
|
Английский |
0.667 |
0.972 |
0.383 |
1.77 |
Французский |
0.370 |
0.441 |
0.474 |
1.58 |
Немецкий |
0.180 |
0.211 |
0.382 |
0.754 |
Итальянский |
0.549 |
0.501 |
1.16 |
1.64 |
И Binoculars, и GPTZero соглашаются: 45 статей на английском точно писала машина. Многие из этих текстов были опубликованы одними и теми же википедистами. Большинство из этих 45 страниц были либо удалены, либо украшены плашками от модераторов, требующими добавить источники и предупреждающими читателя, что в статье может содержаться контент от больших языковых моделей.
Авторы анализа не отказали себе в удовольствии присмотреться к конкретным подробностям «машинных» статей и заглянуть в рутину функционирования «Википедии». Были выделены даже категории:
-
8 из 45 статей содержали откровенную рекламу. Часто в таких текстах источников попросту нет, кроме гиперссылки на внешний ресурс, который и рекламируется. В одном случае стояла ссылка на рекламу винодельни, и у этого видеоролика на YouTube было менее сотни просмотров. В другом рассказывалось про имение в Великобритании, где когда-то якобы жили известные личности.
Команда модерации «Википедии» активно находит и устраняет подобную рекламу.
-
Тексты от БЯМ используются в активных войнах правок. Ниже в истории вклада одного из участников «Википедии» красной рамкой выделены новые статьи, а зелёной — правки про конфликт в Дибре в первой половине XX века: «смешанные результаты» [mixed results] были исправлены на «победу».
Как видно, после нанесения поражения противнику в войне на Балканах нарушитель сел за статью про восстание в Дибре. Исторический трактат был готов уже через ¾ часа.
Даже без консультации историка очевидно, что автор правок и статей — албанский националист. Статья фокусируется на неудачах Югославии и никак не объясняет сербское или любое иное славянское присутствие на оспариваемых территориях. Действия Албании представлены как защита и сопротивление внешнему вторжению, что отражено даже в названии («восстание», хотя обычно этот конфликт называют войной) Позднее модераторы удалили статью.
-
Часть срабатываний детекторов связана с машинным переводом. В поле зрения анализа попал один из топовых участников, который переводит статьи из французского раздела на итальянский язык, но при этом предупреждает о характере своих текстов у себя в профиле.
Авторы анализа помнят, что у википедистов машинный перевод — распространённая практика, но предупреждают о простоте, с которой БЯМ вносят неточности и предвзятости (arXiv:2302.09210).
-
Наконец, некоторые википедисты прибегают к БЯМ как инструменту для письма: они десятками выдают статьи на самые разнообразные темы — от видов змей и разновидностей грибков до кухни Индии и игроков в американский футбол. В одном случае исследователи даже натолкнулись на пользователя, который, похоже, «скармливал» в БЯМ некую книгу и размещал краткое содержание каждой главы.
Уникальна ли в этом отношении «Википедия»? В рамках дополнительного исследования анализ попытался ответить даже на этот вопрос.
Логично ожидать, что политические боты будут пользоваться БЯМ. Тем не менее это не так. Авторы исследования «Википедии» скачали с Kaggle датасет комментов с политизированных подреддитов (конфликт Израиля и Палестины, мнения о двух правящих партиях в США) и выбрали оттуда 3 000 образцов.
Лишь 1 % набрал в GPTZero оценку «машинности» выше 0,500. Научная работа приводит пример комментария, вызывающего подозрения. Он наполнен разнообразными характерными для темпа рассуждений БЯМ подытоживаниями, вводными фразами вида «важно отметить, что…» и смысловыми противопоставлениями по типу «хотя…, но…». Кроме того, комментарий написан в высокопарном книжном стиле, который вряд ли характерен для обывателя. Сложно не засомневаться, что пишет человек.
Хотя признание символического отказа от двухпартийной системы понятно, спор здесь заключается в практических последствиях голосования за третью партию. Крайне важно понять, что призыв голосовать за третью партию — это не только символический акт, но и стратегический шаг к более разнообразному политическому ландшафту со временем. Этот аргумент заключается в том, что голосование за кого-либо, кроме Байдена, увеличивает шансы Трампа на победу. Однако эта точка зрения предполагает бинарный результат, игнорируя возможное долгосрочное воздействие продвижения альтернативных голосов. Переход к многопартийной системе — это постепенный процесс, и для того, чтобы способствовать этому изменению, избиратели должны делать выбор, соответствующий их принципам. Более того, характеристика выбора между «скучным умеренным демократом» и «крайне коррумпированным, авторитарным республиканцем» как вопроса с высокими ставками подчёркивает необходимость более широких политических опций. Поддержка третьих партий сейчас может проложить путь к более представительной демократии в будущем, где избиратели не будут ограничены выбором наименьшего из двух зол. Хотя нынешние выборы могут казаться вопросом с высокими ставками, важно учитывать долгосрочную цель разрушения дуополии ради более здоровой демократии. Голоса за третью партию, вместо того чтобы быть просто протестами, могут быть стратегическими шагами к этим трансформативным изменениям.
Напротив, на удивление много «машинных» текстов оказалось среди пресс-релизов ООН. В 2024 году их было 20 %, в 2023 — 12,5 %, а для 2022 года детектору GPTZero не понравились всего 1,6 % пресс-релизов. Авторы исследования про «Википедию» для этих целей сравнили 8 326 пресс-релизов с 2013 по 2024 года от 60 команд ООН, которые регулярно размещают на подсайте вида {страна}.un.org обновления о своём государстве.
Рост «машинности» пресс-релизов ООН легко списать на автоматизированный перевод. Однако многие из авторов этих текстов имеют учёные степени вузов англоговорящих стран. В приложении научной статьи приводятся три таких проблемных пресс-релиза Белиза, Бангладеш и Туркменистана.
Препринт научной статьи «The Rise of AI-Generated Content in Wikipedia» опубликован на сайте препринтов arXiv.org (arXiv:2410.08044).
«Википедия» — далеко не исключение: тексты от нейросетей изменили весь Веб. Система антиплагиата Originality.ai ведёт статистику, согласно которой почти каждый пятый сайт содержит творчество БЯМ.
На регулярно обновляемом графике заметен стабильный рост после открытия ChatGPT в конце 2022 года и релиза семейства моделей GPT-4 в начале 2024. Наиболее заметный скачок произошёл после обновления поисковой машины Google в марте прошлого года. Сейчас 19,1 % сайтов из топ-20 поисковой выдачи Google содержат контент от БЯМ. «Википедия» на этом фоне со своими 4–5 % выглядит очень пристойно.

Даже если наплевать на качество жизни людей, не стоит забывать: обучение БЯМ на контенте от других БЯМ ведёт к коллапсу, делает тексты более предсказуемыми (arXiv:2305.17493). Именно из-за загрязнения датасетов какая-нибудь Llama может представляться продуктом ChatGPT от OpenAI.
К сожалению, Интернет навсегда и безвозвратно поделился на два периода: до 2022 года, когда тексты писали только люди, и после, когда приходится сомневаться и перепроверять любой факт.
Автор: atomlib