Проверка на сгенерированный контент — опасность для академической сферы

в 14:29, , рубрики: llm, высшее образование, высшее учебное заведение, плагиат, Регулирование, этика ии

В чем проблема?

Я думаю, что всем уже очевидно, что развитие технологий в области генерации текста существенно повлияло на образовательный процесс. Не секрет, что большинство студентов активно используют LLM для создания письменных работ. По итогам опроса в мае 2024 года более половины студентов признались в использовании ИИ при подготовке дипломных работ. По моим личным ощущениям как практикующего преподавателя, процент может быть существенно выше, ближе к 100.

Негативное влияние злоупотребления генеративным ИИ в учебном процессе можно разделить на кратковременные и долгосрочные. Кратковременный эффект очевиден: студент, автоматизируя свой собственный труд не формирует необходимые компетенции. Другими словами: проще в обучении, тяжелее в бою. Одно дело - погрузиться в предмет, перерыть литературу, пропустить через себя, сделать вывод, написать работу. Другое - обойти все рутинные операции. 

Сам по себе замечаю, если я пишу код с помощью нейросети, я сам не понимаю детали решения и подходов, которые в этом коде содержатся. В моменте я могу решить задачу быстрее и эффективнее. Но после этого в голове не останется такого глубокого понимания. Даже удовлетворения от проделанной работы меньше. об этом эффекте уже писали в случае программирования. Но в других предметных областях все точно также.

Долгосрочные последствия менее заметны, но более разрушительны. Именно об этом недавно объявили Microsoft в своем исследовании. Те, кто систематически полагаются на ИИ (среди работников умственного труда) демонстрируют снижение общих когнитивных способностей, критического мышления.

Подождите бросать в меня камни. Нельзя же всерьез утверждать, что генеративный ИИ является злом для человечества и завтра низведет на обратно в каменный век идиократии  путем стремительного отупения человечества. ИИ не просто так сейчас внедряется везде. Он действительно помогает решать насущные задачи. Он может помочь систематизировать информацию. Он неплохо обобщает и выжимает большие объемы информации. Он полезен.

LLM - новый калькулятор, Интернет, Википедия?

Несколько веков назад математик - это был тот, кто хорошо считает. Для занятий точными науками было необходимо производить большое количество арифметических операций. Если ты умеешь быстро это делать в уме - ты быстрее работаешь, чем тот, кто считает в столбик, а значит, достигнешь больших результатов. А как устный счет развивает когнитивные способности! Вспомните знаменитую картину.

Прошло время. Человечество изобрело счеты, логарифмическую линейку, калькулятор и компьютер. Для занятий математикой уже не обязательно быстро считать. Теперь говорят, что надо обладать абстрактным мышлением и воображением. Конечно, если измерять интеллект способностью перемножать в уме многозначные числа, человек деградировал фантастически.

Но мы как-то привыкли к мысли, что это не так. Просто изменились обстоятельства, прогресс вывел на передний план немного другие когнитивные навыки. Иные отправились на свалку истории. Теперь мы не тренируемся считать устно просто потому, что достать калькулятор (в телефоне) и посчитать быстрее, точнее и надежнее.

Так может быть, те навыки, которые сейчас автоматизирует генеративный ИИ тоже просто устареют со временем? Можно вообразить фантастический мир будущего, где всю работу по поиску, анализу, сопоставлению и реферированию информации за нас выполняют LLM, а человеку останется лишь… Ну я не знаю, творить, поглощать плоды работы машин, лежать под пальмой и жевать бананы? Найдет, чем заниматься.

Но вернемся в реальность. Последнее дело - отгораживаться от прогресса, каким бы пугающим он не был. Надо как-то приспосабливаться.

Какие подходы к решению предлагаются?

Сейчас в среде преподавателей и администраций вузов идет бурная дискуссия в связи с развитием генеративного искусственного интеллекта, а именно - использования таких моделей в образовательном процессе. Конкретнее - как относится к тому, что студент, ученики используют различные, в частности лингвистические, модели для написания всяких письменных работ? В первую очередь, конечно, имеются в виду ВКР, дипломные работы. Но уже понятно, что общий подход и регулирование, если оно необходимо, должно основываться на едином отношении к использованию ИИ для любых образовательных работ - от текущих заданий, рефератов и эссе до курсовых, дипломных и даже диссертационных работ.

Одним из основополагающих документов в этой сфере является национальный Кодекс этики в сфере искусственного интеллекта, разработанный и обновляемый Альянсом ИИ, куда входят все крупнейшие разработчики и пользователи систем искусственного интеллекта в России. Кроме самого Кодекса, который содержит самые общие принципы и определения (и он в целом носит достаточно высокоуровневый и концептуальный характер), разрабатываются отраслевые приложения к нему - декларации или кодексы, которые определяют общую политику по отношению к ИИ в разных сферах - финансовой, юридической, сфере здравоохранения и других. Есть проект такой декларации и в сфере образования.

На основании Кодека, приложений, а также исходя их собственного видения и политики разные вузы разрабатывают, принимают и используют собственные политики и регламенты использования ИИ в образовательном процессе. Публично доступные политики в области ИИ, именно как отдельный документ, имеют, например, ВШЭ, ТГУ, СпбГУ, МГПУ, Сколтех.

Такой регламент сейчас разрабатывает и Финансовый университет. На данный момент идет анализ и обобщение опыта других образовательных организаций, как российских, так и зарубежных, внутренние обсуждения на уровне кафедр, факультетов и администрации университета.

Сейчас перед вузами, да и перед всей системой образования в целом стоит серьезный вызов - как адекватно отреагировать на изменение внешних условий? Как защитить качество образования и процесс формирования компетенций у студентов? Могу предположить, что организации, которые смогут эффективно инкорпорировать новые инструменты в образовательный процесс, получат огромное преимущество, как в качестве образования, так и в репутации.

Почему нельзя полагаться на антиплагиат?

Одно из очевидных консервативных решений, которое лежит на поверхности - положиться на технические средства проверки контента. Здесь неявно подразумевается в первую очередь именно текст, так как он составляет наибольшую объемную долю письменных работ в вузах. Хотя, например, для ИТ-специальностей остро стоит и вопрос генерации программного кода.

Система Антиплагиат уже вовсю интегрировала модуль проверки на сгенерированный текст. По их заявлениям, процент ошибок при распознавании не превышает 1%. Хотя, технические детали как самого алгоритма, так и методологии проверки и верификации неизвестны. А вот по сообщениям пользователей - проверку легко обойти на уровне небольшой модификации промта.

Уже существуют системы и советы, как обойти эту проверку. Все это напоминает гонку вооружений, связанную в проверкой на, собственно, плагиат. Вузи и проверяющие компании создают систему проверки, студенты и другие компании - способы обхода, первые - способы защиты от обхода и так далее. Не ждет ли нас новый виток такой гонки, но уже с фокусом на генерацию текста? Однозначно, да. На уровне заявлений уже просматривается запрос на такие обходы, например.

Также Сбер создал сервис для проверки сгенерированного текста. Их заявленная точность скромнее - порядка 95%. Но методика проверки также неизвестна. Есть подозрение, что оценка точности модели оценивалась по имеющимся статичным корпусам текстов. В таком случае, при промышленной эксплуатации таких моделей, когда со стороны “авторов” будет активное сопротивление, точность наверняка будет серьезно ниже. Возможно, на порядки.

Вот тут, кстати, есть неутешительные выводы относительно работы подобных проверок на достаточно простых примерах.

Почему проверка на плагиат - ок, а на нейросети - не ок?

С автоматической проверкой текста на сгенерированность есть несколько принципиальных проблем. Первая - самая сложная - методологическая. Так как проверка идет на текст, сгенерированный большой лингвистической моделью, она может основываться на двух разных принципах. 

Первый - определить результат работы нейросети может другая нейросеть, большей мощности. Учитывая огромные затраты на создание и обучение самих лингвистических моделей, строить такие дискриминаторы будет на порядок сложнее и дороже. Другими словами - построить генератор всегда легче и дешевле, чем дискриминатор. А это значит, что в долгосрочной перспективе генераторы всегда будут на шаг впереди. И такие дискриминаторы, несмотря на необходимость привлечения огромных ресурсов на их создание, будут неэффективны.

Другой путь - анализировать более простые (более простые по сравнению с порядком сложности ЛЛМ, а не простые вообще) статистические характеристики текста - частоты слов и словосочетаний, типичные речевые обороты, обезличенность, другие, менее очевидные паттерны текста. Именно так и работают существующие системы проверки. Они полагаются на известные, исследованные характеристики текстов, существенно отличающиеся от таковых в естественных текстах. 

Здесь проблема отставания дискриминатора от генератора еще более острая. Как мы видели в примерах выше, проверка может быть обманута не только разработкой (даже не с нуля, а файн-тюном существующих моделей, что сильно дешевле) специальных генеративных моделей, которые нарушают имеющиеся паттерны, на которых основывается проверка. Проверка может быть обманута на уровне промт-инжиниринга. Плюс, нет никакой гарантии, что новые версии LLM, которые постоянно разрабатываются и инкрементно улучшаются, будут демонстрировать те же статистические паттерны. В каждом случае понадобится отдельная верификация работоспособности системы проверки на новой модели или новой версии существующей.

Есть, правда, и третий путь - эксплуатация бекдоров в самих LLM. Технически, возможно встроить в генеративную модель специальный отпечаток, fingerprint, которые незаметно человеческому восприятию меняет статистические характеристики распределения различных токенов. Примеры: раз, два. И по такому отпечатку можно довольно робастно идентифицировать не только факт, что текст является сгенерированным, но и указать, какой именно моделью, и какой версией. Это такой аналог текстовой стеганографии.

Проблема с этим подходом в доверии и раскрытии информации. Подобные бекдоры должны внедряться в генеративную модель на этапе разработки, то есть компанием-создетельницей модели. При этом содержание и правила построения фингерпринта должны оставаться конфиденциальными, так как их огласка тут же девальвирует их верифицирующую силу. Соответственно, использование подобных технических механизмов должно основываться на конфиденциальном соглашении между разработчиком генеративной модели и разработчиком системы проверки.

Но пока работает-то можно?

Вторая главная проблема проверки на сгенерированной - как ни странно - излишнее доверие к техническим системам. Мы уже проходили это при проверке на антиплагиат. Система делает ошибки, это неизбежно. Всем знаком термин “техническое заимствование”. Это когда в “плагиат” записывается, например, список литературы. Система может среагировать на цитаты, код, типичные обороты, формальные элементы работы (титульный лист, реквизиты, и так далее). Да, системы проверки постоянно совершенствуются, но факт остается фактом: результат проверки - не догма, не приговор, а лишь поддержка принятия решения.

При этом, например, сами представители компании Антиплагиат это прекрасно понимают и транслируют именно такое позиционирование собственной системы - как лишь рекомендательную систему для последующей экспертной проверки (см. например, методические рекомендации, стр. 29, FAQ). 

Проблема в том, что на практике эти справедливые рекомендации не выполняются. Гораздо проще относится к результатам проверки формально. Более того, зачастую результаты проверки на антиплагиат, “процент оригинальности”, просачивается как критерий в локальные нормативные акты образовательных организаций. Это заставляет всю систему подготовки письменных работ ориентироваться именно на прохождение проверки на антиплагиате, вместо прохождения компетентностных критериев. 

В средней кандидатской диссертации может быть двести страниц. В дипломной работе - порядка сотни. Это тысяч  предложений, десятки тысяч слов. Если принять 95%-ю оценку точности дискриминатора (а это очень оптимистично), тысячи токенов в такой работе будут классифицированы неверно. А фразу “в диссертации Иванова найден плагиат” очень легко написать, но сложно стереть. А если это будет в научной новизне? А если в пунктах, выносимых на защиту? На кону репутации.

Ключевое отличие проверки на заимствования и проверки на генерацию - верифицируемость. Система определения заимствования может ошибиться. Но и проверить это легко. Достаточно предъявить оригинал и сличить. Любой человек это может сделать. Но даже в этом случае такой процедуры не происходит. Проще сказать “у тебя 85% оригинальности, доведи до 90%”, чем обосновывать, что заимствования технические, либо это цитаты, либо что-то еще. 

То есть даже в простом случае, при возможности относительно простой проверки, мы полагаемся на вердикт системы, апеллируем к нему, основываем на нем свои решения. Что же будет при проверке на нейросеть, когда проверить эту проверку принципиально невозможно? У нас есть лишь мнение системы, машины, которая отметила какой-то контент как сгенерированный. 

А что насчет корректуры?

Да, я же еще вообще не затрагивал тот факт, что использовать генеративные модели вообще-то можно сильно разными способами. Можно задать промпт “Напиши мне дипломную работу на тему…” и бездумно вставить результат в ворд. (Так, кстати, не работает, но ладно)

Можно попросить модель составить план работы, а дальше сам. Можно попросить подобрать источники. Можно использовать выжимку из нескольких книг, составленную моделью. Можно писать отдельные главы. Можно просить сделать выводы, обобщить материал. Можно при помощи ГИИ написать только введение и заключение. А можно наоборот - только их и написать руками.

А можно сделать еще хитрее. Спланировать, выполнить и написать всю работу самостоятельно. А потом попросить модель исправить ошибки, и придать строгого научного стиля. Это мой текст, я его выдумал. Но формально, это полностью сгенерированный контент. На 100%. Справедливо ли это?

Или наоборот. Полностью сгенерировать работу от начала до конца, а потом заняться ручным (возможно наемным) рерайтингом - скурпулезно переписать каждую мысль своим корявым человеческим языком. так мы получим полностью оригинальную работу. Справедливо?

Что делать?

Ну уж точно нельзя впадать в крайности - полностью запрещать, или просто махнуть рукой: “да пусть делают что хотят, формальный результат-то есть, отчитаться можно”. 

Что меня очень порадовало, когда мы анализировали практики других вузов - так это совершенно полное отсутствие настроения “все запретить”. Можно сказать, что даже весьма консервативные организации понимают абсурдность таких запретов (и, главное, абсолютную невыполнимость).

Бросать на произвол судьбы формирование индивидуальных компетенций тоже не хочется. Мне вот, как работнику ИТ-образования как-то не комфортно будет выпускать специалистов, про которых скажут, что они без ChatGPT ни строчки не напишут (ссылка на Гоэля была в третьем абзаце). 

Многие сейчас идут по пути этического регулирования, а именно рекомендаций, как именно можно применять ИИ, а как - нельзя. Ну, например, посоветовать список публикаций по теме - ок, а вот написать выводы - не ок. Это сильно лучше огульного подхода, но, опять же встает вопрос контроля: а как проверить, как доказать?

Гораздо продуктивнее пересматривать критерии оценивания. Ставить оценку не за факт выполнения, написания чего бы то ни было, а за знания и понимания. Сейчас мы возвращаемся к практике устных экзаменов вместо письменных, устных отчетов вместо тестов и заданий на почту преподавателю. Времени и сил только очень много уходит, но куда деваться. 

Или вот совсем страшная кара для студента - экзамен в режиме live-кодинга. Тут все вот эти ИИ-джуны как на ладони. Так и до ручек с тетрадками и рукописных конспектов лекции докатимся, ужас какой!

А можно вернуться в наш прекрасный фантастический мир и заявить еще более радикально: а может вообще, ну их, эти ВКРки? Ну все же понимают, количество страниц текста окончательно перестало быть мерилом затраченных усилий и, как говорят у нас, “объема выполненной работы”. 

Требовать от студента 90 страниц пояснительной записки к дипломной работе (которую и раньше-то мало кто читал, а теперь ее, как правило, никто и не пишет) - это как давать кандидата физ.-мат. наук за то, что запомнил миллион знаков числа пи. Достижение значительное, конечно, но смысл-то не в этом.

PS: данный текст полностью сгенерирован естественной нейросетью, точные технические характеристики которой, неизвестны автору.

Автор: seiros

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js