ИИ датских разработчиков вычисляет школьников, заказывающих домашние работы в Сети

2019-05-31 в 7:14, admin, рубрики: анализ текста, искусственный интеллект, машинное обучение, работа с текстовыми данными, установление авторства

ИИ датских разработчиков вычисляет школьников, заказывающих домашние работы в Сети - 1

Исследовательская группа Копенгагенского университета сообщила о результатах тестирования новой нейросети Ghostwriter. Разработанный учеными алгоритм искусственного интеллекта анализирует тексты письменных работ, которые сдают учителям школьники, чтобы установить авторство и выявить тех, кто прибегает к услугам текстовых бирж.

Проблема с заказными работами в Дании обостряется с каждым годом: сейчас, когда в интернете появились специализированные платформы для подбора исполнителя, систему пытается обмануть все больше и больше школьников. Существующие решения — например, сервис Lectio — распознают только прямой плагиат. Несколько лет назад сотрудники Копенгагенского университета стали работать над технологиями для более тщательной проверки подлинности работ.

Чтобы научить нейросеть выделять базовые черты авторского стиля, исследователи использовали 130 000 работ от 10 000 студентов из архивов университета. При анализе текста Ghostwriter учитывает такие характеристики, как сложность лексики, структура предложений, синонимы, которым отдается предпочтение (скажем, ex. или e.g. для обозначения примеров). Для сопоставления привлекаются письменные работы, которые ученик сдавал в прошлом. На данный момент программа выявляет тексты, написанные чужими руками, с точностью в 90%.

У критиков разработки вызывает беспокойство тот факт, что при текущем уровне точности регулярно будут возникать ошибки первого рода — иными словами, жертвами несовершенства системы могут стать добросовестные школьники. Однако создатели нейросети намерены принять меры, чтобы предотвратить ложные обвинения. Помимо стилистических характеристик текста будут учитываться и другие факторы, например, сроки, в которые была сдана работа. На основании всей информации о том, насколько стиль написания и сопутствующие обстоятельства отличаются от сложившегося индивидуального стандарта, система будет рассчитывать процент вероятности подлога.

«Полагаю, вполне разумно предположить, что через некоторое время нейросеть начнет применяться при обучении старших классов. Но прежде чем это случится, необходимо обсудить этические проблемы, связанные с внедрением технологии. Результаты, которые выдает система, должны не рассматриваться в изоляции, а подтверждать и обосновывать подозрения в нечестности ученика», — комментирует Стефан Лоренцен, аспирант университета, задействованный в проекте.

Авторы выражают надежду, что со временем разработка найдет применение и за стенами школ. В частности, она может оказаться полезна в криминалистике для установления авторства анонимных текстов или выявления фальшивых документов. Кроме того, разработчики также пробовали использовать ее для анализа твиттеров знаменитостей, определяя, какие из них ведутся PR-командами.

Автор: nanton

Источник