Специалисты Массачусетского технологического института заметили, что сотрудники платформ, которые размечают данные для обучения искусственного интеллекта, задействуют для этого опять же искусственный интеллект. Чтобы оценить масштаб явления, они подрядили 44 пользователя, подрабатывавших разметкой данных на Amazon Mechanical Turk, и заставили их писать краткие пересказы медицинских исследований.
Потом их работу проанализировали с помощью алгоритма, который умеет находить следы работы ChatGPT, а также посмотрели логи нажатий сотрудниками на клавиатуру и использование горячих клавиш "копипейста".
Выяснилось, что "от 33% до 46%" сотрудников использовали решения типа ChatGPT.
Это усугубляет уже замеченную проблему: большие языковые модели генерируют некачественный контент и сами на нём же обучаются. Этой проблеме тоже посвящены исследования: искусственный интеллект попадает в порочный круг собственных ошибок, что приводит к "коллапсу модели". Краудсорсинговые платформы типа Mechanical Turk или яндексовской "Толоки" должны были помочь с решением этой проблемы с помощью участия людей на стадии отбора и разметки данных для обучения.
.card {
font-family: "Fira Sans","Helvetica Neue",Helvetica,Roboto,Arial,sans-serif;
background-color: #eee;
padding: 1rem;
}