Википедия – это онлайн-энциклопедия, в которую кто угодно может вносить изменения. Что касается краудсорсинга, то создание некоммерческого сайта энциклопедии навсегда изменило процесс поиска информации пользователями. Википедия входит в десятку наиболее посещаемых сайтов Интернета, придя на замену тяжелым томам огромных энциклопедий. Но и у нее есть свои минусы. Если каждый может вносить изменения в Википедию, то кто угодно может и ошибочно добавить неверную информацию. И кто угодно может навредить сайту, добавляя ошибочные данные преднамеренно. Аэрон Хэлфэкер (Aaron Halfaker), американский ученый в компьютерной области, который работает в Wikimedia Foundation (этой организации и принадлежит Википедия), создал собственную систему ИИ для выявления подобных актов вандализма.
«Оказалось, что львиная доля вандализма не является чем-то остроумным».
В каком-то смысле это означает облегчение работы для редакторов-волонтеров, которые проверяют статьи Википедии. И это может показаться еще одним шагом к тому, чтобы отказаться от услуг этих редакторов (очередной пример того, как ИИ может заменить работу человека). Но проект Халфэкера скорее является попыткой увеличить человеческий вклад в строительство Википедии. И пока одни люди предсказывают, что ИИ и робототехника заменят 47% человеческого труда в следующие 20 лет, другие уверены в том, что ИИ также создаст новые специальность для обслуживания подобных систем. Этот же проект – по меньшей мере небольшой пример такой тенденции.
«Этот проект является попыткой снова привлечь труд человека, чтобы задействовать внимание человека там, где оно необходимо», – говорит Дарио Тараборелли (Dario Taraborelli), глава по исследованиям в Wikimedia.
Не спугните новичков
В прошлом, если вы пытались внести изменения в одну из важных статей Википедии, то нередко вам приходил автоматический ответ с отказом. Система не позволяла принимать участие в создании энциклопедии, если пользователи не следовали четким правилам, и по итогам исследования Халфэкера и других ученых это стало причиной того, что множество людей отказались от идеи редактировать Википедию (а они могли бы стать постоянными ее редакторами). А исследования 2009 показали, что уже через восемь лет после запуска проекта люди начали все меньше принимать в нем участие.
«Это потому, что новички не остаются с нами», — говорит Халфэкер. — По сути, в Википедии мы променяли тот опыт, который могли бы получить новые редакторы энциклопедии, на эффективность борьбы с вандалами и нежелательными людьми, приходящими в сервис».
В вопросе этого ИИ-проекта Objective Revision Evaluation Service или ORES вторит мнению господина Халфэкера, считая, что его главной целью является именно сделать Википедию более приятной для редакторов-новичков и привлечь людей к тому, чтобы они активнее принимали участие в жизни Википедии. Используя набор алгоритмов машинного обучения с открытым кодом под названием SciKit Learn (бесплатный код, доступный каждому), сервис надеется автоматически распознавать явный вандализм и отделять его от тех изменений, которые были сделаны из добрых побуждений. При более детальном знакомстве с внесенными изменениями эти алгоритмы могли бы идентифицировать вандалов без отпугивания потенциальных активных участников. Это не значит, что Википедии нужны автоматизированные инструменты для привлечения большего числа редакторов. Суть в том, что Википедия нуждается в лучших автоматизированных инструментах.
«Наш подход должен быть иным в зависимости от того, были ли изменения совершены из добрых либо злых побуждений», – говорит Халфэкер, который использовал Википедию в качестве темы для своей докторской диссертации на кафедре компьютерных наук в университете Миннесоты.
Если смотреть глобально, то ИИ-алгоритмы являются лишь простыми примерами машинного обучения. Но они могут быть весьма эффективны. Их работа заключается в распознавании определенных слов или комбинаций определенных слов, или конкретных схем расположения клавиш. К примеру, они могут зафиксировать непривычно большие блоки символов. «Вандалы имеют тенденцию к тому, чтобы набирать все подряд вперемежку без пробелов», – говорит Халфэкер.
Он признает, что в настоящее время сервис не в состоянии выявить каждый акт вандализма на сайте, но он надеется найти большинство из них. «С такими стратегиями мы не можем отследить хорошо написанный вздор. Но оказывается, что львиная доля актов вандализма не отличается оригинальностью».
Статьи в Википедии, которые сами себя пишут?
Тем временем такие гиганты, как Google, Facebook, Microsoft и иже с ними занимаются разработкой новых технологий машинного обучения, известного как глубокое обучение. Используя нейронные сети – сети машин, которые подобны сети нейронов человеческого
Используя эти же алгоритмы, ученые начинают разрабатывать системы, которые распознают естественный язык – то, как люди говорят и пишут каждый день. «Скармливая» таким сетям тонны диалогов, можно научить машины поддерживать разговор. Если же дать им ознакомиться с огромным множеством новостных постов, то можно научить машины самостоятельно писать статьи (правда, до этого момента еще далеко). И это может быть одним из факторов, определяющих то будущее, в котором машины смогут сами редактировать Википедию.
Халфэкер уверен, что до такого будущего нам еще очень далеко. И даже если оно придет, то, по его словам, Википедия все равно будет нуждаться в людях, которые могли бы направлять эти сети. «Я не уверен, что когда-нибудь настанут времена, когда машины могут превзойти мнение человека – или они настанут не так скоро», — говорит он. — Но даже в этом случае мы все равно хотим, чтобы человеческое мнение было частью этого процесса». И поэтому он создал ИИ-сервис, который может увеличить армию редакторов Википедии.
Он и Wikimedia Foundation не внедряют эти алгоритмы, предлагая их в качестве онлайн-сервиса, который может быть использован более широким сообществом Википедии. «Мы упростили возможность экспериментировать и критиковать алгоритмы» — рассказывает Халфэкер. — Мы хотим создать диалог, чтобы это способствовало нашему продвижению к тому будущему, в котором мы справляемся с новым контентом, используя новые методы и сотрудничая с новыми редакторами». Это ИИ. Но, опять же – это вполне соответствует «человеческим» принципам.
Автор: frekenbok