Сможет ли компьютер понимать сарказм?
С 2005 года на обратной стороне обложки каждого номера New Yorker публикуется любительская карикатура без слов. За минувшее десятилетие конкурс стал ужасно популярным среди читателей. Еженедельно в редакцию присылают около 5000 работ. Главный редактор отдела карикатур Боб Манкофф (Bob Mankoff) говорит, что такой поток юмора выжигает
Отбором карикатур занимаются помощники Манкоффа, и ни один из них не удержался на этой работе больше, чем пару лет: «Их разум обычно разрушается за два года, и тогда я беру нового помощника», — сокрушается 71-летний главред.
К счастью, скоро помощники Боба вздохнут с облегчением: им на помощь приходит Искусственный интеллект с чувством юмора — разработка компании Microsoft.
Сарказм, игра слов и другие элементы юмора считаются одной из самых сложных задач для компьютерных систем ИИ. Но в Microsoft Research взялись за решение этой задачи. Руководство активно поддержало проект, важный для развития программы Skype Translator, которая переводит речь собеседников в реальном времени с одного языка на другой.
В Microsoft Research сначала формализовали правила, делающие карикатуру смешной. Затем в архиве нашли пары почти одинаковых карикатур, из которых одна была смешнее, чем другая. Пары проанализировали и определили существенные отличия, которые влияли на «уровень юмористичности». Для каждой картинки вручную прописали теги из двух категорий: контекст и аномалии (здесь помог краудсорсинговый сервис Mechanical Turk).
Пример карикатуры New Yorker с тегами, которые поставила программа
Затем построили классификатор, который смог автоматически определять более смешную карикатуру в паре. Классификатор давал верные ответы в 69% случаев в парах картинок на одну тему и в 64% случаев в произвольных парах. В конце концов, классификатор запустили на полной базе, чтобы найти самые смешные карикатуры среди всех — и значительно снизить нагрузку на судей из редакции.
Хотя ИИ не идеален, но Манкофф впечатлился его работой. Тесты показали, что все выборы лучших карикатур, сделанные редакторами, попадают в 55,8% самых смешных карикатур по версии ИИ. Это означает, что можно сразу автоматически отсеять 44,2% карикатур, то есть около 2200 штук в неделю — существенное облегчение для редакторов.
Результаты своей работы исследователи из Microsoft Research представят 13 августа на конференции KDD по обработке данных в Сиднее.
Автор: alizar