В Google попытались создать чат-бота, максимально похожего на человека. Результатом разработок стала Meena — модель, работающая на основе нейросетей. По оценке Google, чат-бот способен достигнуть большей «человечности» в беседе по сравнению с другими моделями.
Как пишут Дэниел Адивардана, старший инженер, и Тханг Луонг, старший научный сотрудник отдела исследований Google Brain Team, у большинства современных чат-ботов есть критический недостаток — отсутствие смысла в высказываниях. Иногда они говорят то, что не соответствует сказанному ранее, им может не хватать базовых знаний о мире. Кроме того, чат-боты часто дают ответы, которые нельзя назвать конкретными. Например, «я не знаю» — разумный ответ на любой вопрос, но он не конкретен. Также чат-боты нередко бывают узкоспециализированными: они работают хорошо, пока пользователи не отклоняются от ожидаемого курса беседы.
В последнее время разработчики пытаются создать чат-бота, который смог бы общаться практически обо всем. Такой бот мог бы использоваться для улучшения интерфейса электронных устройств, помочь в изучении иностранных языков и создавать более «живых» персонажей видеоигр.
«Мы представляем Meena, диалоговую модель на основе нейросетей. Meena может вести более разумные и конкретные беседы, чем существующие современные чат-боты», — пишут в Google.
В основе Meena лежит архитектура Evolved Transformer seq2seq. Meena работает с помощью одного блока кодера Evolved Transformer и 13 блоков декодера Evolved Transformer. Кодер отвечает за обработку контекста разговора, чтобы Meena могла понять смысл сказанного. Затем декодер использует эту информацию для формулирования ответа.
«Мы обнаружили, что мощный декодер является ключом к более высокому качеству разговора», — указывают в Google.
Модель Meena имеет 2,6 млрд параметров и обучалась на 341 Гб текста. По сравнению другой известной моделью, OpenAI GPT-2, у Meena в 1,7 раза больше параметров, а объём данных для её обучения больше в 8,5 раз.
Как пишут в Google, существующие оценки качества чат-бота, как правило, малоэффективны из-за их сложности и несогласованности. Это побудило компанию разработать новую метрику оценки под названием Sensibleness and Specificity Average (SSA), которая фиксирует основные атрибуты общения бота с людьми.
«Чтобы вычислить SSA, мы общаемся с несколькими чат-ботами — Meena и другими известными ботами, в частности, Mitsuku, Cleverbot, XiaoIce и DialoGPT. Чтобы обеспечить согласованность оценок, каждый разговор начинается одинаково — с приветствия. Каждый ответ оценивается по двум параметрам — осмысленность и конкретность. Если ответ кажется неправильным (запутанным, нелогичным или фактически неверным), он оценивается как не имеющий смысла», — указано в блоге.
Если ответ проходит по критерию осмысленности, то дальше высказывание оценивается как конкретное или нет. Например, если собеседник говорит «Я люблю теннис», а бот отвечает «Это хорошо», то ответ помечается как неконкретный, так как такой ответ можно использовать в десятках различных контекстов. Но если бот отвечает «Я тоже, я обожаю Роджера Федерера!», то такой ответ помечается как конкретный, поскольку он тесно связан с предметом обсуждения. В итоге чувствительность чат-бота (Sensibleness) складывается из доли ответов, помеченных как «разумные», а специфичность (Specificity) — из ответов, помеченных как «конкретные». Среднее из этих двух — оценка SSA.
Кроме того, в оценке Meena использовался такой параметр, как недоумение (Perplexity), автоматическая метрика, доступная для любой модели нейросети, измеряющая неопределенность языковой модели. Чем ниже этот показатель, тем больше уверенности в том, что модель сгенерирует свой ответ правильно, и тем выше оказывается показатель SSA. У Meena показатель недоумения равен 10,2, что соответствует SSA в 72%. Оценка SSA человека, как утверждает Google, составляет в среднем 86%.
«Хотя мы сосредоточились исключительно на осмысленности ответов бота, другие атрибуты, такие как «личность» модели и соответствие её ответов фактам, также заслуживают внимания в последующих разработках. Ещё одно ключевое направление работы — решение проблем безопасности и предвзятости чатботов. Учитывая сложности, связанные с этим, мы пока не выпускаем демонстрационную версию Meena для внешних исследований. Однако она будет доступна в ближайшие месяцы», — обещают в Google.
Автор: AnnieBronson