«Брендометр» Airbnb: автоматизация оценки восприятия бренда в социальных сетях с помощью ИИ

2024-12-23 в 12:10, admin, рубрики: airbnb, natural language understanding, nlu, искусственный интеллект

Эта статья посвящена тому, как в Airbnb, пользуясь технологиями глубокого обучения, вычисляют показатели восприятия бренда на основе данных, полученных из социальных сетей.

«Брендометр» Airbnb: автоматизация оценки восприятия бренда в социальных сетях с помощью ИИ - 1

В Airbnb разработана система, получившая название «Brandometer» («Брендометр»). Это —современнейший инструмент, основанный на технологиях понимания естественного языка (Natural Language Understanding, NLU). Он позволяет компании получать сведения о восприятии бренда на основе данных, загружаемых из социальных сетей.

Восприятие бренда — это совокупность впечатлений и опыта, которые клиенты получают, взаимодействуя с компанией. Количественное выражение «восприятия бренда» — это чрезвычайно сложная задача. Традиционно мы, для того, чтобы узнать о том, что о нас думают люди, полагаемся на опросы клиентов. Исследование, основанное на качественных показателях, имеет ряд недостатков. Среди них — необъективность выборки и ограниченность масштаба исследуемых данных. С другой стороны — социальные сети представляют собой самую большую в мире базу данных со сведениями о клиентах компаний, в которой они делятся опытом с другими людьми. Социальные сети — это идеальное хранилище дополнительной информации о клиентах, позволяющее находить сведения о том, как они воспринимают бренды.

«Брендометр» изучает векторные представления слов (эмбеддинги). Система использует расстояния между эмбеддингами для измерения того, как восприятие бренда (слова Airbnb) связано с некоторыми другими словами (например — belonging, connected, reliable). Эмбеддинги слов представляют слова в форме векторов с вещественными значениями. Эмбеддинги отлично справляются с задачами сохранения семантического смысла слов и определения того, насколько одни слова связаны с другими. Эмбеддинги слов, полученные из глубоких нейронных сетей — это, пожалуй, самый популярный и прогрессивный инструмент, используемый сегодня в NLU. Мы исследовали эмбеддинги самых разных моделей — от типовых Word2Vec и FastText, до новейшей языковой модели DeBERTa. Далее — мы сравнили их возможности, связанные с выдачей надёжных показателей восприятия бренда.

Анализируя понятия, представленные в виде слов, мы используем показатель сходства эмбеддингов этих слов и слова Airbnb. Это позволяет нам оценить то, насколько сильно некая концепция связана с брендом Airbnb. Результат измерения выражается в виде показателя, который мы назвали Perception Score (оценка восприятия). Значение показателя восприятия бренда представляет собой косинусное сходство между словом Airbnb и интересующим нас ключевым словом:

https://miro.medium.com/v2/resize:fit:301/1*fGrdGlIidRgdt6jT0XavYg.gif — Формула 1

где

https://miro.medium.com/v2/resize:fit:331/1*cB95joQHnMYOsbcrrIWLMQ.gif

В этом материале мы расскажем о нашем подходе к обработке и пониманию данных социальных сетей. Вы узнаете о том, как мы получаем сведения о восприятии бренда с помощью машинного обучения, и о том, как мы «преобразовываем» косинусные сходства в калиброванные метрики «Брендометра». Так же мы поделимся теми интересными находками, которые сделали, анализируя метрики «Брендометра».

Методология «Брендометра»

Постановка задачи и данные

Для того чтобы измерить восприятие бренда в социальных сетях, мы провели оценку всех текстов, связанных с Airbnb, с 19 платформ (например — это соцсеть X, ранее известная как Twitter, это Facebook, Reddit и так далее). После этого мы сгенерировали словесные эмбеддинги, используя современные ИИ‑модели.

Чтобы использовать данные социальных сетей для создания осмысленных эмбеддингов, пригодных для измерения восприятия бренда, нам пришлось решить две сложные, но интересные задачи, касающиеся следующих характеристик текстов:

Качество текстов. Публикации в соцсетях, в основном, создают пользователи. Это могут быть материалы самого разного характера. Например — статусы пользователей или какие‑либо обзоры. В таких публикациях может быть очень много «шума».
Количество текстов. Определённую сложность при работе с текстами из социальных сетей вызывает то, что появляются они достаточно редко. Пользователю соцсети обычно нужно некоторое время на то, чтобы написать что‑то, относящееся к определённому событию. Используя скользящее окно размером в месяц, мы обеспечиваем своевременность получения данных, не теряя возможности выявлять в них интересующие нас тенденции. Наши ежемесячные наборы данных — около 20 миллионов слов — это совсем немного в сравнении с типичными наборами данных, используемыми для построения высококачественных словесных эмбеддингов (например — в модели Google News Word2Vec это около 100 миллиардов слов). Нам не помогло использование в качестве базы для нашей модели предварительно обученных моделей, так как наши данные почти не влияют на сформированные моделями эмбеддинги.

С целью повышения качества данных, мы разработали комплекс процедур их очистки. Мы, кроме того внедрили инновации в техники моделирования. Это позволило смягчить влияние недостатков наших данных на качество эмбеддингов.

Помимо изучения данных, мы провели глубокое исследование и сравнение различных подходов к формированию словесных эмбеддингов, стремясь получить максимально точные оценки восприятия бренда.

Word2Vec

Word2Vec — это, с 2013 года и по сегодняшний день, одна из самых простых и широко используемых моделей, способных формировать словесные эмбеддинги. Мы, используя библиотеку Gensim, приступили к созданию моделей Word2Vec, основанных на CBOW. Word2Vec формирует достойные словесные эмбеддинги из нашей предметной области. Но ещё важнее то, что эта модель хорошо подходит для поиска аналогий. Так, в случае с нашими словесными эмбеддингами, мы смогли выявить аналогии в области, связанной с Airbnb. Например: “host” — “provide” + “guest” ~= “need”, “city” — “mall” + “nature” ~= “park”.

FastText

Модель FastText принимает во внимание внутреннюю структуру слов. Она достаточно устойчиво ведёт себя при появлении слов, отсутствующих в словаре модели, а так же — при работе с небольшими наборами данных. Более того, вдохновившись примером Sense2Vec, мы связываем слова с характеристиками тональности текстов (то есть — POSITIVE, NEGATIVE, NEUTRAL — позитивный, негативный, нейтральный). Благодаря этому мы можем формировать представления о восприятии бренда, анализируя эмоциональную окраску текстов.

DeBERTa

Недавний прогресс в сфере языковых моделей, основанных на трансформерах (например — это модель BERT), значительно повысил эффективность выполнения NLU-задач. Это так благодаря возможностям генерирования контекстуализированных словесных эмбеддингов. Мы создали словесные эмбеддинги, основанные на DeBERTa. Модели этого вида отличаются высокой эффективностью при работе с небольшими наборами данных. Благодаря механизму «рассеянного внимания», они уделяют больше внимания контексту, в котором находятся слова. Мы, используя трансформеры, обучили модель с нуля (включая токенизатор). Применение конкатенированных эмбеддингов последнего слоя внимания позволило повысить качество словесных эмбеддингов для нашей задачи.

Стабилизация и калибровка показателей оценки восприятия бренда

Изменчивость словесных эмбеддингов — это хорошо исследованный вопрос (Borah, 2021). Это явление вызывают разные причины. Первая группа причин связана со стохастической природой моделей глубокого обучения. Например, инициализация словесных эмбеддингов случайными значениями может привести к разным результатам обучения. Обучение эмбеддингов также может привести к нахождению локальных оптимальных значений для глобального критерия оптимизации. Вторая группа причин связана с количественными и качественными изменениями в блоках текстовых данных, происходящими со временем.

Работая над «Брендометром», мы стремились к тому, чтобы снизить изменчивость расстояний между эмбеддингами. Это позволило бы нам обеспечить стабильность получаемых временных рядов. Стабильные расстояния между эмбеддингами помогают сохранять паттерны и структуры, присущие временным рядам. А это вносит вклад в лучшую предсказуемость процессов анализа данных и наблюдения за изменениями показателей восприятия бренда. Кроме того, это делает процесс анализа более надёжным и менее подверженным «шумовым колебаниям». Мы изучили факторы, влияющие на стабильность временных рядов, и, стремясь снизить их изменчивость, предприняли следующие шаги:

Усреднение оценок по результатам повторяющихся сеансов обучения с использованием бутстреп-выборки.
Получение показателей оценки восприятия бренда на основе рейтинга.

Усреднение оценок и использование апсемплинга

Работая с данными каждого месяца, мы обучаем N моделей с одними и теми же гиперпараметрами, и, для каждого из изучаемых понятий, берём среднее из N оценок восприятия бренда. Тем временем мы, применяя апсемплинг, добиваемся того, что каждая из моделей обрабатывает одинаковое количество точек данных, имеющих отношение к исследуемому месяцу.

Изменчивость (variability) мы определяем так:

https://miro.medium.com/v2/resize:fit:461/1*pJeFFkML9OLgYyYVAChJIA.gif — Формула 2

где

https://miro.medium.com/v2/resize:fit:334/1*O9bfbXD2k2yCGHAl0LmaXg.gif

это оценка восприятия бренда, основанная на косинусном сходстве, которое определяется по Формуле 1. — это алгоритм, — это временное окно (то есть — месяц), — это словарь, — это размер словаря, а — это количество моделей, проходящих повторяющееся обучение.

По мере того, как приближается к 30, показатели изменчивости оценки сходятся и укладываются в узкий интервал. В результате мы выбрали, для всех моделей, значение N, равное 30.

https://miro.medium.com/v2/resize:fit:657/1*2GJvc2uZGLMwu4XQs01FBQ.png

https://miro.medium.com/v2/resize:fit:700/0*lNjBT74QexfOha39 — Рис. 1. Динамика изменчивости оценок моделей FastText по месяцам года при увеличивающемся значении N

Получение показателей оценки восприятия бренда на основе рейтинга

Мы, основываясь на работе Марии Антоняк, применяем метод перекрытия между ближайшими соседями для оценки стабильности словесных эмбеддингов. Дело в том, что в задачах, решаемых после формирования эмбеддингов, показатели относительных расстояний имеют большую важность, чем показатели абсолютных расстояний. Поэтому мы и разработали оценки, основанные на рейтингах. Они, в сравнении с оценками, основанными на сходстве эмбеддингов, отличаются более высокой стабильностью.

Сначала мы ранжируем слова в нисходящем порядке, по косинусному сходству, пользуясь Формулой 1. Затем вычисляются оценки сходства, основанные на рейтинге. Тут используется формула , где . Более релевантные понятия получат более высокие оценки восприятия бренда, основанные на рейтинге.

Изменчивость оценки определяется так же, как в Формуле 2, за исключением того, что

https://miro.medium.com/v2/resize:fit:347/1*WTrXi2M45e5zIDJg8gl0GA.gif

здесь — это показатель восприятия бренда, основанный на рейтинге. Когда применяются показатели, основанные на рейтингах, то, при приближении к 30, значения сходятся и оказываются в гораздо более узком интервале, чем в предыдущем случае. Особенно это справедливо для модели DeBERTa.

https://miro.medium.com/v2/resize:fit:700/1*hVNXGg1bCkaKbfBxZx3qyw.png

https://miro.medium.com/v2/resize:fit:700/0*TOGMO-HG93AXV2UD — Рис. 2. Динамика изменчивости оценок, основанных на рейтинге, полученная для моделей FastText по месяцам 2020 года при увеличивающемся значении N

Выбор оценки восприятия бренда из разработанных показателей

Одна из проблем этого проекта заключалась в том, что у нас не было простого и абсолютно надёжного механизма принятия решения о том, какой именно итоговый показатель лучше описывает ситуацию. У нас не было объективного критерия «истинности» оценки восприятия бренда. Мы решили эту задачу, определив новую метрику, позволяющую изучить некоторые характеристики полученных оценок.

Метрика Average Variance Across Different Period (AVADP)

Мы решили воспользоваться метрикой, названной Average Variance Across Different Period (AVADP, средняя изменчивость за разные периоды). Вот как мы её построили:

Сначала мы выбрали группу из наиболее релевантных понятий, отражающих восприятие бренда Airbnb: ‘host’, ‘vacation’, ‘rental’, ‘love’, ‘stay’, ‘home’, ‘booking’, ‘travel’, ‘guest’.
Более высокие значения указывают на более сильные колебания показателя в разные периоды. Это, вероятнее всего, плохо, так как ожидается, что выбранные характеристики восприятия бренда будут стабильными, и поэтому не должны слишком сильно меняться от месяца к месяцу.

https://miro.medium.com/v2/resize:fit:700/1*uZSnN3IM0N3dY13P9-jqrA.png

https://miro.medium.com/v2/resize:fit:296/1*JXBekuSCh3AvKzgLaFzZ6w.gif

В этой формуле — это количество выбранных топовых понятий, отражающих восприятие бренда, а — это количество периодов.

https://miro.medium.com/v2/resize:fit:700/1*FiVCJ9lR5mc-KRy0rwfaHQ.png

Мы, как показано выше, проверили эту методику на калиброванных результатах. Тут можно видеть, что калиброванные оценки, основанные на рейтингах, оказываются лучше оценок, основанных на сходстве:

Более низкий показатель AVADP означает большую изменчивость, чем в случае с показателем, где не используются рейтинги. Это, скорее всего, хорошо. Дело тут в том, что ожидается сравнительная стабильность показателей, выбранных для оценки восприятия бренда. В результате они не должны, от месяца к месяцу, слишком сильно варьироваться.

Как мы пользуемся «Брендометром»

Несмотря на то, что нашей целью было создание системы оценки восприятия бренда, мы полагаем, что «Брендометр» может найти применение не только для решения этой задачи. Вот как мы пользуемся этим инструментом:

Оценка восприятия бренда. В ходе работы с командой Internal Brand Tracker, мы выстроили несколько последовательностей ключевых слов. Их мы используем для оценки основных элементов, выражающих суть бренда (таких, как пользовательский опыт, имидж бренда, обязательство компании перед клиентами).
Анализ индустрии. Мы можем генерировать наборы основных понятий, отражающих восприятие бренда, делая это и для Airbnb, и для других компаний, работающих в той же сфере, что и наша. Это помогает нам понять разницу в восприятии различных брендов, выраженную через тексты пользователей социальных сетей.
Анализ крупных рекламных кампаний. «Брендометр» — это новый инструмент, помогающий оценивать эффективность рекламных кампаний на основании весьма обширных данных из социальных сетей. Это даёт нам уникальные сведения о том, изменила ли рекламная кампания восприятие бренда.

Поговорим об этих способах использования «Брендометра» подробнее.

Анализ индустрии: восприятие ведущих брендов ключевых игроков рынка (основные понятия, характеризующие восприятие бренда, выводимые ежемесячно)

Главные понятия, описывающие восприятие бренда Airbnb — “Stay” (пребывание) и “Home” (дом), создают образ бренда, описываемый понятием “belonging” (принадлежность). Это отражает нашу миссию и те уникальные ценности, которые мы можем предложить клиентам. У других компаний это — “Rental” (аренда), “Room” (комната), “Booking” (бронирование) — понятия, которые отражают функционал, а не ощущения людей.

https://miro.medium.com/v2/resize:fit:700/1*y6uLOogOuL9xzr7Zo5V7iw.png

Новые понятия, которые появляются в топе понятий, раскрывают главные события, обсуждаемые в интернете (основные понятия, характеризующие восприятие бренда, выводимые ежемесячно)

Топ-10 понятий, характеризующих восприятие бренда, обычно, от месяца к месяцу, не меняются. Среди них можно отметить следующие:

Home (дом), Host (хозяин), Stay (пребывание), Travel (путешествие), Guest (гость), Rental (аренда) и тому подобное.

Мы, в то же время, используем «Брендометр» для наблюдения за новыми понятиями, которые появляются в топе. Они могут отражать важные события, связанные с брендом, или изменение предпочтений пользователей.

Анализ крупных рекламных кампаний (наблюдение за временными рядами)

Организации запускают рекламные кампании для продвижения продуктов и расширения имиджей брендов. Мы смогли заметить изменение восприятия бренда в одной из сфер, выражающих суть бренда. Это изменение зафиксировано после проведения соответствующей кампании.

https://miro.medium.com/v2/resize:fit:700/0*iax9id0qhOGbp1vT — Рис. 3. Пример изменения восприятия бренда, причиной которого стало проведение соответствующей рекламной кампании. Выведенные здесь оценки получены с применением показателя оценки восприятия бренда на основе рейтинга.

Три приведённых примера использования «Брендометра» — это только начало. В целом можно сказать, что это — инновационный способ получения огромных объёмов сведений из интернета. Эта информация помогает нам изучать потребности клиентов, и то, как они воспринимают компанию. Мы непрерывно ищем новые способы использования полученных знаний, чтобы сделать услуги Airbnb ещё удобнее и привлекательнее для клиентов.

Что дальше?

Инновационный проект Airbnb, «Брендометр», уже зарекомендовал себя как эффективный инструмент для формирования показателей восприятия бренда с опорой на данные из социальных сетей. Вот несколько направлений будущего развития этого инструмента:

Улучшение сегментации контента для формирования более чётких и лаконичных показателей.
Разработка большего количества метрик, отражающих восприятие бренда в социальных сетях.
Расширение сферы исследования, получение сведений не только о восприятии Airbnb, но и о восприятии других компаний, работающих в той же сфере, что позволит получать более глубокие и полные результаты.

О, а приходите к нам работать?

Мы в wunderfund.io занимаемся высокочастотной алготорговлей с 2014 года. Высокочастотная торговля — это непрерывное соревнование лучших программистов и математиков всего мира. Присоединившись к нам, вы станете частью этой увлекательной схватки.

Мы предлагаем интересные и сложные задачи по анализу данных и low latency разработке для увлеченных исследователей и программистов. Гибкий график и никакой бюрократии, решения быстро принимаются и воплощаются в жизнь.

Сейчас мы ищем плюсовиков, питонистов, дата-инженеров и мл-рисерчеров.

Присоединяйтесь к нашей команде

Автор: mr-pickles

Источник

Информация

Обсуждаемое

Рекомендуем