Артур Хачуян — известный российский специалист по обработке больших данных, основатель компании Social Data Hub (сейчас Tazeros Global). Партнёр НИУ ВШЭ. Подготовил и представил совместно с НИУ ВШЭ законопроект по Big Data в Совете Федерации Выступал в институте Кюри в Париже, СПБГУ, ФУ при Правительстве РФ, на Red Apple, International OpenDataDay, RIW 2016, AlfaFuturePeople.
Лекция записана на open-air фестивале «Гик-пикник» в Москве в 2019 году.
Артур Хачуян (далее – АХ): – Если из огромного количества отраслей – из медицины, из строительства, из чего-то, чего-то выбирать то, где технология больших данных, машинного обучения, глубинного обучения наиболее часто используется, то это, наверное, маркетинг. Потому что последние где-то года три всё, что окружает нас в каких-то рекламных коммуникациях, сейчас завязано именно на анализ данных и именно на том, что можно назвать искусственным интеллектом. Поэтому сегодня буду рассказывать вам про это из такой, очень отдалённой истории…
Если представлять себе искусственный интеллект, как он выглядит – наверное, это что-то такое. Странная картинка представляет собой одну из нейросеток, которые я написал год назад для поиска зависимости того, чем занимается моя собака – сколько раз ей нужно сходить по-большому, по-маленькому, и как это вообще зависит от того, сколько она ест, или нет. Это шутка про то, как можно было представить искусственный интеллект.
Но всё-таки давайте подумаем о том, как это всё работает в рекламных коммуникациях. Есть три направления того, как современные алгоритмы именно в рекламе, маркетинге могут с нами взаимодействовать. Понятно, что первая история направлена на то, чтобы получить и извлечь дополнительные знания о нас с вами, а потом их использовать для каких-то хороших и не очень целей; персонализировать подход к каждому конкретному человеку; естественно, после этого сформировать некий спрос для того, чтобы совершить главное целевое действие и провести некую продажу.
С помощью технологий пытаются решить проблему эффективной коммуникации
Если я вам скажу подумать, что общего между «Порнхабом» и «М. Видео», о чём вы подумаете?
Комментарии из зала (далее – З): – Телеки, аудитория.
АХ: – Моя концепция в том, что это – два места, куда люди приходят за определённым видом услуг, или назовём это – за определённым видом товаров. И эта аудитория отличается тем, что она ничего не хочет рассказывать продавцу. Она хочет зайти и получить то, что её интересует в каком-то явном или неявном виде. Естественно, никто, приходя в «М. Видео», не хочет общаться ни с какими продавцами, не хочет понимать, не хочет отвечать ни на какой из их вопросов.
Поэтому из этого всего вытекает первая история.
Когда появились технологии получения дополнительных знаний для того, чтобы каким-то образом не коммуницировать с человеком. Нам всем нравится, когда мы звоним в банк, и банк нам говорит: «Здравствуйте. Алексей, вы наш вип-клиент. Сейчас с вами поговорит какой-то суперменеджер». Вы приходите в этот банк, и там действительно есть уникальный менеджер, который может с вами поговорить. К сожалению или к счастью, ещё ни одна компания не додумалась, как на тысячу клиентов нанять тысячу персональных менеджеров; а так как большинство этих людей сейчас находится в онлайне, задача – понять, что это за человек и как правильно с ним коммуницировать до того, как он пришёл на какой-нибудь рекламный ресурс. И поэтому, собственно, появились технологии, которые пытаются решить эту задачу.
Извлечение данных – вот новая нефть
Представим, что вы – владелец цветочного ларька. К вам заходят три человека. Первый очень долго стоит, мнётся, пытается с вами говорить, берёт какой-то букет – вы уходите его заворачивать, выходите что-то там делать; он с этим букетом убегает из ларька – вы потеряли свои три тысячи рублей. Почему так произошло? Вы ничего не знаете об этом человеке: вы не знаете его историю приводов в МВД, вы не знаете, что он – клептоман, состоит на учёте в психиатрическом диспансере. Почему? Потому что вы его увидели в первый раз, и вы не специалист по поведенческому анализу.
Приходит ещё какой-нибудь… Виталий. Виталий тоже очень долго разбирается, говорит, – Ну, вот, мне нужно то-то, то-то. А вы ему говорите, – Цветы для мамы, да? И продаёте ему букет.
Концепция здесь в том, чтобы узнать достаточное количество данных, для того чтобы понять, что этому человеку вообще нужно. Все сразу подумали о каких-то рекламных сетях и так далее…
Все неоднократно наверняка слышали дурацкую фразу, что «данные – новая нефть»? Наверняка все слышали. На самом деле данные люди научили собирать достаточно давно, а вот извлекать данные из этих данных – это та задача, которую сейчас пытается решить искусственный интеллект в маркетинге, или какие-то статистические алгоритмы. Почему? Потому что, если вы поговорите с человеком, он может вам дать правильный, неправильный, либо каким-то образом окрашенный ответ. Шутка, которую я рассказываю студентам – чем отличаются опросы от статистики – я вам расскажу в виде анекдота:
Значит, в двух деревнях решили провести исследование о средней длине мужского достоинства. Значит, в первой деревне, Вилларибо, средняя длина – 15 сантиметров, в деревне Виллабаджо – 25. Знаете почему? Потому что в первой деревне проводили измерения, а во второй – опрос.
Порноиндустрия – флагман рекомендательных систем
Это то, почему современный подход именно анализа всех людей поголовно, пусть их и чуть меньше, чем 100%, но это те люди, которых не нужно спрашивать, на них не нужно смотреть. Достаточно проанализировать то, что сейчас называется цифровым следом, чтобы понять, что этому человеку нужно, как с ним правильно говорить, как правильно сформировать спрос вокруг него. С одной стороны, это бездумная машина (но мы это с вами это прекрасно знаем); мы не хотим общаться с людьми из «М. Видео», а уж тем более, заходя на такие ресурсы, как «Порнхаб», мы хотим получить ровно то, что нам нужно.
Почему я всегда говорю про «Порнхаб»? Потому что adult-индустрия – первая, которая пришла к анализу подобных технологий, к внедрению подобных технологий, к анализу данных. Если вы возьмёте три самые популярные библиотеки в этой сфере (например, TensorFlow или Pandas для «питончика», для обработки csv-шек и так далее), если вы откроете на «Гитхабе», недолгим «гуглением» все эти фамилии вы найдёте парочку человек, которые либо работали, либо на данный момент работаю в компании «Порнхаб», и первые, кто там занимался внедрением именно рекомендательных систем. Вообще, эта история очень продвинутая, и показывает, насколько эта аудитория, насколько эта компания ушла вперёд.
Три уровня идентификации
Вокруг человека есть огромный набор данных, которые можно идентифицировать. Я обычно формально делю это на три уровня, погружаясь всё глубже и глубже. Естественно, у компании есть собственные данные.
Если, скажем, мы говорим о построении рекомендательной системы, то первый уровень – данные, которые находится у самого магазина (история покупок, всевозможные транзакции, то, как человек взаимодействовал с интерфейсом).
Далее есть уровень (относительно самый большой) – это то, что называется открытыми источниками. Не подумайте, что я призываю вас парсить соцсети, но по факту то, что есть в открытых источниках, открывает огромный набор данных, которые можно о человеке, сказать, узнать почерпнуть.
И третья большая часть – это окружение самого этого человека. Да, бытует мнение, что если человека нет в соцсетях – о нём нет там никаких данных (вы наверняка уже знаете, что это не так), но самое важное, что данные, которые находятся у человека в профиле (или в каком-то приложении) – это только 40% знаний, которые можно получить о нём. Остальная информация получается из его окружения. Фраза «скажи мне, кто твой друг, и я скажу, кто ты» в XXI веке обретает новый смысл, потому что огромный массив данных можно получить вокруг этого человека.
Если говорить ближе к рекламным коммуникациям, то получение рекламной коммуникации не из рекламы, а от какого-то вашего друга, знакомого или как-то верифицированного человека – это очень крутая фишка, которой пользуется куча маркетологов. Когда вам внезапно дарит бесплатный промо-код какое-то приложение – вы делаете об этом пост и тем самым завлекаете новую аудиторию. На самом деле этот промо-код на условное «Яндекс.Такси» был выбран совершенно не случайным образом, а для этого было проанализировано огромное количество данных о вашем потенциале привлечь новую аудиторию и с ней как-то провзаимодействовать.
Анализируют даже поведение героев сериалов
Я вам покажу три картинки, а вы скажите, в чём между ними разница.
Вот эта:
Эта:
И вот эта:
Какая между ними разница? Здесь всё просто. Как и в квантовой механике, в данном случае этот креатив сформировал наблюдатель. То есть разница в одной и той же рекламной кампании, проведённой одним и тем же брендом в одно и то же время, лишь в том, кто этот креатив смотрел. Лично мне, когда захожу на «Амедиатеку», до сих пор показывают кхала Дрого. Не знаю, что о моих предпочтениях думает «Амедиатека», но почему-то происходит так.
То, что сейчас называется персонифицированными коммуникациями – это самая популярная история привлечения аудитории и правильного взаимодействия с ней. Если на первом этапе мы определили людей, используя данные собственного бренда, данные открытых источников и, например, данные окружения этого человека, мы, проанализировав его, можем понять, кто он, как правильно с ним разговаривать и, что самое главное, на каком языке с ним разговаривать.
Тут технологии пошли настолько далеко, что сейчас анализируются герои сериалов, на которых смотрит человек. То есть вы лайкаете сериалы – они [лайки] смотрятся, отсматриваются, с кем вы там взаимодействовали, для того чтобы понять, какое лицо подойдёт, чтобы вы с ним провзаимодействовали. Звучит как полный бред, но вы ради интереса на каком-нибудь из ресурсов попробуйте – разные люди видят разный креатив (для того, чтобы правильно с ним взаимодействовать).
Ни одно современное СМИ или какой-то видеоресурс уже просто так не показывает вам какие-то новости. Заходите на СМИ – загружается огромное количество алгоритмов, которые идентифицируют вас, понимают всю вашу предыдущую активность, делают обращение к матмодели и затем показывают вам что-то. В данном случае тут вот такая странная история.
Как определяют потребности? Психометрия. Физиогномика
Есть очень много подходов (реальных) для определения действительных потребностей человека, и того, как правильно с ним коммуницировать. Подходов много, все решают по-разному, нельзя сказать – какой хороший, какой плохой. Основные, кажется, все знают.
Психометрия. После истории с «Кембридж Аналитикс» она приняла какой-то шокирующий, по-моему, какой-то оборот, потому что каждая вторая сейчас политическая компания приходит и говорит: «Ой, а можете сделать мне, как у Трампа? Я тоже хочу выиграть, и так далее». На самом деле это, конечно, глупости для наших реалий, например, политических выборов. Но для определения психотипов используются три модели:
- первая основана на контенте, который вы потребляете – на словах, что вы пишете, на какой-то информации, которую вы лайкате, видео и т. д.;
- вторая завязана на том, как вы взаимодействуете с веб-интерфейсом, как вы печатаете, какие кнопочки зажимаете – действительно, есть целые компании, которые по клавиатурному почерку умеют достаточно достоверно определять то, что сейчас называется психотипами.
- Я вот – не очень психолог, досконально плохо понимаю, как это работает, но с точки зрения рекламных коммуникаций аудитории, разбитые на эти сегменты, работают очень хорошо, потому что кому-то нужно показать красный экран с синей женщиной, кому-то – тёмно-синий фон с какой-то абстракцией, и это работает очень круто. На каких-то низких уровнях – настолько, что человек, даже не думает об этом. Сейчас основная проблема какая на рекламном рынке? Все – агенты спецслужб, все прячутся, у всех установлен миллион тысяч разрешений для браузеров, для того чтобы их никак не идентифицировали – у вас наверняка стоят «Адблоки», «Гостри» и всевозможные приложения, блокирующие отслеживание. Из-за этого очень сложно что-то понимать о человеке. А технологии ушли дальше – нужно не просто знать, что этот человек вернулся на ваш сайт в 125-й раз, а что он ещё такой-то странный человек.
Физиогномика – очень спорная наука. Её даже наукой не считают. Это группка людей, которые раньше программировали детекторы лжи для какого-нибудь МВД, а сейчас занимается, что называется, персонификацией креатива. Подход здесь очень простой: берётся несколько ваших публичных фотографий из каких-нибудь соцсеточек, по ним строится трёхмерная геометрия. И если вы юрист, то сейчас скажете, что это лицо и персональные данные; а я вам скажу, что это 300 тысяч точек, находящихся в пространстве, и это не лицо, и персональными данными не являются. Так обычно говорят все, когда к ним приходит Роскомнадзор.
Но если серьёзно, отдельно ваше лицо, если там не подписаны имя и фамилия, вашими персональными данными не является. Суть в том, что ребята размечают различные черты лиц, влияющие на то, как человек принимает решения, как правильно с ним взаимодействовать. Где-то это работает плохо, в каких-то сегментах рекламы; в каких сегментах это работает очень хорошо. В конце концов, получается так, что, именно заходя на какой-то ресурс, вы видите не один баннер, который показывают всем, а, например… сейчас нормально делать 16 или 20 вариантов под разные аудитории, – и это работает очень круто. Да, это ещё печальнее с точки зрения потребителя, потому что людьми начинают манипулировать всё сильнее и сильнее. Но тем не менее с точки зрения бизнеса это работает очень хорошо.
«Чёрный ящик» машинного обучения
Это порождает следующую проблему подобных технологий: всё-таки для большинства разработчиков сейчас то, что называется глубинным обучением, является «чёрным ящиком». Если вы когда-то погружались в эту историю и общались с разработчиками, – они всегда говорят: «Ой, слушайте, ну мы там что-то накодили такое непонятное, и не знаем, как это работает». Возможно, у кого-то такое было.
Это на самом деле далеко не правда. То, что сейчас называется машинным обучением – далеко не «чёрный ящик». Есть огромное количество подходов, позволяющих описать входные и выходные данные, и в конце концов компания досконально может понять, на основании каких признаков машина решила показать вам этот порнографический ролик или другой. Вопрос в том, что никто из компаний никогда это не раскрывает, потому что: во-первых, коммерческая тайна; во-вторых, там окажется огромное количество данных, о которых вы даже не подозревали.
Например, до этого на дискуссии по этике мы обсуждали то, как социальные сети анализируют личные сообщения для того, чтобы тегировать людей в какие-то рекламные истории. Пишите вы кому-то что-то – на основании этого получаете определённый тег для, собственно, каких-то рекламных коммуникаций. И вы это никогда не докажете, и, наверное, нет смысла доказывать это. Тем не менее, если бы подобные модели раскрывались, они бы были. Получается так, что рынок построения подобных рекомендательных систем делает вид, что не знает, почему это произошло.
Люди не хотят знать, что о них знают
А вторая история – в том, что клиент никогда не хочет узнать, почему он получил именно это объявление, именно этот продукт. Я вам расскажу такую историю. Мой первый опыт коммерческого внедрения рекомендательных систем на подобных алгоритмах именно ради исследования был в 2015 году в очень крупной сети секс-шопов (да, тоже не особо лицеприятная история).
Клиентам была предложено следующее: они заходят, авторизуются своей социальной сетью, где-то через 5 секунд получают полностью персонифицированный магазин для них, то есть прям все товары изменились – они попадают в определённую категорию и так далее. Знаете, насколько увеличилась конверсия этого магазина? Ни на сколько! Люди заходили и сразу убегали из него. Они заходили и понимали, что им предложено именно то, о чём они думали…
Проблема этого теста была в том, что под каждым товаром было написано, почему вам предложили именно это («потому что вы состоите в скрытой группе «Властная женщина ищет мужика-«тряпку»). Поэтому современные рекомендательные системы никогда не показывают те данные, на основании которых был сделан «предикт».
Очень популярная история – это СМИ, потому что все они используют подобные рекомендательные системы. Раньше алгоритмы были очень простые: смотрите категорию «Политика» – вам и показывают новости из категории «Политика». Сейчас всё настолько сложно, что анализируются те места, где вы остановили мышку, на каких словах вы сконцентрировались, что вы скопировали, как вы вообще провзаимодействовали с этой страницей. Потом анализирует лексика самих сообщений: ага, вы не просто новости про Путина читаете, а в каком-то определённом ключе, с каким-то определённым эмоциональным окрасом. И когда человек получает какую-то новость, он даже не задумается над тем, как он сюда пришёл. Тем не менее потом с этим контентом взаимодействует.
Всё это, естественно, направлено на то, чтобы удержать бедного, несчастного человечка, который итак сходит с ума от огромного массива информации, которая вокруг него находится. Здесь надо сказать, что хорошо бы использовать подобные системы для персонификации креатива вокруг себя, сбора какой-то информации, но, к сожалению, пока таких сервисов нет.
Искусственный интеллект ловит клиента на взлёте и формирует спрос
И тут возникает один очень интересный философский вопрос, переходя от создания рекомендательной системы к формированию спроса. Редко кто о нём задумывается, но, когда вы пытаетесь спросить у условного «Инстаграма», – «Зачем вы собираете данные? Почему не показывать мне абсолютно рандомную рекламу?», – «Инстаграм» вам скажет: «Друг, это всё сделано, чтобы тебе показывать именно то, что тебе интересно». Мол, мы настолько точно хотим тебя узнать, чтобы показать тебе именно то, что ты ищешь.
Но технология давно перешагнула этот страшный рубеж, и подобные технологии уже давно не предсказывают то, что вам нужно. Они (внимание!) формируют спрос. Это, наверное, самая страшная вещь, которая крутится вокруг искусственного интеллекта в подобных коммуникациях. Страшна она в том, что она используется последние 3-5 лет почти повсеместно – от гугловой выдачи до яндексовой выдачи, до каких-то систем… Ладно, не буду про «Яндекс» ничего плохого говорить; и хорошего.
Суть в чём? Давно уже подобные рекламные коммуникации ушли от стратегии, когда вы пишите – «хочу купить детское кресло», и видите сто тысяч миллионов публикаций. Они перешли к следующему: только женщина выложила фотографию с едва видимым животиком, мужа уже сразу начнут преследовать сообщения – «Мужик, скоро роды. Купи детское кресло».
Здесь резонно вы спросите, почему при таких гигантских достижениях технологий мы до сих пор видим такую говёную рекламу в социальных сетях? Проблема в том, что на этом рынке до сих пор всё решают деньги, поэтому в один прекрасный момент может прийти какой-нибудь рекламодатель типа «Кока-Колы» и сказать: «Вот вам 20 миллионов – покажите мои говно-баннеры всему интернету». И они действительно это сделают.
Но если вы сделаете какой-то чистый аккаунт и протестируете, насколько точно подобные алгоритмы вас угадывают: они сначала пытаются вас угадать, а потом начинают вам что-то наперёд делать. А человеческий
Google может начать формировать ваше мировоззрение
Такие исследования проводили несколько зарубежных компаний, которые занимаются i-трекингом. Они ставили на специальные компьютеры девайсы, которые записывают, куда смотрят глаза подопытного. Брала от пяти до семи тысяч добровольцев, которые просто скролили ленту, взаимодействовали с соцсетями, с рекламой, а они записывали информацию, на каких частях баннеров, креативов эти люди останавливают взгляд.
И получилось, что, когда люди получают такой сверх-персонифицированный креатив, они даже не задумываются об этом – они сразу переходят, начинают с этим взаимодействовать. С точки зрения бизнеса это хорошо, но с точки зрения нас, как пользователей, это не очень круто, потому что, – всего чего боятся? – Что в один прекрасный момент условный «Гугл» может начать (может, конечно, и не начать) формировать своё мировоззрение. Он может завтра, например, людям начать показывать новости о том, что земля плоская.
Шутка шуткой, но их ловили огромное количество раз, что во время выборов они начинают определённым людям давать определённую информацию. Мы все привыкли, что поисковая система всё достаёт честно. Но, как я всегда говорю, если хотите узнать на самом деле, как устроен мир – напишите свою собственную поисковую систему, без фильтров, без обращения внимания на копирайт, без ранжирования каких-то ваших друзей в выдаче. Выдача реальных данных в интернете вообще отличается от того, что показывают «Гугл», «Яндекс», «Бинг» и так далее. Какие-то материалы скрываются, потому что друзья, коллеги, враги или ещё кто-то (или бывший любовник, с кем ты переспал) – неважно.
Как победил Трамп
Когда были последние выборы в США, проводилось очень простое исследование. Они брали по одним и тем же запросам в разных местах, с разных «айпишников», с разных городов, разные люди гуглили одно и то же. Условно, запрос был в стиле: кто победит на выборах? И удивительным образом результаты таким образом были построены, что в тех штатах, где наибольшее количество людей пыталось голосовать не за того кандидата, они получали какие-то хорошие новости про кандидата, которого продвигал «Гугл». Какого? Ну, тут понятно какого – того, который президентом стал. Это абсолютно недоказуемая история, и все эти исследования – пальцем по воде. «Гугл» может сказать: «Ребят, всё это сделано для того, чтобы мы показывали максимально релевантный контент для вас».
Вы с этого момента должны знать, что то, что называется максимально релевантным – это ни фига не так. Компания называет релевантным то, что нужно вам продать по каким-то хорошим или плохим причинам.
Тех, у кого нет денег сейчас, уже готовят к будущим покупкам
Здесь ещё такой интересный момент, о котором я расскажу. Огромное количество активной аудитории сейчас в социальных сетях, в приложениях – это молодёжь. Назовём так её – неплатежеспособная молодёжь: дети 8-9 лет, которые кликают в дебильные игры, это – 12-13-14, которые только регистрируются в социальных сетях. Зачем огромные компаниям тратить огромные бюджеты и ресурсы на то, чтобы создавать приложения для неплатёжеспособной аудитории, которая никогда не монетизируется? В тот момент, когда эта аудитория станет платёжеспособной, о ней будет достаточный объём данных, чтобы очень хорошо прогнозировать её поведение.
Сейчас любого таргетолога спроси, какая самая сложная аудитория? Они скажут: высокодоходная. Потому что продать, например, квартиру стоимостью 150 миллионов рублей через социальные сети практически невозможно. Единичные случаи, когда вы делаете какую-то рекламу на 10 тысяч человек, один покупает эту квартиру – у клиента успех… Но один из десяти тысяч с точки зрения статистики – это хрень полная. Так вот, почему сложно определить высокодоходную аудиторию? Потому что люди, которые сейчас являются членами высокодоходной аудитории, были рождены, когда интернет ещё был совсем маленький, когда Артемия Лебедева ещё никто не знал, и о них нет никакой информации. Невозможно предсказать их модель поведения, невозможно понять, кто для них является лидерами мнение, из каких источников контент они принимают.
Поэтому, когда вы все через 25 лет станете миллиардерами, а у компании, которые собираются вам что-то продавать, будет огромное количество данных. Поэтому сейчас появился замечательный GDPR в Европе, который препятствует сбору данных несовершеннолетних.
Естественно, это ни фига не работает на практике, поскольку все дети всё равно играют в мамины, папины аккаунты – таким образом информация собирается. Когда дадите ребёнку в следующий раз планшет, подумайте об этом.
Абсолютно не страшное какое-то, антиутопичное будущее, когда все умрут в войне с машинами – абсолютно реальная история сейчас. Есть огромное количество компаний, которые занимаются созданием алгоритмов психопрофилирования людей по тому, как они играют в игры. Очень интересная отрасль. На основании этого всего люди потом сегментируются, чтобы с ними затем как-то коммуницировать.
Предсказание поведения этих людей будет доступно через 10-15 лет – именно в тот момент, когда они станут платёжеспособной аудиторией. Что самое главное, эти люди уже заранее дали разрешение на обработку своих персональных данных, передачу их третьим лицам и всё вот это вот счастье, и так далее.
Кто потеряет работу?
И последняя у меня история о том, что все всегда спрашивают, что будет через 50 лет: мы все умрём, будет безработица у маркетологов… Есть тут маркетологи, переживающие за безработицу, да? Переживать, вообще, не стоит, потому что любой высококвалифицированный человек работу не потеряет.
Какие бы алгоритмы ни были созданы, насколько бы сильно машина не подобралась к тому, что у нас находится здесь (указывает на голову), если это будет развиваться достаточно быстро, подобные люди никогда не останутся без дела, потому что креативы эти кому-то придётся делать. Да, есть всевозможные «ганы», которые рисуют картинки, похожие на людей, музыку создают, но всё-таки вряд ли когда-нибудь в этой сфере люди потеряют свою работу.
У меня с историей всё, так что можете задавать вопросы, если у вас есть ещё. Спасибо.
Ведущий: – Друзья, мы сейчас переходим к блоку «Вопрос – ответ». Вы поднимаете руку – я к вам подхожу.
Вопрос из зала (З): – Вопрос про «чёрный ящик». Говорили, что можно конкретно понять, почему именно такой результат по такому-то пользователю. Это какие-то алгоритмы, или это каждый раз для каждой модели ad hoc (прим. автора: «специально для этого» – латинский фразеологизм) нужно разбирать? Или есть уже готовые, для какой-то нейросетки можно понять, грубо говоря, бизнес-смысл?
АХ: – Здесь нужно понимать следующее: в машинном обучении есть огромное количество задач. Например, есть задача – регрессия. Для регрессии вообще никаких нейросетей не нужно. Там всё просто: у вас есть несколько показателей, вам нужно просчитать следующие. Есть задачи, где необходимо прибегать к такой штуке, как глубинное обучение. Действительно, в глубинном обучении сложно достоверно понять, какие веса к каким нейрончикам были установлены, но юридически всё, что вам необходимо – понять, какие данные были на входе, как они отыграли на выходе. Этого достаточно юридически для того, чтобы запантентовать подобное решение и этого достаточно для того, чтобы понять, на основании чего была принята история.
Нет такого, что вы зашли на сайт и вам показали какой-то баннер потому, что вы два месяца назад с красными волосами сфотографировались в «Инстаграм». Если разработчик не заложит сбор этих данных, разметку цвета волос в эту модель, то оно с потолка никак не возьмётся.
Как продавать результаты систем машинного обучения?
З: – Просто вопрос в чём: именно понять, как объяснить, продать кому-то, кто не разбирается в машинном обучении. Я хочу сказать: моя модель – от цвета волос чётко ведёт к… вот, цвет волос меняется… Это возможно или нет?
АХ: – Возможно, да. Но с точки зрения продаж, сработает единственная схема: у вас есть рекламная кампания, мы заменяем аудиторию на ту, которую формирует машина – и вы просто смотрите результат. Это, к сожалению, единственный вариант достоверно заказчика убедить в том, что подобная история работает, потому что на рынке куча решений, которые когда-то были внедрены, и они не работали.
О создании виртуальной личности
З: – Здравствуйте. Спасибо за лекцию. Вопрос такой: а какой шанс есть у человека, который по какой-то причине не хочет идти на поводу у машинного обучения, создать себе виртуальную личность, кардинально отличающуюся от его собственной личности, с помощью взаимодействия с интерфейсом или по каким-либо другим причинам?
АХ: – Есть куча разных плагинов, которые занимаются именно рандомизацией поведения. Есть крутая штука – Ghostery, которая, по-моему, почти полностью тебя скрывает от кучи различных трекеров, которые не могут потом записывать эту информацию. Но по факту сейчас вам достаточно будет закрытого профиля в социальных сетях, чтобы никто, никакие злые парсеры там ничего не собрали. Лучше, наверное, поставить какое-нибудь расширение или написать что-нибудь самому.
Понимаете, здесь такая концепция, что юридически, например, персональными данными называются данные, по которым вас можно идентифицировать, и в законе приведён как пример адрес местожительства, возраст и так далее. Сейчас данных, по которым вас можно идентифицировать – бесчисленное множество: тот же клавиатурный почерк, то же нажатие, цифровая подпись браузера… Рано или поздно, человек ошибается. Он может где-нибудь в «кафэхе» сидеть через «Тор», но в конце концов в один прекрасный момент либо VPN забудет включить, либо ещё что-то, и в этот момент его можно будет идентифицировать. Так что проще всего сделать закрытый аккаунт и поставить какое-нибудь расширение.
Рынок идёт к тому, что нужно нажать только одну кнопочку для получения результата
З: – Спасибо за рассказ. Как всегда, очень интересно всегда (я за вами слежу). Вопрос такой: какой прогресс в смысле создания систем позитивных для пользователей, рекомендательных систем? Вы говорили, что в своё время занимались рекомендательными система для поиска партнёра полового, друга жизни (или музыка, которая потенциально может понравиться человеку)… Насколько всё это перспективно, и как вы видите его развитие именно с точки зрения создания нужных людям систем?
АХ: – Вообще, рынок идёт к тому, что людям нужно нажать одну кнопочку и сразу получить то, что нужно. Что касается моего опыта создания приложений для знакомств (мы его, кстати, в конце года перезапустим), там, помимо того, что 65% было женатых мужиков, самая сложная рекомендательная проблема была в том, что человеку на старте приложения предлагалось несколько моделей – «Дружба», «Секс», «Секс-дружба» и «Бизнес». Люди выбирали не то, что им нужно. Мужчины приходили выбирали «Любовь», а на самом деле они кидали всем обнажёнку, ну и так далее.
Проблема была в том, чтобы идентифицировать человека, который не подходит какой-то одной из этих моделей, и его как-то плавно взять и переместить в другую сторону. Из-за малого количества данных определить, ошибка ли это алгоритма прогнозирования, либо человек находится не в своей категории – очень сложно. То же самое с музыкой: очень мало сейчас реально достойных алгоритмов, которые хорошо «факастят» музыку. Может быть, «Яндекс.Музыка». Кто-то считает алгоритм «Яндекс.Музыки» плохим. Мне она, например, нравится. Мне лично, например, не нравится алгоритм «Ютуб»-музыки и так далее.
Там есть, конечно, свои тонкости – там всё завязано на лицензиях… Но реально спрос на подобные системы достаточно велик. В своё время была известна компания «Ритейл Рокет», которая занималась внедрением рекомендательных систем, сейчас она как-то не очень хорошо живёт – видимо, потому что они долго алгоритмы свои не развивали. Всё идёт к этому – к тому, чтобы мы зашли и, ничего не нажимая, получили то, что нам нужно (и полностью отупели, потому что умение выбирать у нас полностью исчезло).
Influence-маркетинг
З: – Здравствуйте. Меня зовут Константин. Я хотел бы поднять вопрос по поводу influence-маркетинга. Знаете ли вы какие-то системы, которые позволяют бизнесу подобрать бизнесу подходящего ему блогера по каким-то данным статистики и так далее? И по каким признакам это производится?
АХ: – Да, я сейчас начну издалека и сразу скажу, что проблема подобных всех технологий в том, что весь этот искусственный интеллект в маркетинге сейчас как канатоходец идёт: слева находятся крупные компании, у которых куча бабла, и у них в любом случае будет эффективно всё работать, потому что у них рекламные кампании направлены просто на просмотры; с другой стороны есть куча мелкого бизнеса, у которого это не будет работать, потому что у них данных много. Пока применимость этих историй где-то посерединке.
Когда есть уже хорошие бюджеты, и задача эти бюджеты правильно обрабатывать (и данных уже, в принципе, достаточно много)… Я знаю пару сервисов, что-то вроде «Гетблогера», в которых вроде как есть алгоритмы. Я, честно говоря, эти алгоритмы не изучал. Могу вам рассказать, какой подход используем мы для поиска лидеров мнений, когда нужно каким-нибудь мамам подарить подарок.
Мы используем метрику, которая называется «Время распространения контента». Работает это следующим образом: вы берёте человека, чью аудиторию вы анализируете, и вам нужно на каждый пост планомерно (напр., раз в 5 минут) собирать информацию, кто его залайкал, закомментировал и так далее. Таким образом можно будет понять, в какой момент времени каждый человек из его аудитории провзаимодействовал с его контентом. Повторить эту операцию для каждого представителя его аудитории, и таким образом, используя метрику среднего времени распространения контента, её можно, например, в большом сетевом графе этих людей кинуть в цвет и использовать эту метрику для построения кластеров.
Это работает достаточно хорошо, если мы хотим, например, найти 15 мам, которые держат своё общественное мнение на каком-нибудь woman.ru. Но это достаточно сложная техническая реализация (хотя чисто теоретически можно и на «Питоне» это сделать). Суть в том, что проблема influence-маркетинга в крупных рекламных агентствах – им нужны крупные, крутые, дорогие блогеры, которые ни хрена не работают. Вот, автобренд хочет через какого-то лидера мнений продать какой-то товар – им использовать автоблогера нужно в последнюю очередь, потому что аудитория таковых либо уже купила автомобиль, либо точно знает, какой автомобиль она хочет просто сидит смотрит на крутые тачки. Здесь важно ещё не упустить анализ аудитории самого человека.
Боты маркетинга
З: – Подскажите, как сильно боты в социальных сетях влияют на сбор информации и её качество?
АХ: – С ботами такая интересная штука. Дешёвых ботов достаточно легко идентифицировать – у них либо контент одинаковый, либо они в друзьях друг у друга находятся, либо они в единой сетке находятся. Со сложными ботами есть тоже подходы. Или вы спрашиваете задачу, как человека к его фейку привязать?
З: – Насколько качественная информация будет на выходе со всем этим мусором?
АХ: – Тут это работает таким образом: из-за того, что данных огромное количество (например, для какого-то маркетингового исследования), всю эту шушеру можно просто выкинуть. То есть лучше выкинуть чуть побольше реальных людей, чем захватить ботов, потому что им бесполезно показывать всякую рекламу. Но если собирать метрику, например, взаимодействия с баннерами или рекомендательными системами, такие аккаунты можно выкинуть.
Сейчас в социальных сетях процентов шесть виртуальных персонажей или покинутых просто страниц или интровертов, которых алгоритмы «мэтчат» как ботов. Что касается привязки человека к его фейку, здесь тоже всё завязано на том, что человек рано или поздно допустит ошибочку, и штука в том, что модель поведения одинаковая – что у его реального аккаунта, что у его фейка. Рано или поздно они один и тот же контент посмотрят или ещё что-то.
Здесь всё сводится не к проценту погрешности, а к количеству времени, которое необходимо для достоверной идентификации человека. Для кого-то, кто живёт со своим «Инстаграмом», это время достоверной идентификации, сводится к пяти минутам. Для кого-то – к шести-восьми месяцам.
Кому и как продать данные?
З: – Здравствуйте. Мне интересно узнать, как происходит продажа данных между компаниями? К примеру, у меня есть приложение, в котором можно узнать (разработчику), куда ходит человек, в какие магазины, и сколько там тратит денег. И мне интересно узнать, как, допустим мне, продать этим магазинам данные о своей аудитории или вкинуть свои данные в одну огромную базу данных и получить за это деньги?
АХ: – Насчёт продать кому-то напрямую данные – вас, всех остальных, опередили ОФД – операторы фискальных данных, которые хитрым образом встроились между передачей чеков и Налоговой и сейчас пытаются продавать всем данные. Действительно, на самом деле они обвалили целый рынок мобильной аналитики. По факту вы можете встроить ваше приложение, например пиксель «Фейсбука», его DMP-система; потом использовать эту аудиторию для того, чтобы продавать. Например, пиксель «Май Таргета». Не знаю просто, что за аудитория у вас, нужно понять. Но в любом случае вы можете интегрироваться либо в «Яндекс», либо в «Май Таргет», являющиеся крупнейшими DMP-системами.
Это достаточно интересная история. Проблема лишь в том, что вы им весь трафик отдадите, и монетизацию этого трафика они как биржи берут на себя. Они могут сказать вам, что вашей аудиторией воспользовались 10 человек, а могут и не сказать. Поэтому либо вы строите свою рекламную сеть, либо отдаётесь на откуп крупным DMP.
Кто победит – художник или технарь?
З: – Вопрос, немного отдалённый от технической части. Было сказано о страхах маркетологов по поводу грядущей массовой безработицы. Есть ли некая конкурентная борьба между креативным маркетингом (вот эти ребята, которые придумали рекламу с курицей, реклама «Фольксвагена», кажется) и теми, кто занимается «Биг датой» (которые говорят: мы сейчас просто соберём все данные и таргетированную рекламу всем доставим)? Как человек, который непосредственно занимается, какое ваше мнение, кто победит – художник, технарь, или это будет какой-то синергетический эффект?
АХ: – Слушайте, ну они работают вместе. Инженеры не придумывают креатив. Те, кто креативит, не придумывает аудитории. Тут некая мультидисциплинарная история. Реально проблемы сейчас у тех, кто сидит и кнопочки нажимает, у тех, кто делает «манки-джоб», каждый день нажимает одно и то же – вот такие люди пропадут.
Но те, кто анализирует данные, естественно, останутся, но кто-то эти данные должен обрабатывать. Кто-то должен будет придумывать эти картинки, рисовать их. Подобный креатив не придумает же машина! Это полное безумие! Или как, например, вирусная реклама «Карпрайс», которая, кстати, очень хорошо работала. Помните, такая была на «Ютубе»: «Продай в «Карпрайс», — абсолютно безумная. Конечно, никакая нейросетка подобную историю не сгенерит.
Я вообще сторонник того, что не люди потеряют работу, а у них станет чуть больше свободного времени, и они это свободное время смогут потратить на самообразование.
Примитивная реклама отомрёт
З: – По большому счёту реклама, которая демонстрируется, баннеры – там же по большому счёту даже продающие тексты не пишутся: «Нужны окна – бери!», «Нужно ещё что-то – бери!», то есть там вообще никакого креатива нет.
АХ: – Такая реклама отомрёт, конечно, рано или поздно. Она отомрёт не столько из-за развития технологий, а сколько из-за развития нас с вами.
Релевантное лучше перемешивать с нерелевантным
З: – Я здесь! У меня вопрос по поводу эксперимента, который, как вы сказали, у вас не получился (с рекомендательной системой). А на ваш взгляд, проблема в том, что там было подписано, почему рекомендуется, или в том, что всё, что видел пользователь, как бы было ему релевантно? Потому что я читала эксперимент для мам, и там ещё не было столько данных и там не было ещё столько данных из интернета, просто были данные продуктового ритейлера – предсказывал беременность (что они будут мамами). И когда они показывали подборку товаров для будущих мам, мамы приходили в ужас от того, что о них это узнали до каких-то официальных вещей. И это не работало. И для того, чтобы решить эту проблему, они нарочно перемешивали релевантные товары с чем-то совсем нерелевантным.
АХ: – Мы специально людям показали, на основании чего сделаны рекомендации, чтобы понять их обратную связь. Собственно, отсюда и родилась концепция, что людям не нужно говорить, что это какие-то супер-релевантные товары для него.
Да, кстати, подход перемешивать их с нерелевантными есть. Но тут есть обратная штука: иногда заходят люди, и они с этим нерелевантным товаром взаимодействуют – получаются случайные выбросы, модели ломаются и происходит всё ещё сложнее. Но такое есть на самом деле. Более того, многие компании специально, если знают, что кто-то обрабатывает их данные (кто-то может у них украсть подобную выдачу), – они специально её иногда перемешивают для того, чтобы можно было потом доказать, что вы взяли данные не со своей рекомендательной системы, а с условного «Яндекс.Маркета».
Блокировщики рекламы и браузерная безопасность
З: – Привет. Ты упоминал про Ghostery и Adblock. Можешь вообще рассказать, насколько такие трекеры вообще эффективны (может, по статистике)? И были ли у тебя какие-нибудь заказы от компаний: мол, сделай так, чтобы нашу рекламу нельзя было закрыть «Адблоком».
АХ: – Мы напрямую с рекламными платформами не связываемся – как раз из-за того, чтобы они не просили сделать так, чтобы их рекламу видели все. Я лично пользуюсь Ghostery – считаю, очень крутое расширение. Сейчас же все браузеры борются за приватность: «Мозилла» выпустила кучу всевозможных обновлений, «Гугл Хром» супер-«секьюрный» теперь. Они все блокируют всё что только можно. «Сафари» уже даже «Гироскоп» по умолчанию отключил.
И этот тренд, конечно, хороший (не для тех, кто собирает данные, хотя и они тоже выкрутились), потому что люди сначала заблокировали «куки». Все, кто владел рекламными сетями, вспомнили о такой замечательной технологии, как фингерпринты браузера – это алгоритмы, которые получают 60 разных параметров (разрешение экрана, версия, установленные шрифты) и на основании их высчитывают уникальный «айдишник». Перешли на это. А браузеры начали бороться и с этим. В общем, это будет бесконечная битва титанов.
Последняя девелоперская «Мозилла» достаточно защищена. Она практически никакие «куки» не сохраняет, устанавливает малое время жизни. Особенно, если включить «Инкогнито», тебя вообще никто не найдёт. Вопрос в том, что неудобно будет во всех сервисах пароли вводить.
Где работает и не работают психотипирование и физиогномика?
З: – Артур, спасибо большое за лекцию. Тоже с удовольствием слежу за твоими лекциями на «Ютубе». Ты упомянул о том, что маркетологи чаще и чаще прибегают к тому, чтобы использовать психотипирование, физиогномику. У меня вопрос: в каких категориях брендов это работает? Моё убеждение – это только для FMCG подходит. Например, автомобиль выбирать – это…
АХ: – Могу скачать, где это точно работает. Это работает во всяких историях типа «Амедиатеки», сериалах, фильмах и так далее. Это хорошо работает в банках и банковских продуктах, если это не премиальный сегмент, а всякие студенческие карты, рассрочки – вот такие вещи. Это действительно очень хорошо работает в FMCG и во всяких «Айфонах», зарядках, во всей этой чебурде. Это работает хорошо в «маминых» товарах, «папиных». Хотя знаю, что в рыболовстве (есть такая тема)… Несколько раз были кейсы с рыболовами – их никогда не удаётся достоверно сегментировать. Не знаю почему. Какая-то ошибка статистическая.
Это плохо работает с автомобилистами, с бижутерией, с какими-то вещами для дома. По сути дела, это плохо работает с тем, о чём люди никогда не написали бы в социальные сети – можно так это проверить. Условно, с покупкой стиральной машиной: вот как понять, у кого есть стиральная машина, а у кого – нет? Вроде как она у всех есть. Можно использовать данные ОФД – по чекам посмотреть, кто что покупал, по чекам «смэтчить» этих людей. Но по факту такие вещи, о которых ты никогда не рассказал бы, например, в «Инстаграме» – с такими вещами работать сложно.
Машины распознают уловки как статистические вбросы.
З: – У меня вопрос про таргетинг. Возможно ли существование (или вдруг они существуют) условного рандомного персонажа, который во всём противоречит себе: в начале он гуглит «лучшие спортзалы», а потом гуглит «10 способов ничего не делать»? И так во всём. Может ли таргетинг уследить за таким, который сам себе противоречит?
АХ: – Здесь вопрос только вот в чём: если вы 2 года пользовались «Гуглом», рассказали ему про себя всё, что только можно, а сейчас установите себе плагин, который будет подобные рандомные запросы писать, то, конечно же, по статистике можно будет понять – то, что вы делаете сейчас – это статистический выброс, и всё это дело отсеять. Если вы хотите – зарегистрируйте новый аккаунт, но объём рекламы не изменится. Она просто странной станет. Хотя она и сейчас странная.
Немного рекламы :)
Спасибо, что остаётесь с нами. Вам нравятся наши статьи? Хотите видеть больше интересных материалов? Поддержите нас, оформив заказ или порекомендовав знакомым, облачные VPS для разработчиков от $4.99, уникальный аналог entry-level серверов, который был придуман нами для Вас: Вся правда о VPS (KVM) E5-2697 v3 (6 Cores) 10GB DDR4 480GB SSD 1Gbps от $19 или как правильно делить сервер? (доступны варианты с RAID1 и RAID10, до 24 ядер и до 40GB DDR4).
Dell R730xd в 2 раза дешевле в дата-центре Equinix Tier IV в Амстердаме? Только у нас 2 х Intel TetraDeca-Core Xeon 2x E5-2697v3 2.6GHz 14C 64GB DDR4 4x960GB SSD 1Gbps 100 ТВ от $199 в Нидерландах! Dell R420 — 2x E5-2430 2.2Ghz 6C 128GB DDR3 2x960GB SSD 1Gbps 100TB — от $99! Читайте о том Как построить инфраструктуру корп. класса c применением серверов Dell R730xd Е5-2650 v4 стоимостью 9000 евро за копейки?
Автор: ua-hosting