Распили её правильно. А-В разрез генеральной совокупности

в 12:03, , рубрики: ab testing, data mining, data science, гадание, предсказания, статистика, теория вероятностей

В написании этой статьи ни один ИИ не пострадал участвовал.

Весь текст написан с помощью мощного естественного интеллекта автора

В настоящее время А/В тестирование приобрело всеобъемлющий и неоспоримый формат исследования своих действий в предложении товаров и услуг, да и любого исследования человеческих сообществ.

И главное, что всё просто - берете исследуемое множество, выделяете часть и исследуете эту часть. В надежде, что свойства этой части такие же, как и у всего сообщества.

Целая религия про то, как выделять, как исследовать, как считать, делить и умножать свои знания об исследуемой совокупности событий.

Но вот что-то в таком простом подходе мне не нравится, ну не соответствует это происходящему. Не прикладывается эта математика к реальности правильно.

Исследователи игнорируют существенную часть, главное свойство сообществ, человеческих сообществ.

И результат, в результате(!), может получиться любой.

А/В тестирование применяется очень широко, выглядит всё просто, но на самом деле это очень коварный инструмент.

Применение А/В тестирования совсем не так просто, как кажется.

И даже совсем не просто и к исследованию социального поведения людей почти не применимо никогда. Именно так - НИКОГДА!

И вот почему.

Самый простой и очевидный пример, как оно начиналось.

Вот произвели 10000 моторчиков или реле и ещё чего. Что бы их все не испытывать, иначе ОТК будет дороже производства, проверяем выборочно - каждой бригады, каждого часа, каждого станка и т.д. по нескольку штук. И есть какая-то уверенность, что пропорции брака в выборке такие же, как и во всей совокупности. Математики, во всяком случае, так и считают. Одинаковое оно всегда и везде одинаково, даже если количество разное.

И вот тут теорвер и матстат приносят массу прибыли. Если вы произвели миллион болтов, то можете спокойно понять, что отправив покупателю миллион плюс дельту малую болтов, вы точно отправите миллион годных и за брак и свою репутацию платить не нужно.

Или классический пример. Пушка стреляет по цели и сколько нужно снарядов, чтобы с вероятностью 99.9999% попасть.

Или ещё классика - сколько каких монет и купюр положить в кассу, что бы обслужить очередь без проблем. Казалось бы это про людей, но на самом деле тут ограничение по вероятности купюр и монет у посетителей, чего у людей может и не наблюдаться. Так что эта задача тоже не о людях.

Но лет 100 назад стали переносить инструмент промышленной эпохи на людей, а последние лет 50, когда появился интернет, так и совсем массово. И вот тут началось.

Классика A/B тестирования звучит так - покажем почти всем пользователям красную кнопку, а сотой части покажем синюю и сравним, где нам лучше. И тогда начнем показывать всем. Или не начнём, в зависимости от сравнения.

Нормальная, казалось бы, задачка. Вот у докторов она звучит так - выберем больных, чтобы и все возрасты, и пол, и рост, и цвет волос и т.д. были представлены и всем остальным даём лекарство, а вот этим выбранным плацебо. И смотрим, где живучесть повыше. Если с плацебо живут хуже, значит лекарство действует.

Вот так незамысловато, скрываясь за умными словами, всё и было устроено.

И тогда решили перенести эту методу на социальные отношения и стали изучать один вопрос - как больше впарить разного всем?

Но только применение тут вот такого А/В тестирование сродни тому, что если бы больные собирались, обсуждали болячки, обменивались лекарствами и симптомами.

Есть и другие препятствия применению матстата вот так огульно.

Вот конкретный пример.

Попробуем исследовать предпочтения горожан одного города.

Если взять пару жителей с каждого района, то это глупость. Поведение этой группы людей не будет напоминать ничего о поведения города в целом.

Если взять по-взрослому, с каждой социальной группы толково и репрезентативно, то тут другая засада: - каждый человек одновременно в разных группах и вот так просто выбрать людей так, чтобы были представлены все группы равномерно не получится.

Например, берём выборку из Тушино(правильно и по всем возрастам, полам и т.д.), а там много футболистов (в Тушино 5 стадионов) и городская группа футболистов будет перекошена в сторону Тушино.

Пример с Тушино и футболистами условный, весь смысл в том, что город неоднородный и нужно выбрать группу похожую на город, только меньше, это как два подобных треугольника. Один большой, другой маленький, но свойства-углы одинаковы. Но вот так подобрать испытуемую группу, что бы по всем свойствам соблюсти репрезентативность, скорее всего, не получится и будут перекосы и учитывать которые не учат ни на каких курсах, сложно это и непросто.

Есть и более сложная, но и наверно, менее понятная проблема.

Люди связаны между собой, общаются, меняются идеями, алгоритмами, оценивают их и, бывает, применяют чужие как свои, и выдёргивая в группу одного, чтобы получить подобие с городом, нужно выдернуть не только человека в группу, но и его связи. Нельзя взять мужа из одной семьи, жену из другой, детей из третьих и показав им "синюю кнопку" по их поведению понять, как поведут себя реальные семьи.

Игнорируя социальные связи при изучении социального поведения, получим только проблемы, нам из всех групп, например собаководов нужно выбрать репрезентативную группу, но нужно выбрать так, чтобы связи сохранялись - бульдоги с бульдогами, а корги с коргами(?). А вот это уже почти невозможно, придётся брать всех.

Если мы исследуем кусок металла, то любая его часть соизмеримого размера обладает такими свойствами, как и целый кусок, и можно изучать только эту часть. Один грамм золота и 100 грамм золота плавятся при одинаковой температуре и других одинаковых условиях независимо от места. Спектр излучения натрия одинаковый что на дальних галактиках, что тут на Земле. Но если взять выборочно атомы золота, что спектр будет тот же, но вот температура плавления потеряет смысл, это же ведь другое состояние вещества - пар, или, может, плазма.

И вот с людьми это так же почти всегда. У них у всех одинаковые аминокислоты, но вот все остальное всегда и везде разное.

И если начать выравнивать группы, связи членов групп в ней, то получится, что нужно выбрать весь город, а выбор малой части для АВ теста превращается в искусство на грани возможного и скорее всего, корректно выбрать не получится, а коррекции вносить это очень и очень сложно.

Или это уже не A/B тест.

Есть такая иллюзия, что если надёргать из Москвы десятую часть репрезентативно и создать такую вот Нью-Москву, то она, эта Нью-Москва будет как большая, взрослая Москва, но это не так. Нет связей, даже если выровняли группы, что само по себе почти невозможно, то связи перенести не получится и эта Нью Москва будет совсем другим городом, даже виртуальным.

Поэтому, когда разного рода курсисты пишут, как они воздействовали на часть, а потом успешно перенесли это воздействие на весь город и получили похожий результат, что это просто откровенное вранье.

Но всё не так уж и плохо и не зря большие умные дядьки и тётки из больших цветных (красных, синих, зеленых и т.д. они уже цвета приватизируют) применяют простое АВ тестирование неспроста так уверенно.

Если предположить, что в данный конкретный момент измерений человек действуют независимо от остальных, то тут опять появляется вполне себе грамотная и мощная математика. Центральную предельную теорему можно включать на полную мощность и свойства ситуации если вдруг можно отобразить в евклидово пространство, то вся мощь алгебры подключается.

Вот везде эти взрослые дядьки и тётки всех пытаются уговорить, что человек действует спонтанно, что спонтанные покупки это главное дело в его жизни. Шёл, шёл себе, видит, например, магазин "Ххххххх" и вдруг ему показали народного артиста, например "Ххххх Хххххх" и всё, он тут же забежит и купит чего нибудь. И даже плеваться не будет.

Вот если вдруг у вас действительно такая модель и вы действительно рассматриваете эффективность спонтанных покупок, то А/В тестирование это самый мощный видимый инструмент (про ЦПТ, алгебру, метрические пространства и меру Лебега лучше на совещаниях молчать).

Хоть такая ситуация весьма и весьма притянута, но всё-таки есть небольшой процент спонтанных покупок. Стоит чел перед витриной с бриллиантовыми брошками и не знает, какую купить, вот выбирает спонтанно, глядя на кривляния какого певца или артиста. Бывает.

Но автору поручали и предоставляли возможность провести исследования по формированию предпочтений в человеческих сообществах - так вот, ни разу такого не видел, что бы вот так спонтанно и добровольно кто-то отдал свои деньги, время, имущество, права и т.д.

Автор: ChePeter

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js