Рубрика «биноминальное распределение»

Ряд моих коллег сталкиваются с проблемой, что для расчета какой-то метрики, например, коэффициента конверсии, приходится кверить всю базу данных. Или нужно провести детальное исследование по каждому клиенту, где клиентов миллионы. Такого рода квери могут работать довольно долго, даже в специально сделанных для этого хранилищах. Не очень-то прикольно ждать по 5-15-40 минут, пока считается простая метрика, чтобы выяснить, что тебе нужно посчитать что-то другое или добавить что-то еще.

Одним из решений этой проблемы является сэмплирование: мы не пытаемся вычислить нашу метрику на всем массиве данных, а берем подмножество, которое репрезентативно представляет нам нужные метрики. Это сэмпл может быть в 1000 раз меньше нашего массива данных, но при этом достаточно хорошо показывать нужные нам цифры.

В этой статье я решил продемонстрировать, как размеры выборки сэмплирования влияют на ошибку конечной метрики.

Читать полностью »

в 7:46, , рубрики: f-критерий, f-распределение, f-тест, t-критерий, t-распределение, t-тест, z-критерий Фишера, z-распределение, z-тест, Алгоритмы, Анализ и проектирование систем, бета распределение, биноминальное распределение, гамма распределение, геометрическое рапределение, гипергеометрическое распределение, двойное показательное, двойное экспоненциальное, Занимательные задачки, критерий Пирсона, критерий согласия, критерий хи квадрат, математика, моделирование, нормальное распределение, отрицательное биноминальное, плотность вероятности, показательное распределение, профит фактор, распределение Бернулли, распределение Вейбулла, распределение Гаусса, распределение Коши, распределение Лапласса, распределение Паскаля, распределение Пирсона, распределение пуассона, распределение Стьюдента, распределение Фишера, распределение хи квадрат, распределение Эрланга, случайная величина, статистика, статистический тест, статитический анализ, теория вероятностей, тест Стьюдента, тест Фишера, экспоненциальное распределение

«Правда, чистая правда и статистика» или «15 распределений вероятности на все случаи жизни» - 1 Статистика приходит к нам на помощь при решении многих задач, например: когда нет возможности построить детерминированную модель, когда слишком много факторов или когда нам необходимо оценить правдоподобие построенной модели с учётом имеющихся данных. Отношение к статистике неоднозначное. Есть мнение, что существует три вида лжи: ложь, наглая ложь и статистика. С другой стороны, многие «пользователи» статистики слишком ей верят, не понимая до конца, как она работает: применяя, например, тест Стьюдента к любым данным без проверки их нормальности. Такая небрежность способна порождать серьёзные ошибки и превращать «поклонников» теста Стьюдента в ненавистников статистики. Попробуем поставить токи над i и разобраться, какие модели случайных величин должны использоваться для описания тех или иных явлений и какая между ними существует генетическая связь.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js