Главная

Рубрика «биноминальное распределение»

Решаем задачи по теорверу с собеседований в Яндекс и Авито: считаем доверительный интервал для Бета-распределения

2025-01-10 в 21:33, admin, рубрики: байесовские методы, биноминальное распределение, доверительный интервал, нормальное распределение, семплирование томпсона

В данной статье я разбираю математику, лежащую в основе двух связанных технических задач. Я показываю, как из биномиального распределения рождается Бета-распределение и демонстрирую расчет доверительного интервала для последнего: через точную формулу для случая с Читать полностью »

Сэмплирование и точность вычислений

2019-07-07 в 7:17, admin, рубрики: data mining, аналитика данных, Аналитика мобильных приложений, биноминальное распределение, бутстреппинг, доверительный интервал, конверсия, сэмплирование, точность, Управление продуктом

Ряд моих коллег сталкиваются с проблемой, что для расчета какой-то метрики, например, коэффициента конверсии, приходится кверить всю базу данных. Или нужно провести детальное исследование по каждому клиенту, где клиентов миллионы. Такого рода квери могут работать довольно долго, даже в специально сделанных для этого хранилищах. Не очень-то прикольно ждать по 5-15-40 минут, пока считается простая метрика, чтобы выяснить, что тебе нужно посчитать что-то другое или добавить что-то еще.

Одним из решений этой проблемы является сэмплирование: мы не пытаемся вычислить нашу метрику на всем массиве данных, а берем подмножество, которое репрезентативно представляет нам нужные метрики. Это сэмпл может быть в 1000 раз меньше нашего массива данных, но при этом достаточно хорошо показывать нужные нам цифры.

В этой статье я решил продемонстрировать, как размеры выборки сэмплирования влияют на ошибку конечной метрики.

Читать полностью »

«Правда, чистая правда и статистика» или «15 распределений вероятности на все случаи жизни»

«Правда, чистая правда и статистика» или «15 распределений вероятности на все случаи жизни» - 1 Статистика приходит к нам на помощь при решении многих задач, например: когда нет возможности построить детерминированную модель, когда слишком много факторов или когда нам необходимо оценить правдоподобие построенной модели с учётом имеющихся данных. Отношение к статистике неоднозначное. Есть мнение, что существует три вида лжи: ложь, наглая ложь и статистика. С другой стороны, многие «пользователи» статистики слишком ей верят, не понимая до конца, как она работает: применяя, например, тест Стьюдента к любым данным без проверки их нормальности. Такая небрежность способна порождать серьёзные ошибки и превращать «поклонников» теста Стьюдента в ненавистников статистики. Попробуем поставить токи над i и разобраться, какие модели случайных величин должны использоваться для описания тех или иных явлений и какая между ними существует генетическая связь.
Читать полностью »

Публикации RSS | Комментарии RSS

https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js

Информация

Обсуждаемое

Рекомендуем

Рубрика «биноминальное распределение»

Решаем задачи по теорверу с собеседований в Яндекс и Авито: считаем доверительный интервал для Бета-распределения

Сэмплирование и точность вычислений

«Правда, чистая правда и статистика» или «15 распределений вероятности на все случаи жизни»

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «биноминальное распределение»

Решаем задачи по теорверу с собеседований в Яндекс и Авито: считаем доверительный интервал для Бета-распределения

Сэмплирование и точность вычислений

«Правда, чистая правда и статистика» или «15 распределений вероятности на все случаи жизни»

Новости

Актуальные темы

Архив