Рубрика «доверительный интервал»

Иллюзия 95%: гайд по самой частой элементарной ошибке в Data Science

2025-12-07 в 17:28, admin, рубрики: python, анализ данных, визуализация данных, доверительный интервал, математическая статистика, ошибки мышления, статистика, статистическая значимость, теория вероятностей

Представьте классическую ситуацию. Вы — аналитик. Вы только что провели A/B-тест или оценили средний чек. Ваш скрипт на Python выдал результат:

95% Confidence Interval: [100, 120].

Вы приходите к продакт-менеджеру и уверенно говорите:

С вероятностью 95% истинный средний чек находится между 100 и 120 рублями.

Менеджер доволен, вы довольны. Все звучит логично. Но у меня для вас новости. В этом утверждении вы допустили фундаментальную ошибку.

Если бы в комнате сидел настоящий математик, он бы начал кричать:

Нет там никакой вероятности! Параметр либо там, либо нет!.

Читать полностью »

Невероятные события: насколько корректен размер выборки?

2025-08-11 в 16:49, admin, рубрики: доверительный интервал, закон больших чисел, интуиция, математика, математическое ожидание, случайность, статистика, теория вероятностей, центральная предельная теорема

Недавно я написал статью про Закон Больших Чисел. Мы начали с такого вопроса

Бросим монетку тысячу раз и посчитаем, сколько выпало орлов. Странно ожидать, что выпадет ровно 500, но какое отклонение от этого числа типично?

Например, если зафиксировать конкретное отклонение, какова вероятность, что оно произойдёт? Если наоборот зафиксировать вероятность, то каким должно быть отклонение? И, наконец, если заданы и вероятность, и отклонение, то сколько раз надо бросать монетку, чтобы с заданной вероятностью попасть в эти рамки?

Читать полностью »

Решаем задачи по теорверу с собеседований в Яндекс и Авито: считаем доверительный интервал для Бета-распределения

2025-01-10 в 21:33, admin, рубрики: байесовские методы, биноминальное распределение, доверительный интервал, нормальное распределение, семплирование томпсона

В данной статье я разбираю математику, лежащую в основе двух связанных технических задач. Я показываю, как из биномиального распределения рождается Бета-распределение и демонстрирую расчет доверительного интервала для последнего: через точную формулу для случая с Читать полностью »

Доверительный интервал для числа заболевших коронавирусом (расчёт по летальности)

2020-03-16 в 20:16, admin, рубрики: R, доверительный интервал, коронавирус, статистика

Популярный аргумент к ставшей вирусной публикации про коронавирус — да как же можно по трём случаям какую-то статистику выводить? Нельзя делать выводы по таким маленьким выборкам! Эту историю про размеры выборок все, кто учился социальным наукам, впитали с молоком альма матери. И это правильно в тех ситуациях, с которыми мы обычно имеем дело — с выборочными статистиками.

К случаю с тремя умершими эти статистики имеют весьма опосредованное отношение. В те годы, когда я ещё преподавал матметоды для психологов в универе, я всегда пытался остановиться на этом месте — то, о чём весь этот курс, не имеет отношения к фактическим данным. Только к задаче, когда нам надо по случайной выборке сделать какой-то вывод о генеральной совокупности.

И вот перед нами число 3. Три умерших, не вектор какой-нибудь, не таблица и не выборка. Это факт. Три умерших попали к нам совершенно не случайно. Они умерли.
Читать полностью »

Сэмплирование и точность вычислений

2019-07-07 в 7:17, admin, рубрики: data mining, аналитика данных, Аналитика мобильных приложений, биноминальное распределение, бутстреппинг, доверительный интервал, конверсия, сэмплирование, точность, Управление продуктом

Ряд моих коллег сталкиваются с проблемой, что для расчета какой-то метрики, например, коэффициента конверсии, приходится кверить всю базу данных. Или нужно провести детальное исследование по каждому клиенту, где клиентов миллионы. Такого рода квери могут работать довольно долго, даже в специально сделанных для этого хранилищах. Не очень-то прикольно ждать по 5-15-40 минут, пока считается простая метрика, чтобы выяснить, что тебе нужно посчитать что-то другое или добавить что-то еще.

Одним из решений этой проблемы является сэмплирование: мы не пытаемся вычислить нашу метрику на всем массиве данных, а берем подмножество, которое репрезентативно представляет нам нужные метрики. Это сэмпл может быть в 1000 раз меньше нашего массива данных, но при этом достаточно хорошо показывать нужные нам цифры.

В этой статье я решил продемонстрировать, как размеры выборки сэмплирования влияют на ошибку конечной метрики.

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «доверительный интервал»

Иллюзия 95%: гайд по самой частой элементарной ошибке в Data Science

Невероятные события: насколько корректен размер выборки?

Решаем задачи по теорверу с собеседований в Яндекс и Авито: считаем доверительный интервал для Бета-распределения

Доверительный интервал для числа заболевших коронавирусом (расчёт по летальности)

Сэмплирование и точность вычислений