Рубрика «статистика» - 15

Подборка ресурсов по математике, статистике и программированию для начинающих Дата Сайентистов. Ознакомьтесь с материалами, если вы планируете учиться на онлайн-курсах. Так вы опередите одногруппников, а заодно прокачаете полезный навык — изучать дополнительные материалы самостоятельно.
Читать полностью »

Служба вызова такси Gett обратилась в ФАС, сообщил «Коммерсант» и попросила антимонопольное ведомство считать, что Яндекс.Такси и «Везёт» работают на отдельном рынке «цифровых агрегаторов такси», но не на рынке такси перевозок. ФАС уже продлил сроки рассмотрения возможной сделки в которой Яндекс.Такси намерены купить активы «Читать полностью »

Привет.

Данная статья является логическим продолжением рейтинга Лучших статей Хабра за 2018 год. И хотя год еще не закончился, но как известно, летом произошли изменения в правилах, соответственно, стало интересно посмотреть, повлияло ли это на что-нибудь.

Хабрастатистика: как живет Хабр без geektimes - 1

Кроме собственно статистики, будет приведен и обновленный рейтинг статей, а также немного исходников для тех кому интересно, как это работает.

Для тех, кому интересно что получилось, продолжение под катом.
Читать полностью »

Серия «Белый шум рисует черный квадрат»

История цикла этих публикаций начинается с того, что в книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43), было обнаружено следующее утверждение:

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 1
Рис. 1.

По анализу комментарий к первым публикациям (часть 1, часть 2) и последующими рассуждениями созрела идея представить эту теорему в более наглядном виде.

Большинству из участников сообщества знаком треугольник Паскаля, как следствие биноминального распределения вероятностей и многие сопутствующие законы. Для понимания механизма образования треугольника Паскаля развернем его детальнее, с развертыванием потоков его образования. В треугольнике Паскаля узлы формируются по соотношению 0 и 1, рисунок ниже.

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 2
Рис. 2.

Для понимания теоремы Эрдёша-Реньи составим аналогичную модель, но узлы будут формироваться из значений, в которых присутствуют наибольшие цепочки, состоящие последовательно из одинаковых значений. Кластеризации будет проводиться по следующему правилу: цепочки 01/10, к кластеру «1»; цепочки 00/11, к кластеру «2»; цепочки 000/111, к кластеру «3» и т.д. При этом разобьём пирамиду на две симметричные составляющие рисунок 3.

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 3
Рис. 3.

Первое что бросается в глаза это то, что все перемещения происходят из более низкого кластера в более высокий и наоборот быть не может. Это естественно, так как если цепочка размера j сложилась, то она уже не может исчезнуть.
Читать полностью »

Администрация Президента и чиновники обсуждают с медакомпаниями запуск госсчётчика для подсчёта показов контента и рекламы в Рунете, выяснилиЧитать полностью »

С 2011 года мобильный голосовой трафик в России постепенно падает. Что касается последних двух лет, то в I квартале 2019 года объем трафика снизился на 2,8% по сравнению с аналогичным периодом прошлого года. Во втором квартале падение увеличилось до 4%, о чем заявили представители Минкомсвязи. За шесть месяцев 2019 года россияне наговорили около 219,1 млрд минут против 228,2 минут годом ранее.

Что касается прошлого года, то голосовой трафик в мобильных сетях страны почти не менялся — 455,9 млрд минут против 455,8 млрд в 2017 г. Правда, статистика относится ко всей России, а вот по Москве ситуация немного иная. Тогда москвичи наговорили на 0,6% меньше, чем годом ранее. В этом году падение также продолжается. За последние шесть месяцев москвичи наговорили 29,2 млрд минут против 31,5 млрд минут за аналогичный период 2018 г. (-7,2%).
Читать полностью »

Материнская компания российского «Вымпелкома» (бренд «Билайн») раскрыла новую стратегию развития. Veon намерен усилить развивитие вне телекоммуникационной отрасли, в частности холдинг завил, что намерен покупать и развивать технологии big data и искусственного интеллекта.

По Читать полностью »

Хабр, привет. Представляю вам главную help-ссылку для работы с данными. Материал в Гугл-доке подойдет как профессионалам, так и тем, кто только учится работать с данными. Пользуйтесь и прокачивайте скиллы сами + делитесь с коллегами.

Дальнейшее описание поста — это содержание help-ссылки. Поэтому, можете сразу ознакомиться с документом. Либо начать с её содержания, которую прикрепляю ниже.

Конечно, весь список книг/сервисов/видео и лекций в файле неполный. Поэтому предлагаю сделать этот пост ценнейшим — добавляйте в комментарии свои самые полезные ссылки, самые крутые из них я добавлю к себе в файл.

imageЧитать полностью »

Решил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анонимный опрос относительно зарплат, стажа и позиций украинских программистов за 2014 и 2019 год. (1)

Этапы анализа

  • Препроцессинг данных и предварительный анализ (кому интересно код тут)
  • Графическое представление данных. Функция плотности распределения.
  • Формулируем нулевую гипотезу (H0) (2)
  • Выбираем метрику для анализа
  • Используем метод bootstraping для формирования нового массива данных
  • Рассчитываем p-value (3) для подтверждения или опровержения гипотезы

Препроцессинг данных

После некоторых манипуляций (код тут), приводим данные в следующий вид:

# Строка здесь это отдельный результат опроса, колонки переменные.

display(data_14_1.head(), data_19_1.head())
print('Всего опрошеных програмистов: n 
      {} чел. в 14 году и {} в 19 году'.format(len(data_14_1), len(data_19_1)))

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов - 1
Читать полностью »

image

Совсем скоро компания Vivaldi изменит технологию, с помощью которой ведётся подсчёт числа пользователей своего браузера. Идентификация пользователей, которая многим так не нравилась, постепенно уйдёт в прошлое. Но что придёт ей на замену и как теперь компания будет считать активных пользователей? Перевод статьи Vivaldi Technologies под катом.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js