Рубрика «статистика» - 15

Что почитать и посмотреть для старта в Data Science: книги, словари и курсы

2019-09-11 в 9:24, admin, рубрики: data science, python, sql, базы данных, Блог компании Нетология, математика, нетология, статистика, Статистика в IT

Подборка ресурсов по математике, статистике и программированию для начинающих Дата Сайентистов. Ознакомьтесь с материалами, если вы планируете учиться на онлайн-курсах. Так вы опередите одногруппников, а заодно прокачаете полезный навык — изучать дополнительные материалы самостоятельно.
Читать полностью »

Gett попросил ФАC считать Яндекс.Такси и «Везёт» агрегаторами с долей 70% и запретить слияние

2019-09-11 в 8:11, admin, рубрики: gett, Везёт, Госвеб, инвестиции, мобильные приложения, Покупка / Продажа, статистика, такси, Текучка, ФАС, метки: gett, Везёт, Госвеб, инвестиции, мобильные приложения, Покупка / Продажа, статистика, такси, Текучка, ФАС, яндекс такси

Служба вызова такси Gett обратилась в ФАС, сообщил «Коммерсант» и попросила антимонопольное ведомство считать, что Яндекс.Такси и «Везёт» работают на отдельном рынке «цифровых агрегаторов такси», но не на рынке такси перевозок. ФАС уже продлил сроки рассмотрения возможной сделки в которой Яндекс.Такси намерены купить активы «Читать полностью »

Хабрастатистика: как живет Хабр без geektimes

2019-09-10 в 20:10, admin, рубрики: Geektimes, python, веб-аналитика, Программирование, Социальные сети и сообщества, статистика, Статистика в IT

Привет.

Данная статья является логическим продолжением рейтинга Лучших статей Хабра за 2018 год. И хотя год еще не закончился, но как известно, летом произошли изменения в правилах, соответственно, стало интересно посмотреть, повлияло ли это на что-нибудь.

Хабрастатистика: как живет Хабр без geektimes - 1

Кроме собственно статистики, будет приведен и обновленный рейтинг статей, а также немного исходников для тех кому интересно, как это работает.

Для тех, кому интересно что получилось, продолжение под катом.
Читать полностью »

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях

2019-09-09 в 13:23, admin, рубрики: ata analysis, big data, binary Lyndon words, binomial coefficient, Binomial Theorem, boolean, data mining, machine learning, neural network, Pascal's Triangle, rules-based, tests of randomness, Алгоритмы, анализ данных, белый шум, бинарная последовательность, биномиальный коэффициент, вероятность ошибки, ГСПЧ, кластеризация данных, марковский процесс, математика, нейрон, нейронная сеть, открытые данные, ошибки первого и второго рода, Перцептрон, поиск закономерностей, последовательность, проверка гипотезы, распределение вероятностей, синапс, слова Линдона, случайный процесс, статистика, теорема Эрдёша-Реньи, треугольник Паскаля, фрактальные свойства, экспертные системы

Серия «Белый шум рисует черный квадрат»

История цикла этих публикаций начинается с того, что в книге Г.Секей «Парадоксы в теории вероятностей и математической статистике» (стр.43), было обнаружено следующее утверждение:

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 1
Рис. 1.

По анализу комментарий к первым публикациям (часть 1, часть 2) и последующими рассуждениями созрела идея представить эту теорему в более наглядном виде.

Большинству из участников сообщества знаком треугольник Паскаля, как следствие биноминального распределения вероятностей и многие сопутствующие законы. Для понимания механизма образования треугольника Паскаля развернем его детальнее, с развертыванием потоков его образования. В треугольнике Паскаля узлы формируются по соотношению 0 и 1, рисунок ниже.

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 2
Рис. 2.

Для понимания теоремы Эрдёша-Реньи составим аналогичную модель, но узлы будут формироваться из значений, в которых присутствуют наибольшие цепочки, состоящие последовательно из одинаковых значений. Кластеризации будет проводиться по следующему правилу: цепочки 01/10, к кластеру «1»; цепочки 00/11, к кластеру «2»; цепочки 000/111, к кластеру «3» и т.д. При этом разобьём пирамиду на две симметричные составляющие рисунок 3.

Треугольник Паскаля vs цепочек типа «000…-111…» в бинарных рядах и нейронных сетях - 3
Рис. 3.

Первое что бросается в глаза это то, что все перемещения происходят из более низкого кластера в более высокий и наоборот быть не может. Это естественно, так как если цепочка размера j сложилась, то она уже не может исчезнуть.
Читать полностью »

Власть готовит интернет-госсчетчик на базе Mediascope

2019-09-05 в 14:50, admin, рубрики: Администрация Президента, александр жаров, Алексей Волин, аналитика, Госвеб, Интернет-реклама, Медиа, Минкомсвязи, налоги, онлайн-медиа, рейтинг, Роскомнадзор, СМИ, статистика, метки: Администрация Президента, Александр Жаров, Алексей Волин, аналитика, Госвеб, интернет-реклама, медиа, Минкомсвязи, налоги, Онлайн-медиа, рейтинг, Роскомнадзор, СМИ, статистика

Администрация Президента и чиновники обсуждают с медакомпаниями запуск госсчётчика для подсчёта показов контента и рекламы в Рунете, выяснили Читать полностью »

Россияне уходят от голосовых звонков в мессенджеры

2019-09-04 в 14:46, admin, рубрики: сотовая связь, статистика, Статистика в IT, трафик

С 2011 года мобильный голосовой трафик в России постепенно падает. Что касается последних двух лет, то в I квартале 2019 года объем трафика снизился на 2,8% по сравнению с аналогичным периодом прошлого года. Во втором квартале падение увеличилось до 4%, о чем заявили представители Минкомсвязи. За шесть месяцев 2019 года россияне наговорили около 219,1 млрд минут против 228,2 минут годом ранее.

Что касается прошлого года, то голосовой трафик в мобильных сетях страны почти не менялся — 455,9 млрд минут против 455,8 млрд в 2017 г. Правда, статистика относится ко всей России, а вот по Москве ситуация немного иная. Тогда москвичи наговорили на 0,6% меньше, чем годом ранее. В этом году падение также продолжается. За последние шесть месяцев москвичи наговорили 29,2 млрд минут против 31,5 млрд минут за аналогичный период 2018 г. (-7,2%).
Читать полностью »

«Билайн» намерен развиваться вне телекома

2019-09-03 в 11:03, admin, рубрики: big data, билайн, Вымпелком / VEON, инвестиции, искусственный интеллект, сотовые операторы, статистика, Стратегия, Текучка, телеком, метки: big data, билайн, Вымпелком / VEON, инвестиции, искусственный интеллект, сотовые операторы, статистика, Стратегия, Текучка, телеком

Материнская компания российского «Вымпелкома» (бренд «Билайн») раскрыла новую стратегию развития. Veon намерен усилить развивитие вне телекоммуникационной отрасли, в частности холдинг завил, что намерен покупать и развивать технологии big data и искусственного интеллекта.

По Читать полностью »

Полезная help-ссылка для работы с данными

2019-09-03 в 7:17, admin, рубрики: big data, data mining, python, R, анализ данных, Блог компании Mail.Ru Group, математика, машинное обучение, статистика

Хабр, привет. Представляю вам главную help-ссылку для работы с данными. Материал в Гугл-доке подойдет как профессионалам, так и тем, кто только учится работать с данными. Пользуйтесь и прокачивайте скиллы сами + делитесь с коллегами.

Дальнейшее описание поста — это содержание help-ссылки. Поэтому, можете сразу ознакомиться с документом. Либо начать с её содержания, которую прикрепляю ниже.

Конечно, весь список книг/сервисов/видео и лекций в файле неполный. Поэтому предлагаю сделать этот пост ценнейшим — добавляйте в комментарии свои самые полезные ссылки, самые крутые из них я добавлю к себе в файл.

Читать полностью »

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов

2019-09-01 в 14:31, admin, рубрики: data mining, data science, python, анализ данных, визуализация данных, данные, зарплаты, статистика, Статистика в IT

Решил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анонимный опрос относительно зарплат, стажа и позиций украинских программистов за 2014 и 2019 год. (1)

Этапы анализа

Препроцессинг данных и предварительный анализ (кому интересно код тут)
Графическое представление данных. Функция плотности распределения.
Формулируем нулевую гипотезу (H0) (2)
Выбираем метрику для анализа
Используем метод bootstraping для формирования нового массива данных
Рассчитываем p-value (3) для подтверждения или опровержения гипотезы

Препроцессинг данных

После некоторых манипуляций (код тут), приводим данные в следующий вид:

# Строка здесь это отдельный результат опроса, колонки переменные.

display(data_14_1.head(), data_19_1.head())
print('Всего опрошеных програмистов: n 
      {} чел. в 14 году и {} в 19 году'.format(len(data_14_1), len(data_19_1)))

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов - 1
Читать полностью »

Vivaldi: Как мы подсчитываем количество пользователей?

2019-08-16 в 10:32, admin, рубрики: vivaldi, vivaldi technologies, Блог компании Vivaldi Technologies AS, браузеры, приватность, статистика

Совсем скоро компания Vivaldi изменит технологию, с помощью которой ведётся подсчёт числа пользователей своего браузера. Идентификация пользователей, которая многим так не нравилась, постепенно уйдёт в прошлое. Но что придёт ей на замену и как теперь компания будет считать активных пользователей? Перевод статьи Vivaldi Technologies под катом.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «статистика» - 15

Что почитать и посмотреть для старта в Data Science: книги, словари и курсы

Gett попросил ФАC считать Яндекс.Такси и «Везёт» агрегаторами с долей 70% и запретить слияние

Хабрастатистика: как живет Хабр без geektimes