Национальная администрация безопасности дорожного движения (NHTSA) крупно рискует своей репутацией после разгромного отчёта, который опубликовала маленькая исследовательская и консалтинговая фирма под названием Quality Control Systems. Этот отчёт посвящён анализу доклада NHTSA от 2017 года, в результате которого чиновники выяснили, что автопилот Tesla снижает риск попасть в ДТП на 40% (диаграмма выше).
Читать полностью »
Рубрика «статистика» - 19
Серьёзные математические ошибки NHTSA позволили Tesla заявить о безопасности автопилота
2019-02-18 в 16:40, admin, рубрики: NHTSA, tesla, автопилот, статистика, Статистика в ITЖизненный цикл статьи на Хабре: пишем хабрапарсер
2019-02-15 в 20:58, admin, рубрики: data science, python, Алгоритмы, веб-аналитика, Программирование, Социальные сети и сообщества, статистика, Статистика в ITПривет!
Многие постоянные читатели и авторы сайта наверное задумывались о том, какой жизненный цикл имеют опубликованные здесь статьи. И хотя интуитивно это и так более-менее ясно (очевидно например, что статья на первой странице имеет максимальное число просмотров), но сколько конкретно?
Для сбора статистики воспользуемся Python, Pandas, Matplotlib и Raspberry Pi.
Тех кому интересно, что из этого получилось, прошу под кат.Читать полностью »
Этичность автоматизации активности
2019-02-10 в 22:46, admin, рубрики: github, автоматическое управление, статистика, Статистика в ITПривет! Сегодня я хотел бы поговорить про этичность, а именно про этичность в профессиональной сфере. Речь пойдет о сервисах фейковой активности и о тех заблуждениях, в которые они могут привести как обычного рядового пользователя, так и профессионала сферы разработки.
И так, начнем. Что я имею ввиду под фразой “фейковая активность” догадаться не сложно: это манипуляция и компрометирование тех данных, которые отвечают за показатель вашей активности, или проще, действий в интернете. С этим наверняка сталкивался каждый из вас, кто хоть раз пользовался соц-сетями: VK, Instagram и тд.
Опишу эту схему на примере Instagram: у каждого человека есть свой собственный аккаунт, а для разработчиков предоставляется API доступ. И до чего мы додумались? Запустить ботов которые через аккаунт человека будут проявлять разного рода активность (ставить лайки, подписываться, комментировать посты других людей, или даже самостоятельно вести страницу, на примере @neuralcat). И вскоре эту возможность начали активно использовать бизнес сферы. Привлечение новой аудитории путем таргетирования по определенным критериям и проводя активность на их странице. Все бы ничего, но вот со временем это вышло за все рамки. Каждый день десятки непонятных аккаунтов лайкают ваши фото, оставляют спам-комментарии отмечают вас на фото-розыгрышах и тд.
Бот активность вышла за все рамки благоразумия что на сегодняшний день Instagram закрывает свой API, и вот одна из причин: “Большинство сервисов, работающих с автопостингоми, накрутками лайков и «лайками типа OML» — делают это через приватное api — через «парольлогин», а не через официальное API.”Читать полностью »
Интересная статистика 100 000 анкет со Stack Overflow за 2018 (и хабраопрос)
2019-01-27 в 22:43, admin, рубрики: edisonsoftware, stack overflow, Блог компании Edison, Карьера в IT-индустрии, Программирование, статистика, Управление сообществом, Учебный процесс в IT
В начале 2018 года в опросе от Stack Overflow поучаствовало более 100000 респондентов, что сделало этот опрос разработчиков крупнейшим в мире.
Самые интересные ответы — под катом.
Анализ трендов российского YouTube за 2018 год
2019-01-24 в 6:13, admin, рубрики: tubewarden, TypeScript, YouTube, визуализация данных, Социальные сети и сообщества, статистикаСтарожилы, наверное, и не вспомнят, но в конце 2017-го года в обсуждениях в интернете была распространена мысль о том, что в трендах YouTube часто встречаются «накрученные» видео.
Поэтому накануне нового 2018-го года я написал утилиту для сбора информации о видео, которые попали в тренды. Для каждого видео запрашивается название, список тегов, дата создания, а так же ведется история изменений лаков/дизлайков/просмотров. Разработку вел на TypeScript для NodeJS, сам код выложен на GitHub.
Как итог, сейчас есть возможность строить красивые графики:
Так же есть возможность строить графики изменения трендов по ключевым словам. Всего за 2018-й год была собрана информация по 29271 видео. Сбор статистики ведется и сейчас.
Можно ли считать статистику при малом количестве данных?
2019-01-23 в 7:11, admin, рубрики: Байес, Занимательные задачки, малые выборки, математика, статистика, Статистика в ITВ целом ответ – да. Особенно, когда есть мозги и знание теоремы Байеса.
Напомню, что среднее и дисперсию можно считать только, если у вас имеется определенное количества событий. В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений. С чем это связано – вопрос философский. Почему я не могу просто взять и посчитать среднее, если у меня есть 5 измерений? По идее ничто не мешает, только среднее получается нестабильным. После еще одного измерения и пересчета оно может сильно измениться и полагаться на него можно начиная где-то с 30 измерений. Но и после 31го измерения оно тоже пошатнется, только уже не так заметно. Плюс добавляется проблема, что и среднее можно считать поразомну и получать разные значения. То есть из большой выборки можно выбрать первые 30 и посчитать среднее, потом выбрать другие 30 и тд … и получить много средних, которые тоже можно усреднять. Истинное среднее бывает недостижимо на практике, так как всегда имеем конечное количество измерений. В таком случае среднее является статистической величиной со своим средним и дисперсией. То есть измеряя среднее на практике мы имеем в виду «предположительное среднее», которое может быть близко к идеальному теоретическом значению.
Попробуем разобраться в вопросе, на входе мы имеем некоторое количество фактов и хотим на выходе построить представление об источнике этих фактов. Будем строить мат модель и использовать теорию Байеса для связки модели и фактов.
Читать полностью »
Современный опыт использования Яндекс.Директ
2019-01-17 в 16:35, admin, рубрики: nginx, yandex direct, Yandex Metrika, контекстная реклама, накрутка кликов, статистикаДолгое время назад ставки на контекстную рекламу как-то быстро полезли вверх и стоимость лида, полученного с использованием этого канала стала сильно проигрывать холодным звонкам. Поэтому рекламу пришлось на некоторое время заморозить.
Однако, ввиду того, что конверсия от входящих заявок остается существенно выше, а так же из-за возникшего рекламного бюджета, было решено вернуться к использованию рекламы.
Читать полностью »
Как устроен скоринг в индустрии каршеринга. Часть 2. Определить агрессивного водителя за 5 секунд
2019-01-16 в 8:09, admin, рубрики: connected car, Алгоритмы, безопасность вождения, Блог компании Bright Box, Интернет вещей, каршеринг, Программирование, Разработка для интернета вещей, скоринг, статистикаВ прошлой статье мы рассмотрели алгоритм скоринга, основанный на резких ускорениях и торможениях. Результаты скоринга по такому алгоритму слабо коррелируют с вероятностью ДТП. В этой статье мы обратимся к более продвинутым алгоритмам анализа стиля вождения, основанным на значениях скорости, оборотов двигателя и показателях акселерометра.
35% аудитории рунета вообще не используют компьютер для интернета
2019-01-16 в 5:12, admin, рубрики: 5G, мобильный интернет, проводной интернет, смартфоны и планшеты, сотовая связь, статистика, Статистика в IT
Пользование только мобильным интернетом. Источник: Омнибус ГФК-Русь, вся Россия, население 16+
По статистике GfK, в 2018 году резко увеличилась доля россиян, которые выходят в интернет только с мобильных устройств и вообще не пользуются для этого персональными компьютерами. За год «чисто мобильная» аудитория выросла с 18% до 35%.
Среди самых молодых пользователей у 41% компьютеры отсутствуют или не используются для интернета. Ситуация не слишком отличается для людей средних лет: 30%. Такими темпами смартфоны скоро могут стать основным устройством для выхода в интернет. Некоторые эксперты говорят, что это уже произошло.
Читать полностью »
GfK Rus: более трети аудитории Рунета пользуются исключительно мобильным доступом в сеть
2019-01-15 в 14:24, admin, рубрики: итоги года, мобильный интернет, статистика, Текучка, телеком, метки: итоги года, мобильный интернет, статистика, Текучка, телекомGfK Rus опубликовали результаты исследования «Проникновение Интернета в России: итоги 2018 года» .pdf)
Сетью пользуется 75,4% взрослого населения страны, размер аудитории практически не меняется, Читать полностью »