Рубрика «статистика» - 19

Серьёзные математические ошибки NHTSA позволили Tesla заявить о безопасности автопилота - 1

Национальная администрация безопасности дорожного движения (NHTSA) крупно рискует своей репутацией после разгромного отчёта, который опубликовала маленькая исследовательская и консалтинговая фирма под названием Quality Control Systems. Этот отчёт посвящён анализу доклада NHTSA от 2017 года, в результате которого чиновники выяснили, что автопилот Tesla снижает риск попасть в ДТП на 40% (диаграмма выше).
Читать полностью »

Привет!

Многие постоянные читатели и авторы сайта наверное задумывались о том, какой жизненный цикл имеют опубликованные здесь статьи. И хотя интуитивно это и так более-менее ясно (очевидно например, что статья на первой странице имеет максимальное число просмотров), но сколько конкретно?

Жизненный цикл статьи на Хабре: пишем хабрапарсер - 1

Для сбора статистики воспользуемся Python, Pandas, Matplotlib и Raspberry Pi.

Тех кому интересно, что из этого получилось, прошу под кат.Читать полностью »

Привет! Сегодня я хотел бы поговорить про этичность, а именно про этичность в профессиональной сфере. Речь пойдет о сервисах фейковой активности и о тех заблуждениях, в которые они могут привести как обычного рядового пользователя, так и профессионала сферы разработки.

Этичность автоматизации активности - 1

И так, начнем. Что я имею ввиду под фразой “фейковая активность” догадаться не сложно: это манипуляция и компрометирование тех данных, которые отвечают за показатель вашей активности, или проще, действий в интернете. С этим наверняка сталкивался каждый из вас, кто хоть раз пользовался соц-сетями: VK, Instagram и тд.

Опишу эту схему на примере Instagram: у каждого человека есть свой собственный аккаунт, а для разработчиков предоставляется API доступ. И до чего мы додумались? Запустить ботов которые через аккаунт человека будут проявлять разного рода активность (ставить лайки, подписываться, комментировать посты других людей, или даже самостоятельно вести страницу, на примере @neuralcat). И вскоре эту возможность начали активно использовать бизнес сферы. Привлечение новой аудитории путем таргетирования по определенным критериям и проводя активность на их странице. Все бы ничего, но вот со временем это вышло за все рамки. Каждый день десятки непонятных аккаунтов лайкают ваши фото, оставляют спам-комментарии отмечают вас на фото-розыгрышах и тд.

Бот активность вышла за все рамки благоразумия что на сегодняшний день Instagram закрывает свой API, и вот одна из причин: “Большинство сервисов, работающих с автопостингоми, накрутками лайков и «лайками типа OML» — делают это через приватное api — через «парольлогин», а не через официальное API.”Читать полностью »

image

В начале 2018 года в опросе от Stack Overflow поучаствовало более 100000 респондентов, что сделало этот опрос разработчиков крупнейшим в мире.

Самые интересные ответы — под катом.

Читать полностью »

Старожилы, наверное, и не вспомнят, но в конце 2017-го года в обсуждениях в интернете была распространена мысль о том, что в трендах YouTube часто встречаются «накрученные» видео.

Поэтому накануне нового 2018-го года я написал утилиту для сбора информации о видео, которые попали в тренды. Для каждого видео запрашивается название, список тегов, дата создания, а так же ведется история изменений лаков/дизлайков/просмотров. Разработку вел на TypeScript для NodeJS, сам код выложен на GitHub.

Как итог, сейчас есть возможность строить красивые графики:
График изменения количества лайков и дизлайков

Так же есть возможность строить графики изменения трендов по ключевым словам. Всего за 2018-й год была собрана информация по 29271 видео. Сбор статистики ведется и сейчас.

Читать полностью »

В целом ответ – да. Особенно, когда есть мозги и знание теоремы Байеса.
Напомню, что среднее и дисперсию можно считать только, если у вас имеется определенное количества событий. В старых методичках СССР РТМ (руководящий технический материал) говорилось, что чтобы считать среднее и дисперсию необходимо 29 измерений. Сейчас в ВУЗах немного округлили и используют число 30 измерений. С чем это связано – вопрос философский. Почему я не могу просто взять и посчитать среднее, если у меня есть 5 измерений? По идее ничто не мешает, только среднее получается нестабильным. После еще одного измерения и пересчета оно может сильно измениться и полагаться на него можно начиная где-то с 30 измерений. Но и после 31го измерения оно тоже пошатнется, только уже не так заметно. Плюс добавляется проблема, что и среднее можно считать поразомну и получать разные значения. То есть из большой выборки можно выбрать первые 30 и посчитать среднее, потом выбрать другие 30 и тд … и получить много средних, которые тоже можно усреднять. Истинное среднее бывает недостижимо на практике, так как всегда имеем конечное количество измерений. В таком случае среднее является статистической величиной со своим средним и дисперсией. То есть измеряя среднее на практике мы имеем в виду «предположительное среднее», которое может быть близко к идеальному теоретическом значению.

Попробуем разобраться в вопросе, на входе мы имеем некоторое количество фактов и хотим на выходе построить представление об источнике этих фактов. Будем строить мат модель и использовать теорию Байеса для связки модели и фактов.
Можно ли считать статистику при малом количестве данных? - 1
Читать полностью »

Долгое время назад ставки на контекстную рекламу как-то быстро полезли вверх и стоимость лида, полученного с использованием этого канала стала сильно проигрывать холодным звонкам. Поэтому рекламу пришлось на некоторое время заморозить.

Однако, ввиду того, что конверсия от входящих заявок остается существенно выше, а так же из-за возникшего рекламного бюджета, было решено вернуться к использованию рекламы.
Читать полностью »

В прошлой статье мы рассмотрели алгоритм скоринга, основанный на резких ускорениях и торможениях. Результаты скоринга по такому алгоритму слабо коррелируют с вероятностью ДТП. В этой статье мы обратимся к более продвинутым алгоритмам анализа стиля вождения, основанным на значениях скорости, оборотов двигателя и показателях акселерометра.

Как устроен скоринг в индустрии каршеринга. Часть 2. Определить агрессивного водителя за 5 секунд - 1
Читать полностью »

35% аудитории рунета вообще не используют компьютер для интернета - 1
Пользование только мобильным интернетом. Источник: Омнибус ГФК-Русь, вся Россия, население 16+

По статистике GfK, в 2018 году резко увеличилась доля россиян, которые выходят в интернет только с мобильных устройств и вообще не пользуются для этого персональными компьютерами. За год «чисто мобильная» аудитория выросла с 18% до 35%.

Среди самых молодых пользователей у 41% компьютеры отсутствуют или не используются для интернета. Ситуация не слишком отличается для людей средних лет: 30%. Такими темпами смартфоны скоро могут стать основным устройством для выхода в интернет. Некоторые эксперты говорят, что это уже произошло.
Читать полностью »

GfK Rus опубликовали результаты исследования «Проникновение Интернета в России: итоги 2018 года» .pdf)

Сетью пользуется 75,4% взрослого населения страны, размер аудитории практически не меняется, Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js