Рубрика «Статистика в IT» - 9

Визуальная теория информации (часть 1) - 1

Перевод интересного лонгрида посвященного визуализации концепций из теории информации. В первой части мы посмотрим как отобразить графически вероятностные распределения, их взаимодействие и условные вероятности. Далее разберемся с кодами фиксированной и переменной длины, посмотрим как строится оптимальный код и почему он такой. В качестве дополнения визуально разбирается статистический парадокс Симпсона.

Теория информации дает нам точный язык для описания многих вещей. Сколько во мне неопределенности? Как много знание ответа на вопрос А говорит мне об ответе на вопрос Б? Насколько похож один набор убеждений на другой? У меня были неформальные версии этих идей, когда я был маленьким ребенком, но теория информации кристаллизует их в точные, сильные идеи. Эти идеи имеют огромное разнообразие применений, от сжатия данных до квантовой физики, машинного обучения и обширных областей между ними.

К сожалению, теория информации может казаться пугающей. Я не думаю, что есть какая-то причина для этого. Фактически, многие ключевые идеи могут быть объяснены визуально!

Читать полностью »

Время отчётности в Excel стремительно уходит — тренд на удобные инструменты представления и анализа информации виден во всех сферах. Мы давно обсуждали внутри цифровизацию построения отчётности и выбрали систему визуализации и self-service аналитики Tableau. Александр Безуглый, руководитель отдела аналитических решений и отчётности Группы «М.Видео-Эльдорадо», рассказал об опыте и итогах построения боевого дашборда.

Скажу сразу, не все, что было задумано, удалось реализовать, но опыт был интересный, надеюсь, он будет полезен и вам. А если у кого-то возникнут идеи, как можно было сделать лучше – буду очень признателен за советы и идеи.

Tableau в рознице, реально? - 1

Под катом о том, с чем мы столкнулись и о чем узнали.
Читать полностью »

Хабра-анализ: когда лучше публиковать свой пост? - 1
Вы ведь заходите на Хабр больше одного раза в день? Не чтобы прочитать что-то полезное, а просто пролистать главную в поисках "чего бы добавить в список на прочитать позже"? Когда-то замечали, что посты, опубликованные посреди ночи, собирают меньше просмотров и рейтинга, чем дневные? А что скажете о публикациях, вишедших посреди выходных?

Когда я опубликовал предыдущий пост-анализ о зависимости показателей публикации от её длины, Exosphere в комментариях сказала, что "есть некоторая связь времени выхода и показателей публикации (но также корелляция слабая)". Вы ведь понимаете, что я не мог пройти мимо?

Итак, важно ли публиковаться на Хабре с 09:00 до 18:00? Или может только во вторники? А что скажете о дне после зарплаты? Период отпусков? Ну, вы поняли. Сегодня попробуем узнать временной рецепт лучшей публикации на свете.

Читать полностью »

Подборка графиков и результатов различных исследований c короткими аннотациями от автора Телеграм канала Groks.

Подборка занимательных статистических фактов #3 - 1

Только одна компания среди крупнейших дебютантов на бирже в этом году прибыльная. Котировки 10 из 14 технологических компаний, совершивших IPO в 2019 году, упали с первого дня открытия торгов. И все компании, кроме Zoom, планово убыточные. Причём у некоторых расходы почти в два раза превышают доходы.
Читать полностью »

Хабра-анализ: важна ли длина публикации? - 1
Вы ведь знаете, что Хабр — это вам не одна популярная социальная площадка с ограничением на длину публикации в 280 символов? И хотя периодически появляются посты длиной в один абзац, они достаточно редко встречают одобрение от вас, Хабра-жители.

Сегодня мы узнаем, правда ли, что длинные публикации более популярны, а короткие — наоборот. Или снова наоборот? В общем, есть ли на Хабре дискриминация по длине статьи.

Итак, 5 самых популярных хабов из раздела "Разработка". Все профильные, у всех по более чем 100 000 подписчиков. Что же они могут нам рассказать? Приступим!

Читать полностью »

image

  • 42 миллиарда посещений за год. В среднем 115 миллионов посещений в день. Это больше чем население Канады, Австралии, Польши и Нидерландов вместе взятых.
  • 6,83 миллиона новых видео загружено за год. 1,36 млн часов = 169 лет контента.
  • 6,597 экзабайт данных передано за год, это примерно 18 петабайт в день, 209 гигабайт в секунду. (Если это всё залить на жесткие диски, то высота будет выше 100км.)
  • 70 миллионов сообщений послали пользователи друг другу.
  • 11,5 миллиона комментариев к видео.
  • 98 000 новых моделей присоединились к ресурсу.
  • Самые популярные темы: «japanese», «hentai», «lesbian» .
  • Самые активные страны: США, Япония, Британия (Россия на 18 месте).
  • Среднее время, проведенное на сайте — 10 минут 28 секунд. (Самые долгие в Тайланде: 11 минут 21 сек, а русские еле попали в 20-ку со своими 8 минутами и 35 секундами.)
  • Самое популярное время — полночь.
  • Самый популярный день — воскресенье.
  • Самый непопулярный день — пятница.
  • Средний возраст посетителей — 36 лет.

Читать полностью »

2019 год на Хабре в цифрах: постов больше, минусуют так же, комментируют активнее - 1
Команда Хабра почти в полном составе

Мы можем только догадываться, как всё выглядело снаружи, но изнутри Хабра 2019-й показался чертовски насыщенным. Мы по чуть-чуть меняли подход то тут, то там, и все вместе эти мелочи сделали проект более открытым и дружелюбным. Мы «раскрутили гайки» — теперь на Хабр можно репостить из личных блогов, а за посты голосовать дольше; новых авторов встречает специальная страница, заряженная на успех; мы постоянно улучшаем мобильную версию и потихоньку готовимся к релизу PWA. В начале года мы запустили англоязычную версию, и 12 месяцев спустя на нее заходят уже 400 тысяч человек ежемесячно. А в конце года мы сделали ребрендинг и теперь наши проекты-сателлиты по-настоящему стали частью Хабра и доступны по говорящим адресам career.habr.com, freelance.habr.com и qna.habr.com. Заодно в декабре немного видоизменили и навигацию, подчеркнув, что тут есть не только потоки о разработке и администрировании, но и сравнимый по масштабу раздел с научно-популярными статьями, а еще потоки о дизайне, менеджменте и маркетинге. Но что бы мы там ни меняли, главное осталось на месте — во главе угла стоит контент, которые создают участники сообщества. Об этом сейчас расскажем подробнее.Читать полностью »

Ну вот и заканчивается очередной год. Как обычно, считаю разнообразную статистику, размышляю о том, как успевать еще больше, и вспоминаю уже личные интересные события.

Немного предновогодней рефлексии - 1
Рисунок Рины Зенюк
Читать полностью »

Недавно в статье Великий порноэксперимент: история Интернета для взрослых, мы затронули важную для всех тему, однако упустили полноценную историческую часть, которая не менее важна и интересна, и пожалуй, заслуживает двух отдельных публикаций.

«Интернета просто бы не существовало без порно и Стартрека» — Рик Берман, продюсер телесериала «Звездный путь».

Disclaimer. В статье присутствуют изображения эротического содержания и полностью отсутствует какой-либо порнографический контент. Рассказывается о том, какое развитие обеспечил контент для взрослых в целом для медиаиндустрии и для сети Интернет после её рождения. Вы узнаете историю от порно-театров до наших дней, почему VHS победил BetaMax, о том, как «сисопы» заработали свои первые миллионы долларов на эротическом контенте, распространяя его миллионам человек еще до того, как появился Интернет, то есть тогда, когда в Интернете ещё никого не было. А также то, как Амазон и многие другие онлайн-корпорации, использовали модель Леви для работы с партнёрами, применявшуюся на ранних сайтах для взрослых, и то что двухфакторная идентификация впервые была изобретена для того, чтоб защитить пользователей от нежелательных порнографических email-рассылок, а не только для повышения безопасности.

История Интернет-порно. Часть 1

Читать полностью »

Подборка графиков и результатов различных исследований c короткими аннотациями.

Подборка занимательных статистических фактов #2 - 1

Люблю такие графики за то, что они будоражат ум, хотя в тоже время понимаю, что это больше не про статистику, а про концептуальные теории. Короче, необходимые для обучения ИИ вычислительные мощности растут в семь раз быстрее прежнего, согласно OpenAI.

То есть от «Большого брата» нас отдаляет не недостаток экспертизы, а закон Мура. И вот что будет, если при достижений тех амбициозных целей по машинному обучению, к которым движутся многие компании, вдруг окажется, что всё это нерентабельно?
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js