Рубрика «Статистика в IT» - 9

Визуальная теория информации (часть 1)

2020-01-20 в 14:09, admin, рубрики: кодирование, математика, математическая статистика, машинное обучение, сжатие, Статистика в IT, теория вероятностей, теория информации, энтропия

Визуальная теория информации (часть 1) - 1

Перевод интересного лонгрида посвященного визуализации концепций из теории информации. В первой части мы посмотрим как отобразить графически вероятностные распределения, их взаимодействие и условные вероятности. Далее разберемся с кодами фиксированной и переменной длины, посмотрим как строится оптимальный код и почему он такой. В качестве дополнения визуально разбирается статистический парадокс Симпсона.

Теория информации дает нам точный язык для описания многих вещей. Сколько во мне неопределенности? Как много знание ответа на вопрос А говорит мне об ответе на вопрос Б? Насколько похож один набор убеждений на другой? У меня были неформальные версии этих идей, когда я был маленьким ребенком, но теория информации кристаллизует их в точные, сильные идеи. Эти идеи имеют огромное разнообразие применений, от сжатия данных до квантовой физики, машинного обучения и обширных областей между ними.

К сожалению, теория информации может казаться пугающей. Я не думаю, что есть какая-то причина для этого. Фактически, многие ключевые идеи могут быть объяснены визуально!

Читать полностью »

Tableau в рознице, реально?

2020-01-13 в 11:52, admin, рубрики: big data, tableau, анализ данных, аналитика, Блог компании М.Видео-Эльдорадо, визуализация данных, Исследования и прогнозы в IT, Статистика в IT

Время отчётности в Excel стремительно уходит — тренд на удобные инструменты представления и анализа информации виден во всех сферах. Мы давно обсуждали внутри цифровизацию построения отчётности и выбрали систему визуализации и self-service аналитики Tableau. Александр Безуглый, руководитель отдела аналитических решений и отчётности Группы «М.Видео-Эльдорадо», рассказал об опыте и итогах построения боевого дашборда.

Скажу сразу, не все, что было задумано, удалось реализовать, но опыт был интересный, надеюсь, он будет полезен и вам. А если у кого-то возникнут идеи, как можно было сделать лучше – буду очень признателен за советы и идеи.

Tableau в рознице, реально? - 1

Под катом о том, с чем мы столкнулись и о чем узнали.
Читать полностью »

Хабра-анализ: когда лучше публиковать свой пост?

2020-01-12 в 8:11, admin, рубрики: DIY, diy или сделай сам, habrbusters, визуализация данных, никто не читает теги, Социальные сети и сообщества, Статистика в IT, хабра-анализ, хабра-детектив

Вы ведь заходите на Хабр больше одного раза в день? Не чтобы прочитать что-то полезное, а просто пролистать главную в поисках "чего бы добавить в список на прочитать позже"? Когда-то замечали, что посты, опубликованные посреди ночи, собирают меньше просмотров и рейтинга, чем дневные? А что скажете о публикациях, вишедших посреди выходных?

Когда я опубликовал предыдущий пост-анализ о зависимости показателей публикации от её длины, Exosphere в комментариях сказала, что "есть некоторая связь времени выхода и показателей публикации (но также корелляция слабая)". Вы ведь понимаете, что я не мог пройти мимо?

Итак, важно ли публиковаться на Хабре с 09:00 до 18:00? Или может только во вторники? А что скажете о дне после зарплаты? Период отпусков? Ну, вы поняли. Сегодня попробуем узнать временной рецепт лучшей публикации на свете.

Читать полностью »

Подборка занимательных статистических фактов #3

2020-01-09 в 7:38, admin, рубрики: groks, аналитика, Инфографика, Исследования и прогнозы в IT, статистика, Статистика в IT

Подборка графиков и результатов различных исследований c короткими аннотациями от автора Телеграм канала Groks.

Только одна компания среди крупнейших дебютантов на бирже в этом году прибыльная. Котировки 10 из 14 технологических компаний, совершивших IPO в 2019 году, упали с первого дня открытия торгов. И все компании, кроме Zoom, планово убыточные. Причём у некоторых расходы почти в два раза превышают доходы.
Читать полностью »

Хабра-анализ: важна ли длина публикации?

2020-01-05 в 8:11, admin, рубрики: DIY, diy или сделай сам, habrbusters, визуализация данных, никто не читает теги, Социальные сети и сообщества, Статистика в IT, хабра-анализ, хабра-детектив

Вы ведь знаете, что Хабр — это вам не одна популярная социальная площадка с ограничением на длину публикации в 280 символов? И хотя периодически появляются посты длиной в один абзац, они достаточно редко встречают одобрение от вас, Хабра-жители.

Сегодня мы узнаем, правда ли, что длинные публикации более популярны, а короткие — наоборот. Или снова наоборот? В общем, есть ли на Хабре дискриминация по длине статьи.

Итак, 5 самых популярных хабов из раздела "Разработка". Все профильные, у всех по более чем 100 000 подписчиков. Что же они могут нам рассказать? Приступим!

Читать полностью »

42 000 000 000 посещений. PornHub подвел итоги 2019 года

2020-01-03 в 14:02, admin, рубрики: pornhub, высокая производительность, Здоровье гика, Научно-популярное, статистика, Статистика в IT

42 миллиарда посещений за год. В среднем 115 миллионов посещений в день. Это больше чем население Канады, Австралии, Польши и Нидерландов вместе взятых.
6,83 миллиона новых видео загружено за год. 1,36 млн часов = 169 лет контента.
6,597 экзабайт данных передано за год, это примерно 18 петабайт в день, 209 гигабайт в секунду. (Если это всё залить на жесткие диски, то высота будет выше 100км.)
70 миллионов сообщений послали пользователи друг другу.
11,5 миллиона комментариев к видео.
98 000 новых моделей присоединились к ресурсу.
Самые популярные темы: «japanese», «hentai», «lesbian» .
Самые активные страны: США, Япония, Британия (Россия на 18 месте).
Среднее время, проведенное на сайте — 10 минут 28 секунд. (Самые долгие в Тайланде: 11 минут 21 сек, а русские еле попали в 20-ку со своими 8 минутами и 35 секундами.)
Самое популярное время — полночь.
Самый популярный день — воскресенье.
Самый непопулярный день — пятница.
Средний возраст посетителей — 36 лет.

Читать полностью »

2019 год на Хабре в цифрах: постов больше, минусуют так же, комментируют активнее

2019-12-31 в 15:28, admin, рубрики: Блог компании Хабр, Исследования и прогнозы в IT, итоги года, статистика, Статистика в IT, хабр

2019 год на Хабре в цифрах: постов больше, минусуют так же, комментируют активнее - 1
_{Команда Хабра почти в полном составе}

Мы можем только догадываться, как всё выглядело снаружи, но изнутри Хабра 2019-й показался чертовски насыщенным. Мы по чуть-чуть меняли подход то тут, то там, и все вместе эти мелочи сделали проект более открытым и дружелюбным. Мы «раскрутили гайки» — теперь на Хабр можно репостить из личных блогов, а за посты голосовать дольше; новых авторов встречает специальная страница, заряженная на успех; мы постоянно улучшаем мобильную версию и потихоньку готовимся к релизу PWA. В начале года мы запустили англоязычную версию, и 12 месяцев спустя на нее заходят уже 400 тысяч человек ежемесячно. А в конце года мы сделали ребрендинг и теперь наши проекты-сателлиты по-настоящему стали частью Хабра и доступны по говорящим адресам career.habr.com, freelance.habr.com и qna.habr.com. Заодно в декабре немного видоизменили и навигацию, подчеркнув, что тут есть не только потоки о разработке и администрировании, но и сравнимый по масштабу раздел с научно-популярными статьями, а еще потоки о дизайне, менеджменте и маркетинге. Но что бы мы там ни меняли, главное осталось на месте — во главе угла стоит контент, которые создают участники сообщества. Об этом сейчас расскажем подробнее.Читать полностью »

Немного предновогодней рефлексии

2019-12-31 в 7:29, admin, рубрики: gtd, Лайфхаки для гиков, Статистика в IT, теги всё равно никто не читает

Ну вот и заканчивается очередной год. Как обычно, считаю разнообразную статистику, размышляю о том, как успевать еще больше, и вспоминаю уже личные интересные события.

Немного предновогодней рефлексии - 1
Рисунок Рины Зенюк
Читать полностью »

История Интернет-порно. Часть 2

2019-12-30 в 18:46, admin, рубрики: «грязные чаты» AOL, arpanet, bbs, betamax, CyberCash, FastCash, irc, The Red Light District, VHS, XXX Counter, Блог компании ua-hosting.company, Интернет вещей, сисопы, Статистика в IT

Недавно в статье Великий порноэксперимент: история Интернета для взрослых, мы затронули важную для всех тему, однако упустили полноценную историческую часть, которая не менее важна и интересна, и пожалуй, заслуживает двух отдельных публикаций.

«Интернета просто бы не существовало без порно и Стартрека» — Рик Берман, продюсер телесериала «Звездный путь».

^{Disclaimer. В статье присутствуют изображения эротического содержания и полностью отсутствует какой-либо порнографический контент. Рассказывается о том, какое развитие обеспечил контент для взрослых в целом для медиаиндустрии и для сети Интернет после её рождения. Вы узнаете историю от порно-театров до наших дней, почему VHS победил BetaMax, о том, как «сисопы» заработали свои первые миллионы долларов на эротическом контенте, распространяя его миллионам человек еще до того, как появился Интернет, то есть тогда, когда в Интернете ещё никого не было. А также то, как Амазон и многие другие онлайн-корпорации, использовали модель Леви для работы с партнёрами, применявшуюся на ранних сайтах для взрослых, и то что двухфакторная идентификация впервые была изобретена для того, чтоб защитить пользователей от нежелательных порнографических email-рассылок, а не только для повышения безопасности.}

История Интернет-порно. Часть 1

Читать полностью »

Подборка занимательных статистических фактов #2

2019-12-29 в 14:50, admin, рубрики: groks, аналитика, Инфографика, Исследования и прогнозы в IT, статистика, Статистика в IT

Подборка графиков и результатов различных исследований c короткими аннотациями.

Люблю такие графики за то, что они будоражат ум, хотя в тоже время понимаю, что это больше не про статистику, а про концептуальные теории. Короче, необходимые для обучения ИИ вычислительные мощности растут в семь раз быстрее прежнего, согласно OpenAI.

То есть от «Большого брата» нас отдаляет не недостаток экспертизы, а закон Мура. И вот что будет, если при достижений тех амбициозных целей по машинному обучению, к которым движутся многие компании, вдруг окажется, что всё это нерентабельно?
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «Статистика в IT» - 9

Визуальная теория информации (часть 1)

Tableau в рознице, реально?

Хабра-анализ: когда лучше публиковать свой пост?

Подборка занимательных статистических фактов #3

Хабра-анализ: важна ли длина публикации?

42 000 000 000 посещений. PornHub подвел итоги 2019 года

2019 год на Хабре в цифрах: постов больше, минусуют так же, комментируют активнее

Немного предновогодней рефлексии

История Интернет-порно. Часть 2

История Интернет-порно. Часть 1

Подборка занимательных статистических фактов #2

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «Статистика в IT» - 9

Новости

Актуальные темы

Архив