Рубрика «Статистика в IT» - 13

Экзистенциальным вопросом, вынесенными в заголовок в формулировке Гребенщикова, я задался после очередного раунда обсуждения в одном из сообществ на предмет того, нужны ли начинающему web backend девелоперу знания SQL, или ORM все и так сделает. Ответ решил поискать немного шире, чем просто про ORM и SQL, и в принципе постараться систематизировать, кто те люди, которые сейчас идут на собеседования на младшие и средние разработческие позиции, какова их история и в каком мире они живут. В целом-то мнение у меня было, но оно сформировано личным опытом найма и явно скорректировано под локальный рынок. В общем, стало любопытно. Вот что удалось найти.
Читать полностью »

Время покупать SSD: флеш-память начинает дорожать - 1

В третьем квартале 2019 года цены на флеш-память перестали падать и перешли к росту, хотя и минимальному. Эксперты прогнозируют, что в четвертом квартале стоимость NAND увеличится на 10%, что означает почти одновременное подорожание SSD и других типов носителей информации на основе NAND.

Что касается стоимости накопителей, то мало кто берется прогнозировать динамику цен на ближайшее будущее. Но NAND-память дорожает уже сейчас, так что первый за несколько лет период падения цен на память закончился.
Читать полностью »

Генпрокуратура России опубликовала данные о росте преступности в РФ. Как оказалось, количество зарегистрированных преступлений разных видов всего за год увеличилось на 67%. Активнее всего развивается киберпреступность — рост ее оказался двухкратным.

Так, за первые восемь месяцев этого года в РФ было зарегистрировано 180153 киберпреступления, что на 66,8% выше показателя за предыдущий год. В первую очередь, это преступления, которые совершены с использованием ИКТ либо же в сфере компьютерной информации.
Читать полностью »

Аналитики консалтинговой компании Deloitte опубликовали отчёт «Медиапотребление в России — 2019» (pdf). Он содержит ряд интересных цифр и показывает тенденции, как меняются предпочтения российской аудитории.

Некоторые ключевые выводы:

  • Рекордное снижение рейтинга доверия телевидению (до 28%). Аудитория в возрасте от 20 до 24 лет и жители Москвы смотрят телевизор значительно реже (на 16 и 8 п. п. ниже среднего показателя соответственно).
  • Интернет безоговорочно стал основным источником информации и по популярности (78%) и по уровню доверия (42%).
  • YouTube вышел на 1-е место среди самых популярных ресурсов (обогнал «Вконтакте»).
  • Смартфон — основное устройство для выхода в интернет (88%) и для игр (54%).
  • Среди мессенджеров уровень распространённости за год больше всего вырос у Telegram (на 15 п. п.)

Читать полностью »

В предыдущей части были проанализированы сообщения пользователей этого сайта, что вызвало достаточно оживленную дискуссию на тему различных параметров (числа сообщений, рейтинга, «кармы» и пр). Таких вопросов накопилось достаточно, чтобы сделать вторую часть.

Хабрастатистика: анализируем комментарии читателей. Часть 2, ответы на вопросы - 1

Тех кому интересно, какова длина самой большой дискуссии в комментариях за этот год, какая может быть максимальная и минимальная «карма» у пользователей, и другая статистика, прошу под кат.
Читать полностью »

В предыдущей части была проанализирована популярность различных разделов сайта, и параллельно возник вопрос — какие данные можно извлечь из комментариев к статьям. Также хотелось проверить одну гипотезу, о которой скажу ниже.
Хабрастатистика: анализируем комментарии читателей - 1

Данные получились довольно интересные, также удалось составить небольшой «мини-рейтинг» комментаторов. Продолжение под катом.
Читать полностью »

Привет.

В предыдущей части была проанализирована посещаемость Хабра по основным параметрам — количеству статей, их просмотрам и рейтингам. Однако вопрос популярности разделов сайта остался не рассмотренным. Стало интересно рассмотреть это более подробно, и найти самые популярные и самые непопулярные хабы. Наконец, я рассмотрю «geektimes-эффект» более подробно, и в завершении читатели получат новую подборку лучших статей по новым рейтингам.

Хабрастатистика: исследуем наиболее и наименее посещаемые разделы сайта - 1

Кому интересно что получилось, продолжение под катом.
Читать полностью »

Недавно натолкнулся на вопрос в чате ODS: почему алгоритм, генерирующий текст буква-за-буквой, сэмплит буквы не из p (вектор вероятностей следующей буквы, предсказанный языковой моделью), а из p'=softmax(log(p)/t) (где t — это ещё какой-то непонятный положительный скаляр)?

Быстрый и непонятный ответ: t — это "температура", и она позволяет управлять разнообразием генерируемых текстов. А ради длинного и детального ответа, собственно, и написан этот пост.
Сэмплирование с температурой - 1

Читать полностью »

Подборка ресурсов по математике, статистике и программированию для начинающих Дата Сайентистов. Ознакомьтесь с материалами, если вы планируете учиться на онлайн-курсах. Так вы опередите одногруппников, а заодно прокачаете полезный навык — изучать дополнительные материалы самостоятельно.
Читать полностью »

Привет.

Данная статья является логическим продолжением рейтинга Лучших статей Хабра за 2018 год. И хотя год еще не закончился, но как известно, летом произошли изменения в правилах, соответственно, стало интересно посмотреть, повлияло ли это на что-нибудь.

Хабрастатистика: как живет Хабр без geektimes - 1

Кроме собственно статистики, будет приведен и обновленный рейтинг статей, а также немного исходников для тех кому интересно, как это работает.

Для тех, кому интересно что получилось, продолжение под катом.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js