Рубрика «статистика» - 18

Привет.

В последней части Хабрарейтинга был опубликован метод построения облака слов для англоязычных терминов. Разумеется, задача парсинга русских слов является гораздо более сложной, но как подсказали в комментариях, для этого существуют готовые библиотеки.

Разберемся, как строить такую картинку:

Хабрарейтинг: построение облака русскоязычных слов на примере заголовков Хабра - 1

Также посмотрим облако статей Хабра за все годы.

Кому интересно, что получилось, прошу под кат.
Читать полностью »

После публикации рейтинга статей за 2017 и 2018 год, следующая идея была очевидна — собрать обобщенный рейтинг за все годы. Но просто собрать ссылки было бы банально (хотя и тоже полезно), поэтому было решено расширить обработку данных и собрать еще немного полезной информации.

Хабрамегарейтинг: лучшие статьи и статистика Хабра за 12 лет. Часть 1-2 - 1

Рейтинги, статистика и немного исходного кода на Python под катом.Читать полностью »

В недавней публикации подборки лучших статей за 2018й год было высказано пожелание увидеть такой же список за год 2017. В принципе, неплохая идея — практически все опубликованное тогда, актуально и сейчас. Обработка данных закончена, да и выходные еще не истекли, так что желающим будет что почитать в воскресный вечер.

Хабрарейтинг 2017: лучшие материалы за 2017 год - 1

Кому интересны результаты, прошу под катЧитать полностью »

Данный пост является логическим завершением публикаций про жизненный цикл статьи на Хабре (первая и вторая части), в результате чего был сделан достаточно интересный инструмент для статистического анализа. Методика оказалась весьма полезной, и позволяет находить статьи по различным параметрам, например, статьи с самым высоким «качеством» (соотношением рейтинга к числу просмотров), самые «спорные» статьи, у которых больше всего полярных комментариев, самые комментируемые материалы, и пр.
Хабрарейтинг 2018: лучшие материалы за 2018 год - 1

Пора теперь извлечь из этого какую-то пользу, и составить статистический рейтинг статей за 2018 год. В идеале это хорошо было бы сделать к началу Нового Года, но умные мысли бывает, приходят с запозданием. Но лучше поздно чем никогда, это позволит перечитать какие-то полезные статьи тем, кто пропустил их в свое время. И небольшой «секретный бонус» в конце текста для тех, кто будет достаточно любопытен.

Тех, кому интересно что получилось, прошу под кат.
Читать полностью »

Фонд развития интернет-инициатив (ФРИИ) завершает фазу инвестирования и фокусируется на развитии портфельных IT-стартапов, передал ТАСС сообщение фонда.

«Часть направлений деятельности ФРИИ будет оптимизирована: фонд приостановит образовательные программы с вузами и школами, а также сократит работу по поддержке стартапов в ряде регионов. При этом ФРИИ продолжит заниматься законотворческой деятельностью: в частности, сейчас эксперты фонда участвуют в подготовке изменений в закон «Об информации», которые обеспечат свободу обращения данных на рынке».

Читать полностью »

Серьёзные математические ошибки NHTSA позволили Tesla заявить о безопасности автопилота - 1

Национальная администрация безопасности дорожного движения (NHTSA) крупно рискует своей репутацией после разгромного отчёта, который опубликовала маленькая исследовательская и консалтинговая фирма под названием Quality Control Systems. Этот отчёт посвящён анализу доклада NHTSA от 2017 года, в результате которого чиновники выяснили, что автопилот Tesla снижает риск попасть в ДТП на 40% (диаграмма выше).
Читать полностью »

Привет!

Многие постоянные читатели и авторы сайта наверное задумывались о том, какой жизненный цикл имеют опубликованные здесь статьи. И хотя интуитивно это и так более-менее ясно (очевидно например, что статья на первой странице имеет максимальное число просмотров), но сколько конкретно?

Жизненный цикл статьи на Хабре: пишем хабрапарсер - 1

Для сбора статистики воспользуемся Python, Pandas, Matplotlib и Raspberry Pi.

Тех кому интересно, что из этого получилось, прошу под кат.Читать полностью »

Привет! Сегодня я хотел бы поговорить про этичность, а именно про этичность в профессиональной сфере. Речь пойдет о сервисах фейковой активности и о тех заблуждениях, в которые они могут привести как обычного рядового пользователя, так и профессионала сферы разработки.

Этичность автоматизации активности - 1

И так, начнем. Что я имею ввиду под фразой “фейковая активность” догадаться не сложно: это манипуляция и компрометирование тех данных, которые отвечают за показатель вашей активности, или проще, действий в интернете. С этим наверняка сталкивался каждый из вас, кто хоть раз пользовался соц-сетями: VK, Instagram и тд.

Опишу эту схему на примере Instagram: у каждого человека есть свой собственный аккаунт, а для разработчиков предоставляется API доступ. И до чего мы додумались? Запустить ботов которые через аккаунт человека будут проявлять разного рода активность (ставить лайки, подписываться, комментировать посты других людей, или даже самостоятельно вести страницу, на примере @neuralcat). И вскоре эту возможность начали активно использовать бизнес сферы. Привлечение новой аудитории путем таргетирования по определенным критериям и проводя активность на их странице. Все бы ничего, но вот со временем это вышло за все рамки. Каждый день десятки непонятных аккаунтов лайкают ваши фото, оставляют спам-комментарии отмечают вас на фото-розыгрышах и тд.

Бот активность вышла за все рамки благоразумия что на сегодняшний день Instagram закрывает свой API, и вот одна из причин: “Большинство сервисов, работающих с автопостингоми, накрутками лайков и «лайками типа OML» — делают это через приватное api — через «парольлогин», а не через официальное API.”Читать полностью »

image

В начале 2018 года в опросе от Stack Overflow поучаствовало более 100000 респондентов, что сделало этот опрос разработчиков крупнейшим в мире.

Самые интересные ответы — под катом.

Читать полностью »

Старожилы, наверное, и не вспомнят, но в конце 2017-го года в обсуждениях в интернете была распространена мысль о том, что в трендах YouTube часто встречаются «накрученные» видео.

Поэтому накануне нового 2018-го года я написал утилиту для сбора информации о видео, которые попали в тренды. Для каждого видео запрашивается название, список тегов, дата создания, а так же ведется история изменений лаков/дизлайков/просмотров. Разработку вел на TypeScript для NodeJS, сам код выложен на GitHub.

Как итог, сейчас есть возможность строить красивые графики:
График изменения количества лайков и дизлайков

Так же есть возможность строить графики изменения трендов по ключевым словам. Всего за 2018-й год была собрана информация по 29271 видео. Сбор статистики ведется и сейчас.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js