Рубрика «данные» - 6

Эксперт по безопасности Саньям Джейн обнаружил на незащищенном сервере несколько баз данных, содержащих в общем 419 млн телефонных номеров пользователей Facebook, сообщает издание TechCrunch.

Кроме номеров телефонов в базе оказались и другие данные: ID профилей Facebook, имена, пол, информация о стране проживания. Согласно последней в базы попали данные 133 млн пользователей США, 18 млн британцев и 50 млн жителей Вьетнама.
Читать полностью »

Решил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анонимный опрос относительно зарплат, стажа и позиций украинских программистов за 2014 и 2019 год. (1)

Этапы анализа

  • Препроцессинг данных и предварительный анализ (кому интересно код тут)
  • Графическое представление данных. Функция плотности распределения.
  • Формулируем нулевую гипотезу (H0) (2)
  • Выбираем метрику для анализа
  • Используем метод bootstraping для формирования нового массива данных
  • Рассчитываем p-value (3) для подтверждения или опровержения гипотезы

Препроцессинг данных

После некоторых манипуляций (код тут), приводим данные в следующий вид:

# Строка здесь это отдельный результат опроса, колонки переменные.

display(data_14_1.head(), data_19_1.head())
print('Всего опрошеных програмистов: n 
      {} чел. в 14 году и {} в 19 году'.format(len(data_14_1), len(data_19_1)))

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов - 1
Читать полностью »

В Twitter официально признались, что использовали данные некоторых пользователей без их разрешения - 1

Руководство Twitter признало, что в компании могли использовать данные некоторых пользователей без их разрешения.
Читать полностью »

Привет, читатель! Отфильтровав для вас большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости. В конце статьи вас ждут бонус и немного юмора.

Для тех, кто не читал дайджест за июнь, можете прочесть его здесь.

Итак, теперь собственно июльский дайджест.

1. ВКонтакте опубликовали библиотеку для предобработки текстовых данных. YouTokenToMe — это библиотека для предобработки текстовых данных. Инструмент работает в 7-10 раз быстрее аналогов для текстов на алфавитных языках и в 40-50 на иероглифических языках. Библиотека была разработана исследователями из ВКонтакте. → Подробнее

image
Читать полностью »

Наши турецкие клиенты попросили нас правильно настроить бэкап для дата-центра. Мы делаем подобные проекты в России, но именно здесь история была больше про исследование того, как лучше сделать.

Дано: есть локальное S3-хранилище, есть Veritas NetBackup, который обзавёлся новым расширенным функционалом по перемещению данных в объектные хранилища теперь уже с поддержкой дедупликации, и есть проблема со свободным местом в этом локальном хранилище.

Задача: сделать всё так, чтобы процесс хранения резервных копий был быстр и дешев.

Собственно, до этого в S3 всё складывалось просто файлами, причём это были полные слепки критичных машин дата-центра. То есть не так, чтобы очень оптимизированно, но зато всё работало на старте. Сейчас же пришло время разобраться и сделать правильно.

На картинке то, к чему мы пришли:

Как уплотнить до 90% хранение бэкапов в объектном хранилище - 1

Как видно, первый бэкап делался медленно (70 Мб/с), а последующие бэкапы тех же систем — значительно быстрее.

Собственно, дальше чуть больше деталей про то, какие там особенности. Читать полностью »

Визуализация сна первого года ребенка на узорах одеяла - 1

Отец-айтишник визуализировал данные о сне и бодрствовании первого года жизни своего сына. Сделал это своими руками — программно обработал данные и связал одеялко, которое показывает активность его малыша за год.
Читать полностью »

Вот цитата из Линуса Торвальдса за 2006 год:

Я огромный сторонник разработки кода вокруг данных, а не наоборот, и я думаю, что это одна из причин, по которой git был довольно успешным… По сути, я утверждаю, что разница между плохим программистом и хорошим заключается в том, считает ли он более важным свой код или свои структуры данных. Плохие программисты беспокоятся о коде. Хорошие программисты беспокоятся о структурах данных и их взаимоотношениях.

Что очень похоже на «правило представления» Эрика Реймонда от 2003 года:

Сверните знания в данные, чтобы логика программы стала глупой и надёжной.

Здесь просто резюме идей, подобных мысли Роба Пайка от 1989 года:

Доминируют данные. Если вы выбрали правильные структуры данных и всё хорошо организовали, то алгоритмы почти всегда будут самоочевидными. Структуры данных, а не алгоритмы, играют центральную роль в программировании.

Читать полностью »

Хабр, привет.

Отфильтровав большое количество источников и подписок — собрал для вас все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июнь. Всем приятного чтения!

1. Команда исследователей из Карнеги-Меллона сделала прорыв в области неинвазивного управления роботизированными устройствами.

Используя неинвазивный интерфейс мозг-компьютер, они разработали первую в мире успешную роботизированную руку, которая управляется с помощью мыслей и без хирургического (!) вмешательства. Технология продемонстрировала способность непрерывно отслеживать и следовать за курсором компьютера.

image

Читать подробнее

2. Facebook AI опубликовали работу, в которой проверяли нейросети на способность следовать принципу взаимной исключительности при принятии решений. И выяснили, чем отличается процесс принятия решений у нейросети и ребенка.

image

Читать подробнее

3. Waymo публикует данные для обучения автопилотных автомобилей. Данные включают в себя 3,000 видеозаписей вождения, которые в сумме длятся 16.7 часов, 600,000 фреймов, около 25 миллионов 3D границ объектов и 22 миллионов 2D границ объектов. Сенсоры на автомобилях, которые собирали данные, включали в себя 5 LiDARs, 5 камер и радары, количество которых не разглашается. Компания заявила, что им удалось точнее синхронизировать LiDAR и записи камер, чем в открытых данных (KITTI, NuScenes).

image

Читать подробнееЧитать полностью »

Есть в графиках что-то магическое. Изгиб кривой мгновенно раскрывает всю ситуацию — историю развития эпидемии, паники или периода процветания. Эта линия просвещает, пробуждает воображение, убеждает.
Генри. Д. Хаббард

Объемы данных, с которыми нужно работать, постоянно увеличиваются. И чем больше информации, тем сложнее ее обрабатывать. Вот почему сейчас стала особенно популярна тема визуализации данных — в виде графиков, диаграмм, дашбордов, желательно интерактивных. Визуальное представление данных позволяет нам, людям, тратить меньше времени и сил на их просмотр, анализ и осмысление, а также на принятие правильных, информированных решений на основе этого.

Вряд ли кто-то станет отрицать, что в современном HTML5 вебе JavaScript — самая универсальная и простая технология для визуализации данных. Так что, если вы занимаетесь фронтенд-разработкой, то вы, скорее всего, либо уже имели дело с созданием JS чартов, либо столкнетесь с этим в (скором) будущем.

Существует множество JavaScript библиотек для построения графиков и диаграмм, каждая из которых (как и любые другие инструменты) имеет свои плюсы и минусы. Чтобы облегчить вам жизнь, я решил рассказать о тех из них, которые нравятся мне больше всего. Я считаю, десять следующих библиотек — это лучшие JS библиотеки для создания графиков, и они действительно способны помочь решить практически любую задачу по визуализации данных. Давайте вместе пройдемся по списку и убедимся, что они вам известны хотя бы базово и вы не упустили из виду какую-нибудь хорошую библиотеку, которая может оказаться полезной в текущих или будущих больших проектах.

Заглавная картинка: визуализация данных на графиках и диаграммах

Что ж, приступим: вот лучшие JS библиотеки для визуализации данных!Читать полностью »

Привет, читатель!

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

image

Подборка датасетов для машинного обучения:


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js