Рубрика «данные» - 7

Исследователь обнаружил утечку данных 419 млн пользователей Facebook

2019-09-05 в 4:34, admin, рубрики: Facebook, база, данные, информационная безопасность, Социальные сети и сообщества, телефоны, утечка, хранение данных

Эксперт по безопасности Саньям Джейн обнаружил на незащищенном сервере несколько баз данных, содержащих в общем 419 млн телефонных номеров пользователей Facebook, сообщает издание TechCrunch.

Кроме номеров телефонов в базе оказались и другие данные: ID профилей Facebook, имена, пол, информация о стране проживания. Согласно последней в базы попали данные 133 млн пользователей США, 18 млн британцев и 50 млн жителей Вьетнама.
Читать полностью »

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов

2019-09-01 в 14:31, admin, рубрики: data mining, data science, python, анализ данных, визуализация данных, данные, зарплаты, статистика, Статистика в IT

Решил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анонимный опрос относительно зарплат, стажа и позиций украинских программистов за 2014 и 2019 год. (1)

Этапы анализа

Препроцессинг данных и предварительный анализ (кому интересно код тут)
Графическое представление данных. Функция плотности распределения.
Формулируем нулевую гипотезу (H0) (2)
Выбираем метрику для анализа
Используем метод bootstraping для формирования нового массива данных
Рассчитываем p-value (3) для подтверждения или опровержения гипотезы

Препроцессинг данных

После некоторых манипуляций (код тут), приводим данные в следующий вид:

# Строка здесь это отдельный результат опроса, колонки переменные.

display(data_14_1.head(), data_19_1.head())
print('Всего опрошеных програмистов: n 
      {} чел. в 14 году и {} в 19 году'.format(len(data_14_1), len(data_19_1)))

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов - 1
Читать полностью »

В Twitter официально признались, что использовали данные некоторых пользователей без их разрешения

2019-08-07 в 13:49, admin, рубрики: twitter, данные, Законодательство в IT, информационная безопасность, использование, пользователь, Социальные сети и сообщества

Руководство Twitter признало, что в компании могли использовать данные некоторых пользователей без их разрешения.
Читать полностью »

Дайджест новостей машинного обучения и искусственного интеллекта за июль

2019-08-05 в 8:54, admin, рубрики: big data, data mining, Блог компании Mail.Ru Group, будущее, дайджест, данные, искусственный интеллект, машинное обучение, Новости

Привет, читатель! Отфильтровав для вас большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости. В конце статьи вас ждут бонус и немного юмора.

Для тех, кто не читал дайджест за июнь, можете прочесть его здесь.

Итак, теперь собственно июльский дайджест.

1. ВКонтакте опубликовали библиотеку для предобработки текстовых данных. YouTokenToMe — это библиотека для предобработки текстовых данных. Инструмент работает в 7-10 раз быстрее аналогов для текстов на алфавитных языках и в 40-50 на иероглифических языках. Библиотека была разработана исследователями из ВКонтакте. → Подробнее

Читать полностью »

Как уплотнить до 90% хранение бэкапов в объектном хранилище

2019-07-30 в 6:23, admin, рубрики: s3, Блог компании КРОК Облачные сервисы, бэкап, виртуализация, данные, дата-центр, дедупликация, облачные сервисы, сервис, хранение данных, хранилище, цод

Наши турецкие клиенты попросили нас правильно настроить бэкап для дата-центра. Мы делаем подобные проекты в России, но именно здесь история была больше про исследование того, как лучше сделать.

Дано: есть локальное S3-хранилище, есть Veritas NetBackup, который обзавёлся новым расширенным функционалом по перемещению данных в объектные хранилища теперь уже с поддержкой дедупликации, и есть проблема со свободным местом в этом локальном хранилище.

Задача: сделать всё так, чтобы процесс хранения резервных копий был быстр и дешев.

Собственно, до этого в S3 всё складывалось просто файлами, причём это были полные слепки критичных машин дата-центра. То есть не так, чтобы очень оптимизированно, но зато всё работало на старте. Сейчас же пришло время разобраться и сделать правильно.

На картинке то, к чему мы пришли:

Как уплотнить до 90% хранение бэкапов в объектном хранилище - 1

Как видно, первый бэкап делался медленно (70 Мб/с), а последующие бэкапы тех же систем — значительно быстрее.

Собственно, дальше чуть больше деталей про то, какие там особенности. Читать полностью »

Визуализация сна первого года ребенка на узорах одеяла

2019-07-27 в 6:23, admin, рубрики: javascript, python, визуализация данных, данные, здоровье, Здоровье гика, Научно-популярное, обработка, одеяло, ребенок, сон, шитье

Визуализация сна первого года ребенка на узорах одеяла - 1

Отец-айтишник визуализировал данные о сне и бодрствовании первого года жизни своего сына. Сделал это своими руками — программно обработал данные и связал одеялко, которое показывает активность его малыша за год.
Читать полностью »

Данные по-прежнему важнее

2019-07-10 в 8:22, admin, рубрики: Алгоритмы, Анализ и проектирование систем, данные, Программирование, Проектирование и рефакторинг, проектирование систем, СУБД

Вот цитата из Линуса Торвальдса за 2006 год:

Я огромный сторонник разработки кода вокруг данных, а не наоборот, и я думаю, что это одна из причин, по которой git был довольно успешным… По сути, я утверждаю, что разница между плохим программистом и хорошим заключается в том, считает ли он более важным свой код или свои структуры данных. Плохие программисты беспокоятся о коде. Хорошие программисты беспокоятся о структурах данных и их взаимоотношениях.

Что очень похоже на «правило представления» Эрика Реймонда от 2003 года:

Сверните знания в данные, чтобы логика программы стала глупой и надёжной.

Здесь просто резюме идей, подобных мысли Роба Пайка от 1989 года:

Доминируют данные. Если вы выбрали правильные структуры данных и всё хорошо организовали, то алгоритмы почти всегда будут самоочевидными. Структуры данных, а не алгоритмы, играют центральную роль в программировании.

Читать полностью »

Дайджест новостей машинного обучения и искусственного интеллекта за июнь

2019-07-02 в 17:20, admin, рубрики: big data, data mining, будущее, дайджест, данные, искусственный интеллект, машинное обучение, Программирование

Хабр, привет.

Отфильтровав большое количество источников и подписок — собрал для вас все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июнь. Всем приятного чтения!

1. Команда исследователей из Карнеги-Меллона сделала прорыв в области неинвазивного управления роботизированными устройствами.

Используя неинвазивный интерфейс мозг-компьютер, они разработали первую в мире успешную роботизированную руку, которая управляется с помощью мыслей и без хирургического (!) вмешательства. Технология продемонстрировала способность непрерывно отслеживать и следовать за курсором компьютера.

→ Читать подробнее

2. Facebook AI опубликовали работу, в которой проверяли нейросети на способность следовать принципу взаимной исключительности при принятии решений. И выяснили, чем отличается процесс принятия решений у нейросети и ребенка.

→ Читать подробнее

3. Waymo публикует данные для обучения автопилотных автомобилей. Данные включают в себя 3,000 видеозаписей вождения, которые в сумме длятся 16.7 часов, 600,000 фреймов, около 25 миллионов 3D границ объектов и 22 миллионов 2D границ объектов. Сенсоры на автомобилях, которые собирали данные, включали в себя 5 LiDARs, 5 камер и радары, количество которых не разглашается. Компания заявила, что им удалось точнее синхронизировать LiDAR и записи камер, чем в открытых данных (KITTI, NuScenes).

→ Читать подробнее Читать полностью »

10 лучших JavaScript библиотек для визуализации данных на графиках и диаграммах

2019-06-28 в 4:40, admin, рубрики: amcharts, anychart, big data, Business Intelligence, chart.js, charting, chartist.js, charts, D3, d3.js, data visualization, fusioncharts, Google, Google Charts, highcharts, html5, javascript, js charts, plotly, svg, zingchart, анализ данных, библиотека javascript, Большие данные, визуализация данных, графики, графики и диаграммы, данные, дашборд, диаграммы, Программирование, Разработка веб-сайтов

Есть в графиках что-то магическое. Изгиб кривой мгновенно раскрывает всю ситуацию — историю развития эпидемии, паники или периода процветания. Эта линия просвещает, пробуждает воображение, убеждает.
― Генри. Д. Хаббард

Объемы данных, с которыми нужно работать, постоянно увеличиваются. И чем больше информации, тем сложнее ее обрабатывать. Вот почему сейчас стала особенно популярна тема визуализации данных — в виде графиков, диаграмм, дашбордов, желательно интерактивных. Визуальное представление данных позволяет нам, людям, тратить меньше времени и сил на их просмотр, анализ и осмысление, а также на принятие правильных, информированных решений на основе этого.

Вряд ли кто-то станет отрицать, что в современном HTML5 вебе JavaScript — самая универсальная и простая технология для визуализации данных. Так что, если вы занимаетесь фронтенд-разработкой, то вы, скорее всего, либо уже имели дело с созданием JS чартов, либо столкнетесь с этим в (скором) будущем.

Существует множество JavaScript библиотек для построения графиков и диаграмм, каждая из которых (как и любые другие инструменты) имеет свои плюсы и минусы. Чтобы облегчить вам жизнь, я решил рассказать о тех из них, которые нравятся мне больше всего. Я считаю, десять следующих библиотек — это лучшие JS библиотеки для создания графиков, и они действительно способны помочь решить практически любую задачу по визуализации данных. Давайте вместе пройдемся по списку и убедимся, что они вам известны хотя бы базово и вы не упустили из виду какую-нибудь хорошую библиотеку, которая может оказаться полезной в текущих или будущих больших проектах.

Заглавная картинка: визуализация данных на графиках и диаграммах

Что ж, приступим: вот лучшие JS библиотеки для визуализации данных!Читать полностью »

Подборка датасетов для машинного обучения

2019-05-19 в 16:23, admin, рубрики: data mining, dataset, python, анализ данных, данные, искусственный интеллект, машинное обучение, Питон, теги все читают

Привет, читатель!

Перед тобой статья-путеводитель по открытым наборам данных для машинного обучения. В ней я, для начала, соберу подборку интересных и свежих (относительно) датасетов. А бонусом, в конце статьи, прикреплю полезные ссылки по самостоятельному поиску датасетов.

Меньше слов, больше данных.

Подборка датасетов для машинного обучения:

Данные смертей и сражений из игры престолов Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «данные» - 7

Исследователь обнаружил утечку данных 419 млн пользователей Facebook

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов

Этапы анализа

Препроцессинг данных

В Twitter официально признались, что использовали данные некоторых пользователей без их разрешения

Дайджест новостей машинного обучения и искусственного интеллекта за июль

Как уплотнить до 90% хранение бэкапов в объектном хранилище

Визуализация сна первого года ребенка на узорах одеяла

Данные по-прежнему важнее

Дайджест новостей машинного обучения и искусственного интеллекта за июнь

10 лучших JavaScript библиотек для визуализации данных на графиках и диаграммах

Подборка датасетов для машинного обучения

Подборка датасетов для машинного обучения:

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «данные» - 7

Этапы анализа

Препроцессинг данных

Подборка датасетов для машинного обучения:

Новости

Актуальные темы

Архив