Рубрика «данные» - 6

Функция автоудаления данных Google бесполезна для приватности, — эксперты

2019-10-20 в 12:42, admin, рубрики: Google, данные, данные о пользователях, интернет-маркетинг, контекстная реклама

На фоне скандалов со сбором данных и давлением со стороны регуляторов Google ввел функцию автоудаления данных пользователя. Однако эксперты считают, что это нововведение служит только для пиара компании и никак не помогает пользователям. Экспертное мнение приводит Fastcompany.

_{Источник: Wikimedia}

Читать полностью »

Дайджест новостей машинного обучения и искусственного интеллекта за сентябрь

2019-10-15 в 15:44, admin, рубрики: big data, data mining, Блог компании Mail.Ru Group, будущее, дайджест, данные, искусственный интеллект, машинное обучение, Новости

Привет, читатели! Отфильтровав для вас большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за сентябрь. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости.

Для тех, кто не читал дайджест за август, можете прочесть его здесь.

Итак, а теперь дайджест за сентябрь:

1. Ученые EPFL разработали мягкую искусственную кожу, которая обеспечивает тактильную обратную связь и — благодаря сложному механизму самочувствия — потенциально способна мгновенно адаптироваться к движениям пользователя.

Читать полностью »

Чем ИТ может сильно помочь колхозу «Путь коммунизма» или агрохолдингу

2019-10-14 в 12:12, admin, рубрики: автоматизация, агрохолдинг, Анализ и проектирование систем, Блог компании SAS, данные, кластеризация, колхоз, оптимизация, планирование, потребитель, Программирование, рынок, севооборот, сельское хозяйство, техника, управление проектами, урожай

Чем ИТ может сильно помочь колхозу «Путь коммунизма» или агрохолдингу - 1
Было-стало после кластеризации и оптимизации культур

Колхозы и агрохолдинги в России почти не автоматизированы. А там на почти ровном месте с минимальными затратами можно получить до 10 % прироста доходности за счёт выбора оптимального портфеля выращиваемых культур, точного распределения техники по работам и вообще нормального планирования. Мы пришли на несколько объектов и провели расчёты для них, о чём сейчас я и расскажу.

Сформулировали три фундаментальных вопроса:

В каких пропорциях что нужно вырастить и где, чтобы больше заработать?
Когда какая техника и где будет работать?
Что должно быть в парке техники, чтобы не возникало рисков срывов сроков проведения агроопераций или больших затрат на найм?

Мы решали все эти задачи, и там море интересных особенностей. Обсуждать мы будем абстрактный колхоз «Путь коммунизма», расположенный в случайном месте (нам просто понравились поля на спутниковой карте), потому что настоящих заказчиков я называть пока не могу.

В таких местах, конечно, действуют рациональные агенты. Но иногда встречается пьющий агроном, иногда попадается косячник-механизатор и другие узнаваемые персонажи из реальной жизни. Нас ждут град, сломанный комбайн и другие приключения. И вот мы пойдём в это всё со своей автоматизацией. Читать полностью »

Сбербанк заявил, что нашёл виновного в утечке данных клиентов

2019-10-05 в 17:30, admin, рубрики: Администрирование баз данных, база данных, данные, Законодательство в IT, информационная безопасность, карты, проблема, Сбербанк, утечка, хранение данных

Сбербанк совместно с правоохранительными органами завершил внутреннее расследование по выявлению канала утечки данных учетных записей по кредитным картам клиентов. Расследование было начато 2 октября, а закончено 4 октября 2019 года. Банк утверждает, что виновный — сотрудник кредитной организации, который руководил сектором в одном из бизнес-подразделений банка и имел доступ к базам данных.

Обновление [на 6.10.19]: добавлена информация о ходе расследования в Сбербанке.
Читать полностью »

Исследователь обнаружил утечку данных 419 млн пользователей Facebook

2019-09-05 в 4:34, admin, рубрики: Facebook, база, данные, информационная безопасность, Социальные сети и сообщества, телефоны, утечка, хранение данных

Эксперт по безопасности Саньям Джейн обнаружил на незащищенном сервере несколько баз данных, содержащих в общем 419 млн телефонных номеров пользователей Facebook, сообщает издание TechCrunch.

Кроме номеров телефонов в базе оказались и другие данные: ID профилей Facebook, имена, пол, информация о стране проживания. Согласно последней в базы попали данные 133 млн пользователей США, 18 млн британцев и 50 млн жителей Вьетнама.
Читать полностью »

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов

2019-09-01 в 14:31, admin, рубрики: data mining, data science, python, анализ данных, визуализация данных, данные, зарплаты, статистика, Статистика в IT

Решил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анонимный опрос относительно зарплат, стажа и позиций украинских программистов за 2014 и 2019 год. (1)

Этапы анализа

Препроцессинг данных и предварительный анализ (кому интересно код тут)
Графическое представление данных. Функция плотности распределения.
Формулируем нулевую гипотезу (H0) (2)
Выбираем метрику для анализа
Используем метод bootstraping для формирования нового массива данных
Рассчитываем p-value (3) для подтверждения или опровержения гипотезы

Препроцессинг данных

После некоторых манипуляций (код тут), приводим данные в следующий вид:

# Строка здесь это отдельный результат опроса, колонки переменные.

display(data_14_1.head(), data_19_1.head())
print('Всего опрошеных програмистов: n 
      {} чел. в 14 году и {} в 19 году'.format(len(data_14_1), len(data_19_1)))

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов - 1
Читать полностью »

В Twitter официально признались, что использовали данные некоторых пользователей без их разрешения

2019-08-07 в 13:49, admin, рубрики: twitter, данные, Законодательство в IT, информационная безопасность, использование, пользователь, Социальные сети и сообщества

Руководство Twitter признало, что в компании могли использовать данные некоторых пользователей без их разрешения.
Читать полностью »

Дайджест новостей машинного обучения и искусственного интеллекта за июль

2019-08-05 в 8:54, admin, рубрики: big data, data mining, Блог компании Mail.Ru Group, будущее, дайджест, данные, искусственный интеллект, машинное обучение, Новости

Привет, читатель! Отфильтровав для вас большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости. В конце статьи вас ждут бонус и немного юмора.

Для тех, кто не читал дайджест за июнь, можете прочесть его здесь.

Итак, теперь собственно июльский дайджест.

1. ВКонтакте опубликовали библиотеку для предобработки текстовых данных. YouTokenToMe — это библиотека для предобработки текстовых данных. Инструмент работает в 7-10 раз быстрее аналогов для текстов на алфавитных языках и в 40-50 на иероглифических языках. Библиотека была разработана исследователями из ВКонтакте. → Подробнее

Читать полностью »

Как уплотнить до 90% хранение бэкапов в объектном хранилище

2019-07-30 в 6:23, admin, рубрики: s3, Блог компании КРОК Облачные сервисы, бэкап, виртуализация, данные, дата-центр, дедупликация, облачные сервисы, сервис, хранение данных, хранилище, цод

Наши турецкие клиенты попросили нас правильно настроить бэкап для дата-центра. Мы делаем подобные проекты в России, но именно здесь история была больше про исследование того, как лучше сделать.

Дано: есть локальное S3-хранилище, есть Veritas NetBackup, который обзавёлся новым расширенным функционалом по перемещению данных в объектные хранилища теперь уже с поддержкой дедупликации, и есть проблема со свободным местом в этом локальном хранилище.

Задача: сделать всё так, чтобы процесс хранения резервных копий был быстр и дешев.

Собственно, до этого в S3 всё складывалось просто файлами, причём это были полные слепки критичных машин дата-центра. То есть не так, чтобы очень оптимизированно, но зато всё работало на старте. Сейчас же пришло время разобраться и сделать правильно.

На картинке то, к чему мы пришли:

Как уплотнить до 90% хранение бэкапов в объектном хранилище - 1

Как видно, первый бэкап делался медленно (70 Мб/с), а последующие бэкапы тех же систем — значительно быстрее.

Собственно, дальше чуть больше деталей про то, какие там особенности. Читать полностью »

Визуализация сна первого года ребенка на узорах одеяла

2019-07-27 в 6:23, admin, рубрики: javascript, python, визуализация данных, данные, здоровье, Здоровье гика, Научно-популярное, обработка, одеяло, ребенок, сон, шитье

Визуализация сна первого года ребенка на узорах одеяла - 1

Отец-айтишник визуализировал данные о сне и бодрствовании первого года жизни своего сына. Сделал это своими руками — программно обработал данные и связал одеялко, которое показывает активность его малыша за год.
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «данные» - 6

Функция автоудаления данных Google бесполезна для приватности, — эксперты

Дайджест новостей машинного обучения и искусственного интеллекта за сентябрь

Чем ИТ может сильно помочь колхозу «Путь коммунизма» или агрохолдингу

Сбербанк заявил, что нашёл виновного в утечке данных клиентов

Исследователь обнаружил утечку данных 419 млн пользователей Facebook

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов

Этапы анализа

Препроцессинг данных

В Twitter официально признались, что использовали данные некоторых пользователей без их разрешения

Дайджест новостей машинного обучения и искусственного интеллекта за июль

Как уплотнить до 90% хранение бэкапов в объектном хранилище

Визуализация сна первого года ребенка на узорах одеяла

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «данные» - 6

Этапы анализа

Препроцессинг данных

Новости

Актуальные темы

Архив