Рубрика «данные» - 6

На фоне скандалов со сбором данных и давлением со стороны регуляторов Google ввел функцию автоудаления данных пользователя. Однако эксперты считают, что это нововведение служит только для пиара компании и никак не помогает пользователям. Экспертное мнение приводит Fastcompany.

image
Источник: Wikimedia

Читать полностью »

Привет, читатели! Отфильтровав для вас большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за сентябрь. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости.

Для тех, кто не читал дайджест за август, можете прочесть его здесь.

Итак, а теперь дайджест за сентябрь:

1. Ученые EPFL разработали мягкую искусственную кожу, которая обеспечивает тактильную обратную связь и — благодаря сложному механизму самочувствия — потенциально способна мгновенно адаптироваться к движениям пользователя.

Читать полностью »

Чем ИТ может сильно помочь колхозу «Путь коммунизма» или агрохолдингу - 1
Было-стало после кластеризации и оптимизации культур

Колхозы и агрохолдинги в России почти не автоматизированы. А там на почти ровном месте с минимальными затратами можно получить до 10 % прироста доходности за счёт выбора оптимального портфеля выращиваемых культур, точного распределения техники по работам и вообще нормального планирования. Мы пришли на несколько объектов и провели расчёты для них, о чём сейчас я и расскажу.

Сформулировали три фундаментальных вопроса:

  1. В каких пропорциях что нужно вырастить и где, чтобы больше заработать?
  2. Когда какая техника и где будет работать?
  3. Что должно быть в парке техники, чтобы не возникало рисков срывов сроков проведения агроопераций или больших затрат на найм?

Мы решали все эти задачи, и там море интересных особенностей. Обсуждать мы будем абстрактный колхоз «Путь коммунизма», расположенный в случайном месте (нам просто понравились поля на спутниковой карте), потому что настоящих заказчиков я называть пока не могу.

В таких местах, конечно, действуют рациональные агенты. Но иногда встречается пьющий агроном, иногда попадается косячник-механизатор и другие узнаваемые персонажи из реальной жизни. Нас ждут град, сломанный комбайн и другие приключения. И вот мы пойдём в это всё со своей автоматизацией. Читать полностью »

Сбербанк совместно с правоохранительными органами завершил внутреннее расследование по выявлению канала утечки данных учетных записей по кредитным картам клиентов. Расследование было начато 2 октября, а закончено 4 октября 2019 года. Банк утверждает, что виновный — сотрудник кредитной организации, который руководил сектором в одном из бизнес-подразделений банка и имел доступ к базам данных.

Обновление [на 6.10.19]: добавлена информация о ходе расследования в Сбербанке.
Читать полностью »

Эксперт по безопасности Саньям Джейн обнаружил на незащищенном сервере несколько баз данных, содержащих в общем 419 млн телефонных номеров пользователей Facebook, сообщает издание TechCrunch.

Кроме номеров телефонов в базе оказались и другие данные: ID профилей Facebook, имена, пол, информация о стране проживания. Согласно последней в базы попали данные 133 млн пользователей США, 18 млн британцев и 50 млн жителей Вьетнама.
Читать полностью »

Решил поделиться, да бы и самому не забывать, как можно использовать простые статистические инструменты для анализа данных. В качестве примера использовался анонимный опрос относительно зарплат, стажа и позиций украинских программистов за 2014 и 2019 год. (1)

Этапы анализа

  • Препроцессинг данных и предварительный анализ (кому интересно код тут)
  • Графическое представление данных. Функция плотности распределения.
  • Формулируем нулевую гипотезу (H0) (2)
  • Выбираем метрику для анализа
  • Используем метод bootstraping для формирования нового массива данных
  • Рассчитываем p-value (3) для подтверждения или опровержения гипотезы

Препроцессинг данных

После некоторых манипуляций (код тут), приводим данные в следующий вид:

# Строка здесь это отдельный результат опроса, колонки переменные.

display(data_14_1.head(), data_19_1.head())
print('Всего опрошеных програмистов: n 
      {} чел. в 14 году и {} в 19 году'.format(len(data_14_1), len(data_19_1)))

Расчет нулевой гипотезы, на примере анализа зарплат украинских программистов - 1
Читать полностью »

В Twitter официально признались, что использовали данные некоторых пользователей без их разрешения - 1

Руководство Twitter признало, что в компании могли использовать данные некоторых пользователей без их разрешения.
Читать полностью »

Привет, читатель! Отфильтровав для вас большое количество источников и подписок — собрал все наиболее значимые новости из мира машинного обучения и искусственного интеллекта за июль. Не забудьте поделиться с коллегами, или просто с теми, кому интересны такие новости. В конце статьи вас ждут бонус и немного юмора.

Для тех, кто не читал дайджест за июнь, можете прочесть его здесь.

Итак, теперь собственно июльский дайджест.

1. ВКонтакте опубликовали библиотеку для предобработки текстовых данных. YouTokenToMe — это библиотека для предобработки текстовых данных. Инструмент работает в 7-10 раз быстрее аналогов для текстов на алфавитных языках и в 40-50 на иероглифических языках. Библиотека была разработана исследователями из ВКонтакте. → Подробнее

image
Читать полностью »

Наши турецкие клиенты попросили нас правильно настроить бэкап для дата-центра. Мы делаем подобные проекты в России, но именно здесь история была больше про исследование того, как лучше сделать.

Дано: есть локальное S3-хранилище, есть Veritas NetBackup, который обзавёлся новым расширенным функционалом по перемещению данных в объектные хранилища теперь уже с поддержкой дедупликации, и есть проблема со свободным местом в этом локальном хранилище.

Задача: сделать всё так, чтобы процесс хранения резервных копий был быстр и дешев.

Собственно, до этого в S3 всё складывалось просто файлами, причём это были полные слепки критичных машин дата-центра. То есть не так, чтобы очень оптимизированно, но зато всё работало на старте. Сейчас же пришло время разобраться и сделать правильно.

На картинке то, к чему мы пришли:

Как уплотнить до 90% хранение бэкапов в объектном хранилище - 1

Как видно, первый бэкап делался медленно (70 Мб/с), а последующие бэкапы тех же систем — значительно быстрее.

Собственно, дальше чуть больше деталей про то, какие там особенности. Читать полностью »

Визуализация сна первого года ребенка на узорах одеяла - 1

Отец-айтишник визуализировал данные о сне и бодрствовании первого года жизни своего сына. Сделал это своими руками — программно обработал данные и связал одеялко, которое показывает активность его малыша за год.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js