Рубрика «big data» - 63

image

Всем привет! Мы долго готовились, искали крутых докладчиков и, наконец, анонсируем Moscow Spark #3, который состоится 16 ноября на Мансарде Rambler&Co! Предыдущий митап собрал почти 250 человек, и мы рассчитываем, что сможем собрать не меньше в этот раз. Ключевой темой этого мероприятия станет Spark Streaming, актуальная и очень интересная часть фреймворка Apache Spark.
Читать полностью »

In-memory СУБД SAP HANA и использующие ее приложения пользуются все большей популярностью у компаний. И такой рост побуждает разработчиков инфраструктурных решений для SAP HANA предлагать максимально удобные и выгодные для заказчиков варианты решений. Сегодня мы расскажем о вариантах, предлагаемых Fujitsu.
Поддержка SAP HANA: новые возможности - 1
Fujitsu PRIMEQUEST 3800B
Читать полностью »

«5П»: О качестве данных и распространенных ошибках при их сборе - 1
Многие компании считают, что работают и принимают решения на основе данных, но часто это не так. Ведь для того чтобы управление велось на основе данных, их, эти самые данные, недостаточно только собрать и свести в статистику.

Намного важнее провести правильный анализ, а для этого они должны быть «чисты».
Разбираться в чистоте данных и в основных качественных параметрах я начну с этой статьи.
Для достоверной аналитики должны быть соблюдены все «П» данных: правильные, правильно собранные, собранные в правильной форме, в правильном месте и в правильное время.
Если один из параметров нарушен, это может сказаться на достоверности всей аналитики, а значит нужно понимать, на что важно обращать внимание при  работе с данными.
Читать полностью »

Хочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.

Выборка данных

Выборка данных содержит порядка 8,5 млн строк и 29 столбцов.Вот некоторые из параметров:

  • Широта-latitude
  • Долгота-longitude
  • Способ взятия пробы-method_name
  • Дата и время взятия пробы-date_local

image

Задача

  1. Найти параметры максимально влияющие на уровень CO в атмосфере.
  2. Создание гипотезы, предсказывающей уровень CO в атмосфере.
  3. Создание нескольких простых визуализаций.

Читать полностью »

Числа и буквы: как прошла конференция SmartData - 1

Как рассказывать о конференции, где ключевым словом было «данные»? Мы решили, что в тексте о прошедшей в Санкт-Петербурге SmartData интересно сделать подзаголовками конкретные числа. Эти данные получились очень разнородными, нейросеть из них вряд ли что-то полезное извлечёт, а вот вы можете.
Читать полностью »

Привет! Публикуем заключительную часть обзора Data Science Week 2017, прошедшем в Москве 12-14 сентября. Сегодня расскажем о панельной дискуссии по теме “Подбор команд по работе с данными и оценка их эффективности”. Модератором выступила Ольга Филатова, вице-президент по персоналу и образовательным проектам Mail.ru Group, а участниками были Виктор Кантор (Яндекс), Андрей Уваров (МегаФон), Павел Клеменков (Rambler&Co) и Александр Ерофеев (Сбербанк).

“Главный вызов — это кадровый голод” — панельная дискуссия о подборе команд по работе с данными. Data Science Week 2017 - 1
Читать полностью »

«Мы разработали более совершенные технологии для подбора обуви на Amazon, чем для выбора типа лечения больных раком», — так отзывается профессор MIT Регина Барзилай (Regina Barzilay) о текущем состоянии высокотехнологичных медицинских проектов. Оценка неутешительная: зачастую «популярные» направления, такие как электронная коммерция, по уровню использующихся технологий опережают более социально важные сферы.

Однако есть и хорошие новости: решения, которые разрабатывались для условного «поиска обуви» можно использовать и для помощи больным. И спрос на такие разработки только растет: по прогнозам агентства Frost & Sullivan, объем одного только рынка медицинских разработок, использующих машинное обучение и большие данные, увеличивается на 40% ежегодно и к 2021 году составит 6,6 миллиардов долларов.

Сегодня расскажем о том, как большие данные используются в медицинских проектах и какие разработки в этом направлении ведутся в Университете ИТМО.

Большие данные и машинное обучение: новые возможности для медицины - 1Читать полностью »

Привет! Data Engineering становится все более популярным, многие компании постепенно открывают соответствующие вакансии. В связи с этим мы взяли интервью у дата инженера и преподавателя на программах “Специалист по большим данным” и “Data Engineer” Николая Маркова о том, что должны уметь data scientist-ы и data engineer-ы, чего им чаще всего не хватает и как найти свое место в анализе данных.

“Без data engineer-а ценность модели аналитика стремится к нулю” — интервью с дата инженером Николаем Марковым - 1
Читать полностью »

В продолжение темы «доступным языком про Ignite / GridGain», начатой в предыдущем посте (Для чего нужен Apache Ignite), давайте рассмотрим примеры использования продукта «для простых смертных».

Терабайты данных, кластеры на сотни машин, big data, high load, machine learning, микросервисы и прочие страшные слова — всё это доступно Ignite. Но это не значит, что он не годится для менее масштабных целей.

Сегодня мы рассмотрим, как Ignite может легко хранить любые ваши объекты, обмениваться ими по сети и обеспечивать взаимодействие .NET и Java.

Apache Ignite.NET

Читать полностью »

Открытая трансляция из главного зала SmartData 2017: речь не про решения — речь про эволюцию - 1

Как мы уже неоднократно сообщали ранее, в этом году компания JUG.ru Group решила заглянуть в будущее и разобраться, какая необходимость двум серым ящикам взаимодействовать друг с другом впустить в наш мир дозу сакральных знаний по Big Data и машинному обучению — мы сделали конференцию SmartData 2017, которая пройдёт в Питере 21 октября.

Зачем мы собираем конференцию по Big Data и машинному обучению? Потому что не можем не собрать. И чтобы обратить в наше братство как можно большее количество разработчиков, мы традиционно открываем бесплатную онлайн-трансляцию из первого зала конференции.

Итак, бесплатная онлайн-трансляция из главного зала SmartData 2017 начнётся 21 октября 2017 года в 9:30 утра по московскому времени. Только вы, мы и будущее. В этот раз трансляция будет доступна в 2k — доставайте ваши 4k мониторы!

Открытая трансляция из главного зала SmartData 2017: речь не про решения — речь про эволюцию - 2

Ссылка на онлайн-трансляцию первого трека конференции SmartData 2017 и краткое описание докладов — под катом.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js