Всем привет! Мы долго готовились, искали крутых докладчиков и, наконец, анонсируем Moscow Spark #3, который состоится 16 ноября на Мансарде Rambler&Co! Предыдущий митап собрал почти 250 человек, и мы рассчитываем, что сможем собрать не меньше в этот раз. Ключевой темой этого мероприятия станет Spark Streaming, актуальная и очень интересная часть фреймворка Apache Spark.
Читать полностью »
Рубрика «big data» - 63
Анонс Moscow Spark #3
2017-10-31 в 16:01, admin, рубрики: big data, ml, python, scala, spark, Блог компании Rambler&Co, машинное обучениеПоддержка SAP HANA: новые возможности
2017-10-31 в 13:22, admin, рубрики: big data, ETERNUS, Fujitsu, PRIMEQUEST, PRIMERGY, S4/HANA, SAP HANA, Блог компании Fujitsu, Серверное администрированиеIn-memory СУБД SAP HANA и использующие ее приложения пользуются все большей популярностью у компаний. И такой рост побуждает разработчиков инфраструктурных решений для SAP HANA предлагать максимально удобные и выгодные для заказчиков варианты решений. Сегодня мы расскажем о вариантах, предлагаемых Fujitsu.
Fujitsu PRIMEQUEST 3800B
Читать полностью »
«5П»: О качестве данных и распространенных ошибках при их сборе
2017-10-30 в 23:46, admin, рубрики: big data, аналитика данных, работа с данными, Управление продуктом, управление проектами, Читальный зал
Многие компании считают, что работают и принимают решения на основе данных, но часто это не так. Ведь для того чтобы управление велось на основе данных, их, эти самые данные, недостаточно только собрать и свести в статистику.
Намного важнее провести правильный анализ, а для этого они должны быть «чисты».
Разбираться в чистоте данных и в основных качественных параметрах я начну с этой статьи.
Для достоверной аналитики должны быть соблюдены все «П» данных: правильные, правильно собранные, собранные в правильной форме, в правильном месте и в правильное время.
Если один из параметров нарушен, это может сказаться на достоверности всей аналитики, а значит нужно понимать, на что важно обращать внимание при работе с данными.
Читать полностью »
Хронология уровня CO в атмосфере США (решение задачи Kaggle с помощью Python+Feature Engineering)
2017-10-27 в 22:31, admin, рубрики: big data, kaggle, pandas, python, python3, seaborn, sklearn, визуализация данныхХочу поделиться опытом решения задачи по машинному обучению и анализу данных от Kaggle. Данная статья позиционируется как руководство для начинающих пользователей на примере не совсем простой задачи.
Выборка данных
Выборка данных содержит порядка 8,5 млн строк и 29 столбцов.Вот некоторые из параметров:
- Широта-latitude
- Долгота-longitude
- Способ взятия пробы-method_name
- Дата и время взятия пробы-date_local
Задача
- Найти параметры максимально влияющие на уровень CO в атмосфере.
- Создание гипотезы, предсказывающей уровень CO в атмосфере.
- Создание нескольких простых визуализаций.
Числа и буквы: как прошла конференция SmartData
2017-10-27 в 11:14, admin, рубрики: big data, deep learning, Gradient Boosting, machine learning, SmartData, Блог компании JUG.ru Group, машинное обучение
Как рассказывать о конференции, где ключевым словом было «данные»? Мы решили, что в тексте о прошедшей в Санкт-Петербурге SmartData интересно сделать подзаголовками конкретные числа. Эти данные получились очень разнородными, нейросеть из них вряд ли что-то полезное извлечёт, а вот вы можете.
Читать полностью »
“Главный вызов — это кадровый голод” — панельная дискуссия о подборе команд по работе с данными. Data Science Week 2017
2017-10-24 в 6:44, admin, рубрики: big data, data engineering, data mining, data science, data scientist, machine learning, python, Блог компании New Professions Lab, машинное обучениеПривет! Публикуем заключительную часть обзора Data Science Week 2017, прошедшем в Москве 12-14 сентября. Сегодня расскажем о панельной дискуссии по теме “Подбор команд по работе с данными и оценка их эффективности”. Модератором выступила Ольга Филатова, вице-президент по персоналу и образовательным проектам Mail.ru Group, а участниками были Виктор Кантор (Яндекс), Андрей Уваров (МегаФон), Павел Клеменков (Rambler&Co) и Александр Ерофеев (Сбербанк).
Большие данные и машинное обучение: новые возможности для медицины
2017-10-22 в 11:54, admin, рубрики: big data, биоинформатика, Блог компании Университет ИТМО, Большие данные, хемоинформатика«Мы разработали более совершенные технологии для подбора обуви на Amazon, чем для выбора типа лечения больных раком», — так отзывается профессор MIT Регина Барзилай (Regina Barzilay) о текущем состоянии высокотехнологичных медицинских проектов. Оценка неутешительная: зачастую «популярные» направления, такие как электронная коммерция, по уровню использующихся технологий опережают более социально важные сферы.
Однако есть и хорошие новости: решения, которые разрабатывались для условного «поиска обуви» можно использовать и для помощи больным. И спрос на такие разработки только растет: по прогнозам агентства Frost & Sullivan, объем одного только рынка медицинских разработок, использующих машинное обучение и большие данные, увеличивается на 40% ежегодно и к 2021 году составит 6,6 миллиардов долларов.
Сегодня расскажем о том, как большие данные используются в медицинских проектах и какие разработки в этом направлении ведутся в Университете ИТМО.
“Без data engineer-а ценность модели аналитика стремится к нулю” — интервью с дата инженером Николаем Марковым
2017-10-20 в 12:43, admin, рубрики: big data, data engineering, data mining, data science, data scientist, machine learning, python, Блог компании New Professions Lab, машинное обучениеПривет! Data Engineering становится все более популярным, многие компании постепенно открывают соответствующие вакансии. В связи с этим мы взяли интервью у дата инженера и преподавателя на программах “Специалист по большим данным” и “Data Engineer” Николая Маркова о том, что должны уметь data scientist-ы и data engineer-ы, чего им чаще всего не хватает и как найти свое место в анализе данных.
Используем Apache Ignite в быту
2017-10-20 в 6:45, admin, рубрики: .net, Apache, big data, BigData, C#, gridgain, Ignite, java, MapReduce, nosql, sql, Блог компании GridGainВ продолжение темы «доступным языком про Ignite / GridGain», начатой в предыдущем посте (Для чего нужен Apache Ignite), давайте рассмотрим примеры использования продукта «для простых смертных».
Терабайты данных, кластеры на сотни машин, big data, high load, machine learning, микросервисы и прочие страшные слова — всё это доступно Ignite. Но это не значит, что он не годится для менее масштабных целей.
Сегодня мы рассмотрим, как Ignite может легко хранить любые ваши объекты, обмениваться ими по сети и обеспечивать взаимодействие .NET и Java.
Открытая трансляция из главного зала SmartData 2017: речь не про решения — речь про эволюцию
2017-10-20 в 6:09, admin, рубрики: AI, big data, BigData, catboost, cgi, data science, deep learning, Hadoop, machine learning, Блог компании JUG.ru Group, машинное обучение, свёрточная нейросеть, сверточные нейронные сети, свёрточные сети
Как мы уже неоднократно сообщали ранее, в этом году компания JUG.ru Group решила заглянуть в будущее и разобраться, какая необходимость двум серым ящикам взаимодействовать друг с другом впустить в наш мир дозу сакральных знаний по Big Data и машинному обучению — мы сделали конференцию SmartData 2017, которая пройдёт в Питере 21 октября.
Зачем мы собираем конференцию по Big Data и машинному обучению? Потому что не можем не собрать. И чтобы обратить в наше братство как можно большее количество разработчиков, мы традиционно открываем бесплатную онлайн-трансляцию из первого зала конференции.
Итак, бесплатная онлайн-трансляция из главного зала SmartData 2017 начнётся 21 октября 2017 года в 9:30 утра по московскому времени. Только вы, мы и будущее. В этот раз трансляция будет доступна в 2k — доставайте ваши 4k мониторы!
Ссылка на онлайн-трансляцию первого трека конференции SmartData 2017 и краткое описание докладов — под катом.
Читать полностью »