Рубрика «big data» - 93

Создание собственного приложения для обработки графов в Giraph - 1
Be my friend by oosDesign

Перед крупными интернет-компаниями часто встают такие сложные задачи, как обработка больших данных и анализ графов социальных сетей. Помогают в их решении фреймворки, но сперва необходимо проанализировать возможные варианты и выбрать подходящий. В лаборатории при Техносфере Mail.Ru мы изучаем эти вопросы на реальных примерах из проектов Mail.Ru Group (myTarget, Поиск Mail.Ru, Антиспам). Задачи могут быть как сугубо практические, так и с исследовательской составляющей. По мотивам одной из таких задач и появилась эта статья.

Во время сборки и запуска своего первого проекта на Giraph сотрудники лаборатории анализа данных Техносферы Mail.Ru столкнулись с рядом проблем, в связи с чем родилась идея написать краткий туториал, как же собрать и запустить свой первый Giraph-проект.

В этой статье мы расскажем, как создавать свои приложения под фреймворк Giraph, который является надстройкой над популярной системой обработки данных Hadoop.
Читать полностью »

Привет! В этой статье мы продолжим рассматривать возможности hive — движка, транслирующего SQL-like запросы в MapReduce задачи.

В предыдущей статье мы рассмотрели базовые возможности hive, такие как создание таблиц, загрузка данных, выполнение простых SELECT-запросов. Теперь поговорим о продвинутых возможностях, которые позволят выжимать максимум из Hive.

Big Data от A до Я. Часть 5.2: Продвинутые возможности hive - 1
Читать полностью »

Что такое большие данные, часть 1 - 1

Большие данные — это Большие Новости, Большая Важность и Большой Бизнес, но что это на самом деле? Что такое большие данные? Для тех, кто живёт ими, всё очевидно, а я просто тупица — задавать подобные вопросы. Но те, кто живёт ими, считают большинство людей глупыми, верно? Поэтому в начале я хочу поговорить с теми читателями, которые, как и я, не в теме. Что это вообще такое? На этой неделе я планирую хорошенько исследовать этот вопрос, и, скорее всего, опубликовать три длинных статьи (прим. переводчика: переводы следующих двух частей выйдут в ближайшие дни).Читать полностью »

Городской АД: школьники и студенты - 1

Привет. В этом году у нас довольно успешно прошли эксперименты по вовлечению юных программистов в АД:

  • затеяли хакатон, где школьники и студенты соревновались на равных (выиграли, кстати, школьники), помогли организовать олимпиаду НТИ по большим данным.

  • открыли направление АДских чудес в летних школах. О том, как школьники написали рекомендательную систему ленты новостей Дождя, освоили параметрическое моделирование (не забыв отлить в силиконе сиськи директору), осваивали азы социальной инженерии по Митнику, расскажем в следующей статье.

  • организовали митапы для "укушенных" в Яндексе с Ежом. Еж (Александр Панин) не устоял перед обаянием юных "датасайнтистов" на хакатоне, с тех пор каждую субботу одна из переговорок превращается в Малый АД под звуки арфы, на которой Еж играет в перерывах.

Воодушевленные упорством ребят, решили начать вовлекать студентов постарше. Задумали школу прямо в Москве, пройдет она с 1 по 8 августа на факультете компьютерных наук ВШЭ, к участию приглашаются все желающие возрастом до 22 лет.

Отбор

Для участия необходимо пройти отбор – решить реальную задачу, с которой столкнулся наш партнер E­-Contenta при разработке рекомендательного движка для Tviz.tv. До 20 июля принимаем решения любым способом – интересно посмотреть на нестандартные идеи, возможно, кто переплюнет решение партнера. Опытные участники имеют возможность заявить о себе и выиграть грант на бесплатное обучение.

Понимаем, что кто-то в 20-21 уже рулит R&D в больших компаниях, входит в топ Kaggle. Кстати, Семенов стал первым в мировом рейтинге. Но хотели бы дать шанс молодежи с нуля погрузиться в Data Science не за 180 тысяч на курсах для "взрослых". Отбор нацелен прежде всего на проверку мотивации.

Читать полностью »

Финальный хакатон конкурса «BudgetApps» - 1"

22 и 23 июля, в пятницу и субботу, в хакспейсе «Сталь» в Москве состоится хакатон в рамках конкурса для веб-разработчиков, журналистов и специалистов по инфографике «BudgetApps-2016». Для тех, кто планирует участвовать в конкурсе, это последний шанс обсудить свои проекты с экспертами и менторами.

Участники хакатона смогут разработать мобильные приложении, веб-сервисы или медиапроекты, инфографику на основе открытых государственных данных, получить рекомендации экспертов по воплощению своих идей и улучшить уже действующие проекты.

Хакатон — финальная стадия подготовки к конкурсу «BudgetApps-2016». Конкурс уже второй год подряд организует АНО «Инфокультура» при поддержке Министерства финансов РФ. Призовой фонд конкурса — 500 тысяч рублей. Его цель — поддержать коммерческие и общественные инициативы в сфере использования открытых государственных данных.

Читать полностью »

«Магнитогорский металлургический комбинат» (ММК) внедрил решение в области Big Data, разработанное «Яндексом», сообщила газета «Ведомости». Решение позволяет анализировать состав руды и создавать рекомендации по оптимизации технологического процесса производства стали, основываясь на анализе Читать полностью »

Основная цель статьи — поделиться практическим опытом создания и анализа индексов с помощью Spark SQL. Разумеется, это настолько обширная тема, что данная статья только поверхностно коснётся основных подходов в контексте упомянутой задачи. Создание индексов часто требуется после сложного анализа огромного числа документов. Допустим, аналитическая система записывает в лог уникальный идентификатор документа и ряд его метрик. Необходимо проанализировать этот отчёт, чтобы выбрать только необходимые идентификаторы документов.

Читать полностью »

image

8 из 10 крупнейших издательских домов Германии работают над созданием единой базы данных о своих читателях. Паралллельно данные о пользователях объединяют The Guardian, CNN, Financial Times, Reuters и The Economist.Читать полностью »

Источник «Интерфакса» отрекомендовавшийся, как знакомый с планами Яндекса, заявил, что поисковик встретился с представителями налоговых органов. В конце мая Яндекс учредил и владеет на 99,9% ООО «Яндекс.ОФД». Основной вид деятельности юрлица — «обработка данных».

«Читать полностью »

Spark Summit 2016: обзор и впечатления - 1

В июне прошло одно из самых крупных мероприятий мира в сфере big data и data science — Spark Summit 2016 в Сан-Франциско. Конференция собрала две с половиной тысячи человек, включая представителей крупнейших компаний (IBM, Intel, Apple, Netflix, Amazon, Baidu, Yahoo, Cloudera и так далее). Многие из них используют Apache Spark, включая контрибьюторов в open source и вендоров собственных разработок в big data/data science на базе Apache Spark.

Мы в Wrike активно используем Spark для задач аналитики, поэтому не могли упустить возможности из первых рук узнать, что происходит нового на этом рынке. С удовольствием делимся своими наблюдениями.

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js