Рубрика «big data» - 93

Создание собственного приложения для обработки графов в Giraph

2016-07-19 в 9:27, admin, рубрики: big data, giraph, java, Алгоритмы, Блог компании Mail.Ru Group, графы, метки: giraph

Создание собственного приложения для обработки графов в Giraph - 1
Be my friend by oosDesign

Перед крупными интернет-компаниями часто встают такие сложные задачи, как обработка больших данных и анализ графов социальных сетей. Помогают в их решении фреймворки, но сперва необходимо проанализировать возможные варианты и выбрать подходящий. В лаборатории при Техносфере Mail.Ru мы изучаем эти вопросы на реальных примерах из проектов Mail.Ru Group (myTarget, Поиск Mail.Ru, Антиспам). Задачи могут быть как сугубо практические, так и с исследовательской составляющей. По мотивам одной из таких задач и появилась эта статья.

Во время сборки и запуска своего первого проекта на Giraph сотрудники лаборатории анализа данных Техносферы Mail.Ru столкнулись с рядом проблем, в связи с чем родилась идея написать краткий туториал, как же собрать и запустить свой первый Giraph-проект.

В этой статье мы расскажем, как создавать свои приложения под фреймворк Giraph, который является надстройкой над популярной системой обработки данных Hadoop.
Читать полностью »

Big Data от A до Я. Часть 5.2: Продвинутые возможности hive

2016-07-18 в 11:12, admin, рубрики: big data, Hive, MapReduce, Блог компании DCA (Data-Centric Alliance)

Привет! В этой статье мы продолжим рассматривать возможности hive — движка, транслирующего SQL-like запросы в MapReduce задачи.

В предыдущей статье мы рассмотрели базовые возможности hive, такие как создание таблиц, загрузка данных, выполнение простых SELECT-запросов. Теперь поговорим о продвинутых возможностях, которые позволят выжимать максимум из Hive.

Читать полностью »

Что такое большие данные, часть 1

2016-07-15 в 10:14, admin, рубрики: amazon, big data, data mining, sql, Администрирование баз данных, Большие данные, информация, история, хранение данных

Что такое большие данные, часть 1 - 1

Большие данные — это Большие Новости, Большая Важность и Большой Бизнес, но что это на самом деле? Что такое большие данные? Для тех, кто живёт ими, всё очевидно, а я просто тупица — задавать подобные вопросы. Но те, кто живёт ими, считают большинство людей глупыми, верно? Поэтому в начале я хочу поговорить с теми читателями, которые, как и я, не в теме. Что это вообще такое? На этой неделе я планирую хорошенько исследовать этот вопрос, и, скорее всего, опубликовать три длинных статьи (прим. переводчика: переводы следующих двух частей выйдут в ближайшие дни).Читать полностью »

Городской АД: школьники и студенты

2016-07-14 в 10:10, admin, рубрики: big data, goto-ru, IoT, Блог компании Школа GoTo, косинусы идут лесом, машинное обучение, ненормальное программирование, обучение программированию, школа

Городской АД: школьники и студенты - 1

Привет. В этом году у нас довольно успешно прошли эксперименты по вовлечению юных программистов в АД:

затеяли хакатон, где школьники и студенты соревновались на равных (выиграли, кстати, школьники), помогли организовать олимпиаду НТИ по большим данным.
открыли направление АДских чудес в летних школах. О том, как школьники написали рекомендательную систему ленты новостей Дождя, освоили параметрическое моделирование (не забыв отлить в силиконе сиськи директору), осваивали азы социальной инженерии по Митнику, расскажем в следующей статье.
организовали митапы для "укушенных" в Яндексе с Ежом. Еж (Александр Панин) не устоял перед обаянием юных "датасайнтистов" на хакатоне, с тех пор каждую субботу одна из переговорок превращается в Малый АД под звуки арфы, на которой Еж играет в перерывах.

Воодушевленные упорством ребят, решили начать вовлекать студентов постарше. Задумали школу прямо в Москве, пройдет она с 1 по 8 августа на факультете компьютерных наук ВШЭ, к участию приглашаются все желающие возрастом до 22 лет.

Отбор

Для участия необходимо пройти отбор – решить реальную задачу, с которой столкнулся наш партнер E-Contenta при разработке рекомендательного движка для Tviz.tv. До 20 июля принимаем решения любым способом – интересно посмотреть на нестандартные идеи, возможно, кто переплюнет решение партнера. Опытные участники имеют возможность заявить о себе и выиграть грант на бесплатное обучение.

Понимаем, что кто-то в 20-21 уже рулит R&D в больших компаниях, входит в топ Kaggle. Кстати, Семенов стал первым в мировом рейтинге. Но хотели бы дать шанс молодежи с нуля погрузиться в Data Science не за 180 тысяч на курсах для "взрослых". Отбор нацелен прежде всего на проверку мотивации.

Читать полностью »

Финальный хакатон конкурса «BudgetApps»

2016-07-13 в 12:24, admin, рубрики: big data, open data, Блог компании «Информационная культура», конкурс приложений, конкурс разработчиков, хакатон, Хакатоны, хакспейс

Финальный хакатон конкурса «BudgetApps» - 1 "

22 и 23 июля, в пятницу и субботу, в хакспейсе «Сталь» в Москве состоится хакатон в рамках конкурса для веб-разработчиков, журналистов и специалистов по инфографике «BudgetApps-2016». Для тех, кто планирует участвовать в конкурсе, это последний шанс обсудить свои проекты с экспертами и менторами.

Участники хакатона смогут разработать мобильные приложении, веб-сервисы или медиапроекты, инфографику на основе открытых государственных данных, получить рекомендации экспертов по воплощению своих идей и улучшить уже действующие проекты.

Хакатон — финальная стадия подготовки к конкурсу «BudgetApps-2016». Конкурс уже второй год подряд организует АНО «Инфокультура» при поддержке Министерства финансов РФ. Призовой фонд конкурса — 500 тысяч рублей. Его цель — поддержать коммерческие и общественные инициативы в сфере использования открытых государственных данных.

Читать полностью »

Big Data «Яндекса» осваивает список Forbes

2016-07-13 в 7:50, admin, рубрики: B2B, big data, Yandex Data Factory, кейсы, Текучка, яндекс, метки: b2b, big data, Yandex Data Factory, кейсы, Текучка, яндекс

«Магнитогорский металлургический комбинат» (ММК) внедрил решение в области Big Data, разработанное «Яндексом», сообщила газета «Ведомости». Решение позволяет анализировать состав руды и создавать рекомендации по оптимизации технологического процесса производства стали, основываясь на анализе Читать полностью »

Создание индексов с помощью Spark SQL

2016-07-09 в 5:59, admin, рубрики: big data, php, spark, yii2

Основная цель статьи — поделиться практическим опытом создания и анализа индексов с помощью Spark SQL. Разумеется, это настолько обширная тема, что данная статья только поверхностно коснётся основных подходов в контексте упомянутой задачи. Создание индексов часто требуется после сложного анализа огромного числа документов. Допустим, аналитическая система записывает в лог уникальный идентификатор документа и ряд его метрик. Необходимо проанализировать этот отчёт, чтобы выбрать только необходимые идентификаторы документов.

Читать полностью »

Как большие данные меняют рынок рекламы в СМИ

2016-07-07 в 11:04, admin, рубрики: big data, relap, анализ данных, Блог компании Surfingbird, Большие данные, Исследования и прогнозы в IT, Медиа, сбор данных, СМИ, сми в интернете, финансы в IT

8 из 10 крупнейших издательских домов Германии работают над созданием единой базы данных о своих читателях. Паралллельно данные о пользователях объединяют The Guardian, CNN, Financial Times, Reuters и The Economist.Читать полностью »

Новый Яндекс.ОФД пересчитает для налоговой чеки от магазинных касс

2016-07-04 в 14:35, admin, рубрики: big data, e-commerce, аналитика, Госвеб, запуск, налоги, платежные системы, Сбербанк, Текучка, яндекс, яндекс.деньги, яндекс.касса, метки: big data, e-commerce, аналитика, Госвеб, запуск, налоги, платежные системы, Сбербанк, Текучка, яндекс, яндекс.деньги, Яндекс.Касса

Источник «Интерфакса» отрекомендовавшийся, как знакомый с планами Яндекса, заявил, что поисковик встретился с представителями налоговых органов. В конце мая Яндекс учредил и владеет на 99,9% ООО «Яндекс.ОФД». Основной вид деятельности юрлица — «обработка данных».

«Читать полностью »

Spark Summit 2016: обзор и впечатления

2016-07-04 в 11:34, admin, рубрики: analytics, Apache Spark, big data, data mining, data science, machine learning, spark, wrike, Анализ и проектирование систем, Блог компании Wrike, хранение данных

Spark Summit 2016: обзор и впечатления - 1

В июне прошло одно из самых крупных мероприятий мира в сфере big data и data science — Spark Summit 2016 в Сан-Франциско. Конференция собрала две с половиной тысячи человек, включая представителей крупнейших компаний (IBM, Intel, Apple, Netflix, Amazon, Baidu, Yahoo, Cloudera и так далее). Многие из них используют Apache Spark, включая контрибьюторов в open source и вендоров собственных разработок в big data/data science на базе Apache Spark.

Мы в Wrike активно используем Spark для задач аналитики, поэтому не могли упустить возможности из первых рук узнать, что происходит нового на этом рынке. С удовольствием делимся своими наблюдениями.

Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 93

Создание собственного приложения для обработки графов в Giraph

Big Data от A до Я. Часть 5.2: Продвинутые возможности hive

Что такое большие данные, часть 1

Городской АД: школьники и студенты

Отбор

Финальный хакатон конкурса «BudgetApps»

Big Data «Яндекса» осваивает список Forbes

Создание индексов с помощью Spark SQL

Как большие данные меняют рынок рекламы в СМИ

Новый Яндекс.ОФД пересчитает для налоговой чеки от магазинных касс

Spark Summit 2016: обзор и впечатления

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 93

Отбор

Новости

Актуальные темы

Архив