Рубрика «big data» - 104

Глава столичного дептранса, вице-мэр Максим Ликсутов рассказал «Газете.Ru» о встречах с представителями Uber. Сервис вызова такси, с одной строны и сервис рассылки заказов по водителям, с другой — пока не подписал никаких соглашений с Московской властью.

«У нас была встреча с представителями Uber, Читать полностью »

Что сегодня обсуждают эксперты по Data Science и Big Data - 1

Сегодня мы решили пройтись по рейтингу экспертов по теме Data Science на Quora и посмотреть, что обсуждают наиболее активные участники сообщества.Читать полностью »

Привет!

Мы в компании JetBrains только что выпустили Census Analyzer — новое веб-приложение для визуализации и анализа данных. Попробуйте его и расскажите нам, что вы думаете!

Census Analyzer является прототипом, “preview”-версией, призванной познакомить пользователей с принципами работы более глобального продукта по анализу данных, который пока в разработке. Но уже сейчас с помощью Census Analyzer вы можете в облаке анализировать данные Бюро переписи населения США (US Census Bureau), работать с графиками и сводными таблицами, составлять графические отчеты, публиковать их и делиться ими в сети.

Давайте посмотрим, чем отличается Census Analyzer.

image
Читать полностью »

" — Они очень молоды, у них все впереди, а у нас впереди — только они."
«Гадкие лебеди» А. и Б. Стругацкие

image

Привет.

Уже более двух лет я знаком с замечательной командой, которая делает классные штуки для школьников.
Все началось с Яндекс-лагеря («Свой образовательный лагерь с покером, 3d-принтером, роботами и посадкой на Марс») где мы играли с ребятами в покер (сугубо в образовательных целях). Там я запилил «инженерную олимпиаду», где из скотча и туалетной бумаги нужно было делать функциональные объекты, притащил 3д-принтер (на котором мы пробовали печатать отмычки) и научил пару ребят, как лазить в окно ночью и мазать зубной пастой. Ах, да, еще мы написали несколько статей на Хабр, сначала под строгим присмотром, а потом самостоятельно.

На следующий год я взял в лагерь наручники и нейроинтерфейс NeuroSky.
Был конкурс на скоростное программирование в наручниках, а так же выявляли, кто дольше всех сможет протянуть в лагере, не снимая браслеты. Еще мы спаяли пояс для развития нейропластичности. «Детский лагерь: биссектрально-пифагоровы треугольники, перепрограммирование мозга, радар-детектор и взлом наручников».
А так же стартанули «пиратский» флешмоб по переводу книги от главреда WIRED (бывшего blackhat хакера) про подпольный миллиардный рынок кардеров: «Шкворень: школьники переводят книгу про хакеров».

И вот сейчас команда организаторов решила запустит хакатон (и серию лекций и воркшопов) по анализу открытых данных и нам нужны советы, идеи и гипотезы от хабрачитателей.

Под катом немного описания мероприятия и лекторов, а так же полезные материалы для подготовки к хакатону. В комментах можно предложить свои задачки, идеи и варианты гипотез на проверку. (Вспомните себя школьником, над чем вам было бы интересно поработать, если бы вы попали на подобный хакатон?)

Читать полностью »

Кто встречал Новый Год вместе с россиянами? - 1

Мы уже рассказывали о том, как в нашей команде выстроена работа с «большими данными»: здесь и здесь. Теперь посмотрим, как можно преобразовать результаты анализа данных в конкретные факты и как можно эти факты использовать на благо наших абонентов. Так как сейчас начало года и мы все еще только отходим от новогодних праздников, пример мы решили рассмотреть соответствующий: выяснить, кто из иностранцев встречал Новый год в России и где именно? И где отмечали праздники наши соотечественники?

Читать полностью »

После непродолжительной, но весьма кровавой войны мне все-таки удалось откомпилировать и собрать TensorFlow для GPU с CUDA capability=3.0. Теперь можно погрузиться в него основательно, потому что машинное обучение с GPU — это быстро, легко и приятно, а без GPU — порой лишь огромная потеря времени.

Попробуем запрограммировать самую простейшую логистическую регрессию.
Читать полностью »

Используем Apache Spark как SQL Engine - 1

Привет! Мы, Wrike, ежедневно сталкиваемся с потоком данных от сотен тысяч пользователей. Все эти сведения необходимо сохранять, обрабатывать и извлекать из них ценность. Справиться с этим колоссальным объёмом данных нам помогает Apache Spark.

Мы не будем делать введение в Spark или описывать его положительные и отрицательные стороны. Об этом вы можете почитать здесь, здесь или в официальной документации. В данной статье мы делаем упор на библиотеку Spark SQL и её практическое применение для анализа больших данных.

Читать полностью »

FlyElephant как инструмент для вычислений на C++, R, Python или Octave - 1
Приветствую всех!

Сегодня я расскажу о возможностях платформы FlyElephant для ученых и инженеров, которые в своей работе проводят различные вычисления на C++, R, Python или Octave. Это могут быть научные расчеты, анализ данных, моделирование или другие задачи. 22 января я буду проводить вебинар “Введение в FlyElephant”, на котором детально расскажу о платформе FlyElephant, а сегодня в общих чертах познакомлю вас с ней и покажу процесс проведения расчетов.

FlyElephant — это платформа, которая предоставляет ученым готовую вычислительную инфраструктуру для проведения расчетов, автоматизирует рутинные задачи и позволяет сосредоточиться на основных вопросах исследований.
Читать полностью »

Эта публикация написана по материалам выступления Александра Сербула на осенней конференции BigData Conference.

Большие данные — тема модная и востребованная. Но многих по-прежнему отпугивает избыток теоретических рассуждений и некоторый недостаток практических рекомендаций. В этом посте я хочу отчасти заполнить этот пробел и рассказать об использовании параллельных алгоритмов для обработки больших данных на примере кластеризации товарного каталога из 10 млн позиций.
Читать полностью »

Компания Mail.Ru Group провела небольшую реструктуризацию. Теперь заниматься работой с big data будет отдельное подразделение. У компании накопилось значительное количество клиентов и задач. Своим клиентам новое подразделение будет оказывать услуги по созданию предиктивных математических моделей, проведению маркетинговых исследований, консалтингу в области развития инфраструктуры и методологии работы с большими данными. Подразделение возглавил Роман Стятюгин.

«Компания занимается анализом данных фактически с момента основания. Накопленная экспертиза и компетенции позволяют предоставлять услуги по анализу big data сторонним заказчикам вне зависимости от географии присутствия. Прежде всего, это проекты, которые направлены на повышение эффективности процессов маркетинга и продаж, оптимизацию производства, логистики, управления рисками, планирования, управления персоналом и другие рабочие процессы различных бизнесов. В этой связи было принято решение выделить эту работу в отдельное подразделение», рассказал CNews Дмитрий Сергеев, заместитель генерального директора Mail.Ru Group.

Технологии big data могут с успехом применяться для оптимизации бизнес-процессов. Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js