Рубрика «big data» - 71

Выбор алгоритма вычисления квантилей для распределённой системы

2017-07-07 в 12:58, admin, рубрики: big data, java, map reduce, spark, Алгоритмы, Блог компании Badoo, квантиль, Программирование

Выбор алгоритма вычисления квантилей для распределённой системы - 1

Всем привет!

Меня зовут Александр, я руковожу отделом Data Team в Badoo. Сегодня я расскажу вам о том, как мы выбирали оптимальный алгоритм для вычисления квантилей в нашей распределённой системе обработки событий.

Читать полностью »

Анонс Moscow Spark #2

2017-07-06 в 11:34, admin, рубрики: big data, ml, python, scala, spark, Блог компании Rambler&Co, машинное обучение

Как мы и обещали, наше мероприятие становится регулярным – 27 июля состоится Moscow Spark #2! Moscow Spark #1, организованный группой компаний Rambler&Co, собрал больше 200 участников, и мы надеемся, что жаркая погода, которая когда-нибудь установится в московском регионе, не помешает нам собрать столько же (и даже больше) участников в этот раз. Тем более, что мы нашли новых, интересных докладчиков.
Читать полностью »

Кто владеет данными, генерируемыми устройствами из интернета вещей?

2017-07-05 в 15:26, admin, рубрики: big data, IoT, Parallels, Блог компании Parallels, Большие данные, большие данные и машинное обучение, Интернет вещей, Исследования и прогнозы в IT, Читальный зал

Кто владеет данными, генерируемыми устройствами из интернета вещей? - 1

Сегодня многие организации начинают передавать свои IoT-данные сторонним компаниям. Зачастую это делается ради монетизации, иногда — для соблюдения требований регуляторов. И все эти инициативы выдвигают на передний план проблемы владения данными и их лицензирования.

Любопытно, что не существует установленной схемы определения, как присваивается право собственности, и ещё хуже обстоят дела с правильным лицензированием IoT-данных. Давайте рассмотрим ситуацию чуть подробнее.Читать полностью »

Big Data в Райффайзенбанке

2017-07-05 в 14:27, admin, рубрики: big data, data lake, Hadoop, hortonworks, spark, Блог компании Райффайзенбанк

Всем привет!

В этой статье мы расскажем про Big Data в Райффайзенбанке.
Но прежде чем перейти к сути, хотелось бы внести ясность по поводу самого определения Big Data. Действительно, в последние несколько лет этот термин употреблялся во множестве контекстов, что привело к размытию границ самого термина и потере содержательной части. Мы в Райффайзенбанке выделили три направления, которые мы относим к Big Data:
Читать полностью »

Про аналитику и серебряные пули или «При чем здесь Рамблер-топ-100?»

2017-07-05 в 7:19, admin, рубрики: Aerospike, big data, clickhouse, python, spark, Блог компании Rambler&Co, веб-аналитика, Рамблер, рамблер топ100

Про аналитику и серебряные пули или «При чем здесь Рамблер-топ-100?» - 1

Всем привет! Я тимлид проекта Рамблер/топ-100. Это лонгрид о том, как мы проектировали архитектуру обновлённого сервиса веб-аналитики, с какими сложностями столкнулись по пути и как с ними боролись. Если вам интересны такие базворды как Clickhouse, Aerospike, Spark, добро пожаловать под кат.Читать полностью »

Доступ к ClickHouse с помощью JDBC

2017-07-02 в 12:17, admin, рубрики: big data, clickhouse, gcc-6, hibernate, java, jdbc, spring framework, sql

Привет! Не так давно я имел удовольствие посетить встречу PyData Moscow на площадке Яндекса. Я не могу назвать себя python разрабочиком, но имею интересы в области аналитики и анализа данных. Посетив данное мероприятие, я узнал о существовании СУБД ClickHouse, разработанной в Яндексе и выложенной на GitHub под открытой лицензией. Колоночная SQL СУБД с отечественными корнями пробудила во мне интерес. В этой статье я поделюсь опытом установки и настройки ClickHouse, а также попыткой доступа к ней из Spring приложения с помощью Hibernate.
Читать полностью »

Построение систем управления приложениями в распределенной кластерной инфраструктуре на базе технологии MESOS

2017-06-27 в 13:37, admin, рубрики: Apache, big data, devops, docker, linux, mesos, mesosphere, Блог компании Петер-Сервис, Настройка Linux, системное администрирование

В наше время термин “BIG DATA” у всех на слуху. После появления в сети и в прессе многочисленных публикаций, связанных с обработкой «больших данных», интерес к этой теме постоянно растет. Все более широким спросом пользуются системы управления базами данных с
использованием технологии NoSQL. Всем понятно, что для построения систем “BIG DATA” необходимо располагать внушительными аппаратными ресурсами. Еще более важно уметь оптимально использовать вычислительные ресурсы системы и эффективно их масштабировать. Это неизбежно меняет подходы к построению систем обработки данных. Читать полностью »

SmartData — новая конференция по большим и умным данным от JUG.ru Group

2017-06-27 в 7:36, admin, рубрики: big data, data science, smart data, smartdataconf, Блог компании JUG.ru Group, конференция, открытые данные

21 октября в Петербурге мы проводим новую конференцию по большим и умным данным SmartData 2017 Piter.

О Big Data в последнее время говорят все: от школьников до Германа Грефа. И вот тут возникает некоторый диалектический дуализм: о проблемах работы с большими данными говорят много, вот только все разговоры — это переливание из пустого в порожнее или какой-нибудь махровый маркетинговый вздор. Больше всего пугает, что люди начинают верить в то, что где-то лежит несколько петабайт «больших данных», и их можно взять и «отбольшеданнить». За советом я обратился к Виталию Худобахшову из «Одноклассников», и я придерживаюсь схожей точки зрения, судите сами:

Большие данные – это не свойства объема или времени. То, что считается «много данных» сейчас, влезет на флешку через 10 лет. То, для чего сейчас нужен Hadoop-кластер в десятки или даже сотни узлов, можно будет решить на телефоне через те же самые 10 лет. Большие данные – это прежде всего новое качество, т.е. что-то, что нельзя получить с помощью меньшего набора данных. На самом деле таких примеров не так уж много, но их количество с нарастанием объема данных и улучшением их качества непрерывно увеличивается.

Иногда большие данные настолько облегчают жизнь, что для решения конкретной проблемы отпадает необходимость использовать продвинутую технику машинного обучения. Рассмотрим пример: пользователь вводит свой пол в социальной сети неправильно, и получается, либо мы имеем неизвестный пол или какой-нибудь пол по умолчанию, что тоже плохо. Здесь кат. Читать полностью »

Автоэнкодеры в Keras, Часть 2: Manifold learning и скрытые (latent) переменные

2017-06-23 в 11:40, admin, рубрики: autoencoder, big data, deep learning, keras, machine learning, python, метки: autoencoder

Содержание

Часть 1: Введение
Часть 2: Manifold learning и скрытые (latent) переменные
Часть 3: Вариационные автоэнкодеры (VAE)
Часть 4: Conditional VAE
Часть 5: GAN (Generative Adversarial Networks) и tensorflow
Часть 6: VAE + GAN

Автоэнкодеры в Keras, Часть 2: Manifold learning и скрытые (latent) переменные - 1

Для того, чтобы лучше понимать, как работают автоэнкодеры, а также чтобы в последствии генерировать из кодов что-то новое, стоит разобраться в том, что такое коды и как их можно интерпретировать.
Читать полностью »

Автоэнкодеры в Keras, Часть 1: Введение

2017-06-23 в 11:38, admin, рубрики: autoencoder, big data, deep learning, keras, machine learning, python

Автоэнкодеры в Keras

Часть 1: Введение

Содержание

Часть 1: Введение
Часть 2: Manifold learning и скрытые (latent) переменные
Часть 3: Вариационные автоэнкодеры (VAE)
Часть 4: Conditional VAE
Часть 5: GAN (Generative Adversarial Networks) и tensorflow
Часть 6: VAE + GAN

Во время погружения в Deep Learning зацепила меня тема автоэнкодеров, особенно с точки зрения генерации новых объектов. Стремясь улучшить качество генерации, читал различные блоги и литературу на тему генеративных подходов. В результате набравшийся опыт решил облечь в небольшую серию статей, в которой постарался кратко и с примерами описать все те проблемные места с которыми сталкивался сам, заодно вводя в синтаксис Keras.

Автоэнкодеры

Автоэнкодеры — это нейронные сети прямого распространения, которые восстанавливают входной сигнал на выходе. Внутри у них имеется скрытый слой, который представляет собой код, описывающий модель. Автоэнкодеры конструируются таким образом, чтобы не иметь возможность точно скопировать вход на выходе. Обычно их ограничивают в размерности кода (он меньше, чем размерность сигнала) или штрафуют за активации в коде. Входной сигнал восстанавливается с ошибками из-за потерь при кодировании, но, чтобы их минимизировать, сеть вынуждена учиться отбирать наиболее важные признаки.

Автоэнкодеры в Keras, Часть 1: Введение - 1

Кому интересно, добро пожаловать под кат
Читать полностью »

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 71

Выбор алгоритма вычисления квантилей для распределённой системы

Анонс Moscow Spark #2

Кто владеет данными, генерируемыми устройствами из интернета вещей?

Big Data в Райффайзенбанке

Про аналитику и серебряные пули или «При чем здесь Рамблер-топ-100?»

Доступ к ClickHouse с помощью JDBC

Построение систем управления приложениями в распределенной кластерной инфраструктуре на базе технологии MESOS

SmartData — новая конференция по большим и умным данным от JUG.ru Group

Автоэнкодеры в Keras, Часть 2: Manifold learning и скрытые (latent) переменные

Содержание

Автоэнкодеры в Keras, Часть 1: Введение

Автоэнкодеры в Keras

Часть 1: Введение

Содержание

Автоэнкодеры

Архив

Информация

Обсуждаемое

Рекомендуем

Рубрика «big data» - 71

Содержание

Автоэнкодеры в Keras

Часть 1: Введение

Содержание

Автоэнкодеры

Новости

Актуальные темы

Архив