Метка «big data» - 11

Дайджест статей по анализу данных и big data Частенько читаю Хабр и заметил что в последнее время появились Дайджесты новостей по многим тематикам, таким как веб-разработка на php, разработка на Python, мобильные приложения, но не встретил ни одного подборки по популярному сейчас направлению, а именно анализу данных и big data.

Ниже я решил собрать небольшую подборку материалов по данной теме. Т.к. на русском материалов не так много, в данный дайджест попали в основном англоязычные статьи.

Кого заинтересовала данная тема прошу подкат. А также жду замечаний, пожеланий и дополнений, буду очень рад обратной связи.

Читать полностью »

Microsoft представляет SQL Server 2014 в России!

Привет!

24 апреля 2014 года состоится ключевое события года в мире серверных и облачный решений – конференция Data Platform Day.

In-Memory OLTP (Hekaton), BIG DATA, Power BI, Microsoft Azure HDInsight и другие новейшие технологии работы с данными в трех треках за один день от ведущих экспертов Microsoft, компаний-партнеров и крупнейших российских заказчиков. Всё это будет идти под флагом глобальной стратегии развития Microsoft Cloud OS и универсальной Платформы SQL Server 2014.

Читать полностью »

Мифы и легенды про Big Data
Один из наших кластеров для пилотных задач (Data node: 18 servers /2 CPUs, 12 Cores, 64GB RAM/, 12 Disks, 3 TB, SATA — HP DL380g)

— Что такое Big Data вообще?
Все знают, что это обработка огромных массивов данных. Но, например, работа с Oracle-базой на 20 Гигабайт или 4 Петабайта — это ещё не Big Data, это просто highload-БД.

— Так в чём ключевое отличие Big Data от «обычных» highload-систем?
В возможности строить гибкие запросы. Реляционная база данных, в силу своей архитектуры, предназначена для коротких быстрых запросов, идущих однотипным потоком. Если вы вдруг решите выйти за пределы таких запросов и собрать новый сложный, то базу придётся переписывать – или же она умрёт под нагрузкой.

— Откуда берётся эта новая нагрузка?
Если чуть углубиться в архитектуру, то можно увидеть, что традиционные базы данных хранят информацию очень дисперсионно. Например, у нас номер абонента может быть на одном сервере в одной таблице, а его баланс — в другой таблице. Быстродействие требует максимального разбиения данных. Как только мы начинаем делать сложные join'ы, производительность резко падает. Читать полностью »

Перед всеми веб-разработчиками встает задача индивидуальной выборки контента для пользователей. С ростом объема данных и увеличением их разнообразия обеспечение точности выборки становится все более важной задачей, оказывающей существенное влияние на привлекательность проекта в глазах пользователей. Если вышеописанное входит в сферу ваших интересов, то, возможно, данный пост натолкнет на какие-то новые идеи.

В каждой эпохе развития IT-индустрии существовали свои buzzwords — слова, которые у всех были на слуху, каждый знал, что за ними будущее, но лишь немногие знали, что действительно стоит за этим словом и как им правильно воспользоваться. В своем время баззвордами были и «водопад», и «XML», и «Scrum», и «веб-сервисы». Сегодня одним из основных претендентов на звание баззворда №1 является «big data». С помощью больших данных британские ученые диагностируют беременность по чеку из супермакета с точностью, близкой к ХГЧ-тесту. Крупные вендоры создают платформы для анализа больших данных, стоимость которых зашкаливает за миллионы долларов, и нет сомнений, что каждый пиксель в любом уважающем себя интернет-проекте будет строиться с учетом больших данных не позднее, чем к 2020 году.
Читать полностью »

Добрый день уважаемые читатели!

Наша компания проектирует и разрабатывает OLAP и BI решения. В процессе работы над одним проектом родилась идея создания сервиса, который помог бы розничным компаниям формировать индивидуальные предложения для своих клиентов.
Мы хотим рассказать здесь, как работает этот сервис и если получится получить Ваши советы и комментарии.

Пролог

Итак, существует розничная компания (интернет магазин, сеть турагентств, сеть обувных магазинов и т.д.). Рано или поздно такому бизнесу необходимо задуматься о базе своих клиентов, содержащую контактную информацию и историю покупок.
Располагая такой базой, компания может извлечь дополнительную прибыль различными способами. Один из них формирование индивидуальных предложений (рекомендаций) для клиентов.
Например, анализируя данные продаж одного из турагентств, был выявлен следующий факт: 12 % клиентов, посетивших остров Маврикий так же посещали город Тарифа в Испании. Возможно это случайный выбор клиентов этой компании, а возможно и нет, т.к. оба места являются очень популярными у кайтеров.

image

Читать полностью »

Как повысить доходность интернет-бизнеса при минимальных затратах? Как получить максимум, используя имеющиеся ресурсы? Давайте разберемся, ведь всего несколько ключевых показателей смогут кардинально повлиять на Вашу прибыль.

Прежде всего, Вам нужно понять, из чего складывается выручка. Схема подсчетов предложена Ильей Красинским, одним из преподавателей акселератора ФРИИ.

Итак,
Количество привлеченных пользователей на сайт (User Acquisition)
*
(- Стоимость привлечения пользователя (CPA) + Доход с пользователя в единицу времени (ARPU))
= Profit (в данном примере мы намеренно не учитываем фиксированные расходы, чтобы упростить формулу).

То есть, UA*(-CPA+ARPU)=Profit

Доход с пользователя в единицу времени (ARPU) зависит от конверсии в покупку (C1) и среднего чека (Average Price).

Таким образом, вырисовываются 4 ключевых метрики, на которые Вы можете повлиять, чтобы стать прибыльными:
— Количество привлеченных людей на сайт — UA (для роста можно использовать рекламу, вирус, партнерские программы и другое),
— Средний чек – Average Price (вы можете экспериментировать с ценой на услугу или предлагать купить больше товаров или услуг за 1 покупку),
— Цена привлечения пользователя — CPA (желательно найти те каналы, где стоимость привлечения практически стремится к нулю),
Конверсия в покупку — C1 (нужно сделать отличный лендинг, стремиться к максимальному доведению клиента до покупки за счет активных действий в его сторону).
Читать полностью »

des-48-5

В предыдущей публикации мы подробно рассмотрели процесс сбора данных при помощи специализированного инструмента Flume. Но чтобы полноценно работать с информацией, мало ее просто собрать и сохранить: ее нужно обработать и извлечь из нее нечто нужное и полезное.

Для обработки данных в Hadoop используется технология MapReduce.
Читать полностью »

Добрый день! Сегодня поговорим о том, как из-за роста объемов данных меняются требования к СХД и почему традиционные системы, которым мы привылки доверять, больше не могут справляться с расширением емкости и обеспечивать надежность хранения. Это мой первый пост после долгого перерыва, поэтому на всякий случай представлюсь — я Олег Михальский, директор по продуктам компании Acronis.

Если вы следите за трендами в индустрии, наверняка уже сталкивались с таким понятием как software defined anything. Эта концепция подразумевает перенос на уровень программного обеспечение ключевых функций ИТ-инфраструктуры, обеспечивающих ее масштабируемость, управляемость, надежность и взаимодействие с другими частями. Gartner называет Software Defined Anything в числе 10 ключевых трендов 2014 года, а IDC  уже опубликовала специальный обзор сегмента Software Defined Storage и предсказывает, что в к 2015 году только коммерческих решений данного типа будет куплено на 1,8 миллиарда долларов. Именно про СХД этого нового типа пойдет речь дальше.
Читать полностью »

Директор по маркетингу сервисов Яндекса Андрей Себрант, рассказал студентам Малого ШАДа о том, что такое большие данные, и о тех, зачастую неожиданных местах, где они находят своё применение.

Термин большие данные/Bid Data у всех на слуху уже не первый год. Но точное представление о том, что же представляет собой это понятие, есть далеко не у всех, особенно это касается людей за пределами IT-сферы. Проще всего несведущему человеку объяснить это на практическом примере.

Два года назад огромная сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 года разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери присылают буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиняться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.
Читать полностью »

Директор по маркетингу сервисов Яндекса Андрей Себрант, рассказал студентам Малого ШАДа о том, что такое большие данные, и о тех, зачастую неожиданных местах, где они находят своё применение.

Bid Data как понятие у всех на слуху уже не первый год. Но точное представление о том, что же представляет собой это понятие, есть далеко не у всех, особенно это касается людей за пределами IT-сферы. Проще всего несведущему человеку объяснить это на практическом примере.

Два года назад огромная сеть магазинов Target стала использовать машинное обучение при взаимодействии с покупателями. В качестве обучающей выборки использовались данные, накопленные компанией за несколько лет. В качестве маркеров конкретных покупателей использовались банковские и именные скидочные карты. Алгоритмы проанализировали, как и в каких условиях менялись предпочтения покупателей и делали прогнозы. А на основе этих прогнозов покупателям делались всевозможные специальные предложения. Весной 2012 года разразился скандал, когда отец двенадцатилетней школьницы пожаловался, что его дочери присылают буклеты с предложениями для беременных. Когда сеть Target уже приготовилась признавать ошибку и извиняться перед обиженными покупателями, выяснилось, что девочка действительно была беременна, хотя ни она, ни ее отец на момент жалобы не знали об этом. Алгоритм отловил изменения в поведении покупательницы, характерные для беременных женщин.
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js