Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »
Рубрика «big data» - 123
Обзор наиболее интересных материалов по анализу данных и машинному обучению №19 (20 — 26 октября 2014)
2014-10-26 в 15:43, admin, рубрики: big data, data mining, data science, data science digest, machine learning, высокая производительностьКак колебания в продажах влияют на оборот?
2014-10-24 в 9:03, admin, рубрики: big data, data mining, fmcg, retail, Алгоритмы, математика, продажи, ритейл, статистика
Данная публикация — это реальный кейс, в котором мы расскажем, как найти товары и категории с большими колебаниями продаж, и как колебания продаж влияют на поведение клиентов.
Производя анализ данных для торговой сети, мы столкнулись с проблемой: при почти равных количествах продаж в день в двух магазинах сети, оборот в одном магазине «Shop1» увеличивался, а в магазине «Shop2» — снижался.
Читать полностью »
IBM анонсирует новые проекты внедрения технологий Watson и открытие штаб-квартиры Watson Group в Нью-Йорке
2014-10-23 в 13:25, admin, рубрики: big data, ibm watson, Блог компании IBM, Большие данные, суперкомпьютеры
Компания IBM анонсировала новые проекты по использованию возможностей IBM Watson и когнитивных вычислительных технологий. IBM Watson – инновационная платформа, которая лежит в основе новой эры вычислений благодаря способности понимать естественные языки, а также обрабатывать огромные массивы больших данных с целью извлечения ценной информации и дальнейшего самообучения.
Конференция HDConf: фото-видео-слайд отчет
2014-10-23 в 11:37, admin, рубрики: .net, big data, HDConf, highload, java, конференция, материалы конференции4 октября в Минске прошла конференция Highload Dev Conf. На HDConf собралось около 380 разработчиков, а рассказать как справляются с нагрузками приехали докладчики из компаний Одноклассники, Amazon, Altoros, Wargaming, Coub, Aviasales, Badoo и др.
Чтобы не грузить деталями, выкладываем сразу несколько фотографий с конференции и афтепати, видео одного из лучших докладов и слайды презентаций, которые участники конференции выделили как наиболее интересные.
Читать полностью »
О Nutanix, Web-Scale, конвергентных платформах и смене парадигм построения IT инфраструктур
2014-10-19 в 21:45, admin, рубрики: acropolis, azure, azure pack, big data, BigData, ESXi, hyper-v, hyperv, kvm, openstack, rest api, vcloud, vdi, vSphere, акрополис, Блог компании Nutanix, виртуализация, катастрофоустойчивостьВозможно, вы уже слышали достаточно новый для рынка не_онлайн проектов термин — Web-Scale IT, который по мнению Gartner в 2017 году займет не менее 50% рынка корпоративного IT.
В этом году — это один из основных модных терминов.
Ситуация на корпоративных рынках сейчас активно напоминает фразу про подростковый секс — все говорят что имели (= умеют), но реально — дела обстоят невесело.
Буквально каждый вендор рассказывает про BigData, конвергентные решения, перспективы и прочее.
Мы в свою очередь смеем надеяться, что у нас с этим реально все весьма неплохо, но тут всегда виднее со стороны и ваше мнение может не совпадать с нашим.
Все же попробуем рассказать о том, как мы пытаемся изменить рынок, который в ближайшее время будет составлять десятки миллиардов долларов ежегодно и почему мы считаем что время традиционных решений для хранения и обработки данных подходит к своему закату.
Закон Бенфорда и распределения под него попадающие
2014-10-19 в 15:06, admin, рубрики: big data, бесконечная дисперсия, борьба с фальсификациями, закон Бенфорда, математика, математическая статистика, Научно-популярное, правило первой цифры, скоро зима, списки стран, теория вероятностей, устойчивое распределениеВ теории вероятностей и статистике правило первой цифры, или закон Бенфорда, показывает любопытное проявления частот первой цифры данных из реальной жизни. Для школьников и домохозяек этот закон можно вольно сформулировать так: есть наборы данных, у которых первая цифра будет единицей примерно в 6 раз чаще, чем девятка и это соотношение не изменится при масштабировании исходного набора. Более строго можно сформулировать так: набор чисел удовлетворяет закону Бенфорда, если первая цифра d появляется с вероятностью
Здесь N – основание системы счисления, должно быть больше 2, далее будем рассматривать 10.
Для строгих математиков это правило формулируется так: существуют такие случайные величины, для которых распределение вероятностей дробной части логарифма по любому основанию большему 1 сходится к равномерному на отрезке [0; 1] распределению. Далее я постараюсь писать как можно популярнее и подробнее, укажу примеры, ограничения, применение и случайные величины, для которых закон применим.
Читать полностью »
Обзор наиболее интересных материалов по анализу данных и машинному обучению №18 (13 — 19 октября 2014)
2014-10-19 в 13:01, admin, рубрики: big data, data mining, data science, data science digest, machine learning, высокая производительность
Представляю вашему вниманию очередной выпуск обзора наиболее интересных материалов, посвященных теме анализа данных и машинного обучения.
Читать полностью »
Hadoop: что, где и зачем
2014-10-16 в 10:15, admin, рубрики: big data, Hadoop, spark, пятилетказатригода
Развеиваем страхи, ликвидируем безграмотность и уничтожаем мифы про железнорождённого слона. Под катом обзор экосистемы Hadoop-а, тенденции развития и немного личного мнения.
Читать полностью »
Вышел Python Tools 2.1 для Visual Studio
2014-10-16 в 7:02, admin, рубрики: azure ml, big data, data science, python, Visual StudioОкончательная версия Python Tools 2.1 для Visual Studio (PTVS) доступна для загрузки! PTVS работает с Visual Studio 2010, 2012 и 2013. Помимо перечисленных ниже новых возможностей, в PTVS 2.1 также добавлена поддержка бесплатных версий Visual Studio Express for Web и Express for Windows Desktop. Разумеется, по-прежнему поддерживаются все полные версии Visual Studio, от Professional и выше.
Веб-разработка на Python в Visual Studio
Веб-разработка является основной темой данного релиза. Теперь в PTVS можно удобно создавать сайты на Django, Bottle и Flask, как с нуля, так и с использованием стартовых шаблонов проектов. Все созданные таким образом сайты можно в один клик опубликовать на веб-сайт Azure.
Почтовый офис Яндекса: как мы сделали сервис, анализирующий результаты рассылок в реалтайме
2014-10-13 в 12:53, admin, рубрики: big data, lucene, mail, open source, Блог компании Яндекс, ит-инфраструктура, рассылкиУ Яндекса есть сервис для добросовестных рассыльщиков писем — Почтовый офис. (Для недобросовестных у нас в Почте есть Антиспам и кнопка «Отписаться».) С его помощью они могут понимать, какое количество их писем пользователи Яндекс.Почты удаляют, сколько времени их читают, насколько дочитывают. Меня зовут Антон Холодков, и я занимался разработкой серверной части этой системы. В этом посте я расскажу о том, как именно мы ее разрабатывали и с какими трудностями столкнулись.
Для рассыльщика интерфейс Почтового офиса полностью прозрачен. Достаточно зарегистрировать в системе свой домен или email. Сервис собирает и анализирует данные по множеству параметров: имени и домену отправителя, времени, признаку спам/не спам, прочитано/не прочитано. Также реализована агрегация по полю list-id — специальному заголовку для идентификации рассылок. Источников данных у нас несколько.
Читать полностью »