«Яндекс» намерен открыть API сервиса Яндекс.Погода сторонним компаниям на коммерческой основе. С помощью данного API сторонние компании смогут создавать свои погодные приложения, сервисы прогнозов, сообщать статистические данные и т. д. Прогноз погоды «Яндекса» создан на базе собственной технологии «Метеум». Она может предсказывать погоду с точностью до дома. Компания использует математическую модель,Читать полностью »
Рубрика «big data» - 91
API Яндекс.Погоды стоит от 180 000 рублей в месяц, и уже есть первые покупатели
2016-08-29 в 9:35, admin, рубрики: big data, Геолокационные сервисы, Текучка, яндекс, яндекс.погода, метки: big data, Геолокационные сервисы, Текучка, яндекс, Яндекс.ПогодаЧто такое большие данные, часть 2
2016-08-26 в 8:12, admin, рубрики: altavista, amazon, Amazon Web Services, big data, data mining, Facebook, Google, pagerank, Yahoo, Большие данные, информация, история
В первой части этой серии статей вы узнали о данных и о том, как можно использовать компьютеры чтобы добывать смысловое значение из крупных блоков таких данных. Вы даже видели что-то похожее на большие данные у Amazon.com середины девяностых, когда компания запустила технологию для наблюдения и записи в реальном времени всего, что многотысячная аудитория клиентов одновременно делала на их сайте. Довольно впечатляюще, но назвать это большими данными можно с натяжкой, пухлые данные — больше подойдёт. Организации вроде Агентства национальной безопасности США (NSA) и Центра правительственной связи Великобритании (GCHQ) уже собирали большие данные в то время в рамках шпионских операций, записывая цифровые сообщения, хотя у них и не было простого способа расшифровать их и найти в них смысл. Библиотеки правительственных записей были переполнены наборами бессвязных данных.
То, что сделал Amazon.com, было проще. Уровень удовлетворённости их клиентов мог быть легко определен, даже если он охватывал все десятки тысяч продуктов и миллионы потребителей. Действий, которые клиент может совершить в магазине, реальный он или виртуальный, не так уж много. Клиент может посмотреть что в доступе, запросить дополнительную информацию, сравнить продукты, положить что-то в корзину, купить или уйти. Всё это было в пределах возможностей реляционных баз данных, где отношения между всеми видами действий возможно задать заранее. И они должны быть заданы заранее, с чем у реляционных баз данных проблема — они не так легко расширяемы.
Заранее знать структуру такой базы данных — как составить список всех потенциальных друзей вашего неродившегося ребенка… на всю жизнь. В нём должны быть перечислены все неродившиеся друзья, потому что как только список будет составлен, любое добавление новой позиции потребует серьезного хирургического вмешательства.Читать полностью »
Big Data хакатон от Университета Иннополис и компании Provectus
2016-08-26 в 7:50, admin, рубрики: big data, Hackathon, Блог компании Innopolis University, разработка
Приглашаем принять участие в 48-часовом командном соревновании, направленном на построение «умной системы» анализа логов и метрик кластера, обрабатывающего данные. Хакатон Hydrosphere.io пройдёт 9-11 сентября в Иннополисе, участие бесплатное. Все подробности под катом.Читать полностью »
R и Spark
2016-08-25 в 13:54, admin, рубрики: big data, Microsoft Azure, R, spark, машинное обучениеSpark – проект Apache, предназначенный для кластерных вычислений, представляет собой быструю и универсальную среду для обработки данных, в том числе и для машинного обучения. Spark также имеет API и для R(пакет SparkR), который входит в сам дистрибутив Spark. Но, помимо работы с данным API, имеется еще два альтернативных способа работы со Spark в R. Итого, мы имеем три различных способа взаимодействия с кластером Spark. В данном посте приводиться обзор основных возможностей каждого из способов, а также, используя один из вариантов, построим простейшую модель машинного обучения на небольшом объеме текстовых файлов (3,5 ГБ, 14 млн. строк) на кластере Spark развернутого в Azure HDInsight.
Читать полностью »
«Мои друзья потеряли меня из виду на 3 месяца» или как люди учатся у нас big data
2016-08-24 в 13:11, admin, рубрики: big data, data mining, data science, Блог компании New Professions Lab, машинное обучениеВсем привет! 5 октября в New Professions Lab стартует пятый набор программы «Специалист по большим данным», которую на данный момент закончило более 200 человек. Мы уже рассказывали на Хабре (здесь и здесь), чему конкретно мы учим, с какими знаниями и навыками выходят наши выпускники, и совсем скоро напишем, что нового будет в пятой программе. А сегодня хотим поделиться рассказами и отзывами тех, кто уже прошел обучение и на себе испытал все тяготы и невзгоды.
Встреча любителей больших данных
2016-08-19 в 14:05, admin, рубрики: big data, Блог компании DCA (Data-Centric Alliance), Большие данные, машинное обучениеПривет! Если вам были интересны публикации из нашего блога, то наверняка вам будет интересно принять участие во встрече экспертов в области Data Science и машинного обучения, которая пройдёт 31 августа (среда) в DI Telegraph (Москва, Тверская 7). На встрече будет обсуждаться широкий круг вопросов, связанных с применением алгоритмов машинного обучения для решения задач анализа больших данных, тематического моделирования и генеративных алгоритмов.
Партнером и соорганизатором мероприятия выступаем мы — российская технологическая компания DCA (Data-Centric Alliance), специализирующаяся на работе с большими данными и высоконагруженными системами. Информация про формат и спикеров под катом.
Читать полностью »
Дино Эспозито на uDev Tech Events: «Life as a Service: Scalability and other Aspects»
2016-08-16 в 16:15, admin, рубрики: .net, big data, Блог компании Plarium, высокая производительность, геймдев, дино эспозито, конференция, масштабируемость, Программирование, разработка, разработка игр, стрим13 сентября 2016 года Дино Эспозито выступит на uDev Tech Events с лекцией на тему «Life as a Service: Scalability and other Aspects». Для тех, кто не сможет посетить мероприятие, будет вестись прямая трансляция.
Кто виноват, и что делать, если айтишник скучает на работе. Результаты опроса
2016-08-16 в 12:01, admin, рубрики: big data, data science, Блог компании New Professions Lab, Исследования и прогнозы в IT, опрос, профессиональный рост, Учебный процесс в ITНедавно мы провели опрос среди айтишников, чтобы узнать, скучают ли они на работе, и почему это происходит. Как мы и думали, большинство специалистов время от времени не знают, чем себя занять, и при этом задумываются, как можно этого избежать. Многие готовы оставаться на нынешнем месте работы, причем более 80% не хотят становиться начальниками, а хотят развиваться профессионально. Из них почти 10% видят себя в области Big Data и Data Science.
Всего на наши вопросы ответили 1898 человек. Данные можно посмотреть здесь и здесь.
Работа с фреймворком итеративной обработки графов Giraph на примере RBM
2016-08-15 в 10:58, admin, рубрики: big data, framework, giraph, java, mail.ru, rbm, Алгоритмы, Блог компании Mail.Ru Group
The Indifferent by xetobyte
Всем привет. В предыдущей статье мы рассказали, как создавать свои приложения под фреймворк Giraph (надстройка над системой обработки данных Hadoop), и обещали подробно рассмотреть, как работать с Giraph, на примере алгоритма обучения Restricted Boltzmann Machine. Итак, в какой-то момент группа сегментации аудитории департамента рекламных технологий Mail.Ru Group столкнулась с необходимостью подобрать инструмент для быстрого анализа графов, и по целому ряду причин (читайте ниже) наше внимание привлекла система Apache Giraph.
Читать полностью »
Flume — управляем потоками данных. Часть 3
2016-08-12 в 12:03, admin, рубрики: big data, flume, Hadoop, Анализ и проектирование систем, Блог компании DCA (Data-Centric Alliance)Привет! После долгой паузы мы наконец-то возвращаемся к разбору Apache Flume. В предыдущих статьях мы познакомились с Flume (Часть 1) и разобрались, как настраивать основные его компоненты (Часть 2). В этой, заключительной, части цикла мы рассмотрим следующие вопросы:
- Как настроить мониторинг компонентов узла.
- Как написать собственную реализацию компонента Flume.
- Проектирование полноценной транспортной сети.