При разработке ПО часто возникают интересные задачи. Одна из таких: работа с гео-координатами пользователей. Если вашим сервисом пользуются миллионы пользователей и запросы к РСУБД происходят часто, то выбор алгоритма играет важную роль. О том как оптимально обрабатывать большое количество запросов и искать ближайшие гео-позиции рассказано под катом.
Рубрика «big data» - 128
Работа с геолокациями в режиме highload
2014-07-01 в 18:05, admin, рубрики: big data, BigData, geo, highload, postgis, postgresql, Алгоритмы, Геоинформационные сервисы, метки: BigData, geo, highload, postgis, postgresql, АлгоритмыОбзор наиболее интересных материалов по анализу данных и машинному обучению №3 (обзор онлайн курсов)
2014-06-30 в 19:06, admin, рубрики: big data, data mining, data science, data science digest, machine learning, MOOC, метки: big data, data mining, data science, data science digest, machine learning, MOOC Данный выпуск обзора наиболее интересных материалов по анализу данных и машинному обучению полностью посвящен онлайн-курсам по тематике Data Science. В прошлом выпуске был представлен список онлайн-курсов, стартующих в ближайшее время. В данном выпуске я постарался собрать наиболее интересные онлайн-курсы по теме анализа данных. Стоит отметить, что некоторые курсы уже закончились, но у большинства таких курсов можно посмотреть архив всех учебных материалов.
Начинается обзор с набора курсов от Johns Hopkins University на Coursera, которые объединены в одной специализации «Data Science Specialization», поэтому имеет смысл рассмотреть их отдельно от остальных курсов. Это 9 официальных курсов специализации и два дополнительных Mathematical Biostatistics Boot Camp 1 и 2, которые официально не входят в специализацию. Важно отметить, что весь набор данных курсов регулярно начинается заново и в общем-то можно достаточно гибко построить свой график продвижения по специализации. Большинство курсов длятся 4 недели. Язык R является основным языком программирования в данном наборе курсов. Далее идет список курсов из специализации Data Science от Johns Hopkins University:Читать полностью »
Обзор наиболее интересных материалов по анализу данных и машинному обучению №2 (16 — 23 июня 2014)
2014-06-23 в 15:33, admin, рубрики: big data, data mining, data science, data science digest, machine learning, метки: data mining, data science, data science digest, machine learning В очередном обзор наиболее интересных материалов, посвященных теме анализа данных и машинного обучения, достаточно большое внимание уделено популярному набору алгоритмов машинного обучения Deep Learning и его практическому применению. Несколько статей посвящено тому какие есть пути для собственного развития как специалиста по анализу данных и машинному обучению. Также несколько статей касаются такой темы как Data Engineering и рассматривают такие популярные продукты как Cassandra и Apache Kafka. Но начинается данный выпуск с обзора стартующих в ближайшее онлайн-курсов, связанных с темой анализа данных и машинного обучения.
Читать полностью »
HP Vertica, проектирование хранилища данных, больших данных
2014-06-23 в 14:44, admin, рубрики: big data, dwh, sql, Vertica, Администрирование баз данных, метки: dwh, VerticaО чем статья
Незаметно пролетел год, как начались работы по разработке и внедрению хранилища данных на платформе Вертика.
На хабре уже есть статьи про саму СУБД Вертика, особенно рекомендую эту: HP Vertica, первый запущенный проект в РФ, ведь ее автор очень помог нам на начальном этапе. Алексей, спасибо еще раз.
Хотелось бы рассказать о том, какая методология применялась для проектирования физической структуры хранилища, чтобы наиболее полно использовать возможности HP Vertica.
Эту статью хотел бы посветить обоснованию оптимальности выбранной методологии, а в следующей — рассказать о том, какие техники позволяют анализировать данные, содержащие десятки млрд. строк, не быстро, а очень быстро.
Постановка задачи
Рассмотрим высоконагруженный сайт крупной российской интернет-компании (входит в топ 10 сайтов рунета по количеству уникальных пользователей по данным LiveInternet и Google Analytics).
Деятельность компании описывается следующими цифрами: ~ 10 млн. активных пользователей, ~100 млн. просмотров страниц в день, около 1 тыс. новых объектов, размещенных пользователями на сайте в течение 1 минуты, ~10 тыс. поисковых запросов пользователей в минуту.
Грубая оценка количества действий, подлежащих сохранению в хранилище, составляет 100 млн. новых записей в сутки (~100 GB новых данных в сутки).
Т.е. при построении классического хранилища данных с отказом от стирания поступивших ранее данных, объем хранилища через 3 месяца эксплуатации составит 10TB сырых данных. Big Data как она есть.
Нужно построить хранилище, которое хранило бы не меньше 6 месяцев данных, позволяло их анализировать, визуализировать, и отставало бы от реальной жизни настолько мало, насколько это возможно (в худшем случае — отставало бы на день, в лучшем — на минуты).
Вынося сразу за скобки вопрос выбора платформы — хранилище должно работать на HP Vertica, MPP базе колоночного хранения, см. вводную статью в заголовке.
Читать полностью »
Где и как используются возможности IBM Watson? Часть 2
2014-06-23 в 13:49, admin, рубрики: big data, ibm watson, Блог компании IBM, Большие данные, суперкомпьютер, метки: big data, ibm watson, Большие данные, суперкомпьютер
В первой части обзора направлений использования возможностей суперкомпьютера IBM Watson было показано, что Watson работает в онкологии, помогая разрабатывать персональный курс лечения для конкретного человека.
Кроме того, IBM Watson работает еще и в сфере медицинского страхования, в банковской сфере, суперкомпьютер помогает исследователям находить взаимосвязи между различными аспектами их работы, а также начинает помогать чиновникам.
Дайджест статей по анализу данных №3 (09.06.2014 —22.06.2014)
2014-06-22 в 15:03, admin, рубрики: big data, data mining, digest, анализ данных, дайджест, метки: big data, data mining, digest, анализ данных, дайджест
Добрый день, уважаемые читатели.
Пролетели 2 недели и пришло время нашей подборки материалов по анализу данных. Сегодняшний дайджест получился большим, и признаюсь често сам осилил не все, что в него попало. Но так как на вкус и цвет товарище нет, то я решил выложить всю подборку.
Итак, из сегодняшней подборки вы узнаете о том как использовать хранилища данных различных типов в одном проекте, посмотрите какими большими данными может обладать бизнес и как их анализ может ему помочь. Также в нашей подборке будет статья посвященная алгоритму FTCA, а также будет материал про сравнени различных алгоритмов машинного обучения.
Читать полностью »
Дайджест наиболее интересных материалов по анализу данных (9 — 16 июня 2014)
2014-06-18 в 11:19, admin, рубрики: big data, data mining, data science, data science digest, machine learning, метки: data mining, data science, data science digest, machine learning Данный выпуск дайджеста наиболее интересных материалов, посвященных теме анализа данных содержит достаточно много статей, которые рассматривают теоретические аспекты вопросов, связанных с Data Science. Есть несколько статей, которые будут интересны новичкам. Также представлены ссылки на серию интересных статей о работе со схемами данных в MongoDb. Есть несколько ссылок на материалы, в которых рассматривается важная проблема переобучения (overfitting) в процессе машинного обучения. Некоторые статьи посвящены литературе, рекомендуемой к прочтению для тех кому интересна тема анализа данных.
Читать полностью »
Бизнес и Большие данные: лаборатория FABERNOVEL
2014-06-16 в 11:03, admin, рубрики: big data, Блог компании FaberNovel, метки: big dataBig Data — термин, который уже стал настоящим «базвордом», настолько популярна эта тема. Все больше людей и компаний из самых разных частей света и отраслей начинают понимать важность анализа данных. Но мало просто захотеть использовать данные, нужно еще понимать, что и как собирать и изучать. Сегодня мы рассмотрим именно эту проблему.Читать полностью »
На языке футбола: Big Data + лингвистика для виджета по Чемпионату Мира
2014-06-11 в 10:36, admin, рубрики: big data, Блог компании PalitrumLab, виджеты, социальные сети, Социальные сети и сообщества, футбол, метки: виджеты, социальные сети, футболБольшинство из нас будут смотреть футбольный ЧМ. И пусть эксперты говорят, что нашей сборной как всегда ничего не светит, красота мирового футбола захватит даже тех, кто и болельщиком себя не считает. А задумывались ли вы о красоте «совместного боления»? Ощутить себя на огромной всемирной трибуне, услышать что говорят и чувствуют болельщики из разных стран, увидеть матчи их глазами… Современные технологии обработки неструктурированных данных делают мечту болельщиков реальностью. Ежеминутно тысячи футбольных твитов, инстаграм-фоток и youtube-роликов создаются нами, болельщиками, уже сейчас, еще до начала ЧМ. Представляете, что будет во время матчей?! Осталось собрать «Всемирную Трибуну Болельщиков», что мы и сделаем из подручных материалов вместе, быстро, и под катом ;)
IBM Watson: где и как сейчас используются возможности суперкомпьютера?
2014-06-10 в 10:35, admin, рубрики: big data, ibm watson, Блог компании IBM, суперкомпьютеры, метки: ibm watson, суперкомпьютеры
На Хабре уже писали о том, что IBM Watson научился составлять рецепты, получил медицинское образование, и опробовал себя в роли продавца-консультанта. Само собой, все это были только тестовые проекты, которые служили как для обучения системы IBM Watson, так и для проверки возможностей суперкомпьютера.
И не так давно корпорация IBM открыла ресурсы суперкомпьютера Watson для сторонних разработчиков. В результате планировалось получить разнообразнейшие проекты, где в полной мере используются возможности IBM Watson. Некоторые идеи уже реализованы, и ниже приведены примеры наиболее интересных проектов.