Метка «big data» - 12

Если помните, Рей Курцвейл обещал приход сингулярности уже в 30 годах этого века. Похоже, что первые предвестники уже появляются: два бывших наших соотечественника, Алексей Лисица и Борис Конев, работающие в Ливерпульском университете, запустили на расчет задачу несоответствия Эрдеша. Задача считается неразрешенной, и программа, запущенная исследователями с задачей справилась. Но! Проблема в том, что доказательства решения сами по себе занимают 13 Гб (еще раз, текстовый лог-файл, по сути и являющийся доказательством, занимает 13 Гб) и с трудом поддается верификации. Отсюда напрашивается простой вопрос – можем ли мы доверять решению компьютера, если не в состоянии проверить его выкладки?

Можем ли мы доверять решению компьютера, если не можем его проверить?
Читать полностью »

Прочитав статью Базы данных в онлайн играх и особенно комменты к ней, я в очередной расстроился от мысли, что многие разработчики меняют БД в своём проекте, пытаясь этой сменой решить свои проблемы, не исчерпав, однако, всех возможностей, предоставляемой заменяемой БД. Я принимаю участие в работе над проектом, БД которого характеризуется:

  • Количеством транзакций порядка 5'000 — 10'000 в секунду
  • Объемом примерно в 100ГБ (который бодро растёт)
  • Примерно равным количеством операций на чтение/запись
  • Преимущественно мелкими транзакциями

В силу, как говорится, исторических причин, вся база представляет из себя, гхм, одну базу, пока без шардинга, который мог бы решить ряд проблем. Тем острее стоит вопрос о поиске решений, заключённых именно в особенностях PostgreSQL. Решений, которые можно реализовать малой кровью.

Я опишу некоторые проблемы, с которыми мы сталкиваемся, и применённые решения. Если кто-то сочтёт это полезным — ради Бога. Если кто-то поправит — я буду только рад обнаружить уязвимость в используемых подходах и увеличить эффективность работы БД. Описанное может быть применено без вмешательства в логику приложения, исключительно путём модификации схемы БД.
Читать полностью »

Многие слышали о высокоуровневом поисковом сервере ElasticSearch, но не все знают. что многие используют его не совсем по прямому назначению. Речь идет о реалтайм-аналитике различных структурированных и не очень данных.

Эта статья также назрела ввиду того, что многие крупные интернет-проекты рунета в 2014 году получили письма счастья от Google Analytics с предложением заплатить $150 000 за возможность использовать их продукт. Я лично считаю, что ничего плохого в том, чтобы оплатить труд программистов и администраторов нет. Но при этом это довольно серьезные инвестиции, и, может, вложения в собственную инфраструктуру и специалистов, даст большую гибкость в дальнейшем.

Аналитика в ElasticSearch основана на полнотекстовом поиске и фасетах. Фасеты в поиске — это некая агрегация по определенному признаку. Вы часто сталкивались с фасетами-фильтрами в интернет-магазинах: в левой или правой колонке есть уточняющие галочки. Ниже пример тестового фасетного поиска у нас на главной странице http://indexisto.com/.

ElasticSearch 1.0 — новые возможности аналитики

Буквально неделю назад вышла стабильная версия поискового сервера ElasticSearch 1.0, в которой разработчики настолько серьезно поработали над фасетами, что даже назвали их Aggregation.

Так как тема еще не освещалась на Хабре, я хочу рассказать, что из себя представляют аггрегации в ElasticSearch, какие возможности открываются и есть ли жизнь без Hadoop.
Читать полностью »

Образовательный проект GeeksLab продолжает работу над мероприятиями и сегодня мы расскажем о конференциях, которые пройдут в марте в Одессе, а также поговорим о предстоящих ивентах и хакатонах.

Программа конференции «Al&BigData Lab» и «Just Sell IT! Эффективные IT продажи»5 марта – Al&BigData Lab.
Конференция «AI&BigData Lab» будет посвящена одной из самых популярных и обсуждаемых IT-тем – большим данным и искусственному интеллекту.
Основная цель проведения – это обмен опытом среди разработчиков по теме, которой сейчас интересуются многие, объединения сообщества для более эффективного развития проектов, а также создание и продвижение решений big data и искусственный интеллект в Украине. Мы планируем также заложить основы создания в одесском регионе AI-клаба (как это сделано в Киеве и Харькове) для поддержки и развития данного направления в регионе.

Программа конференции «Al&BigData Lab» и «Just Sell IT! Эффективные IT продажи»12 марта – Just Sell IT! Эффективные IT-продажи.
Ни для кого не секрет, что секрет как успешного стартапа, так и прибыльной аутсорсинговой компании не только в техническом выполнении проекта, а и в искусстве переговоров, эффективном email маркетинге, умении найти подход и заинтересовать своим продуктом иили сервисом как отечественного, так и зарубежного заказчика. Будет два потока — для стартапов и для компаний, с устоявшейся системой продаж (много внимания уделим аутсорсингу).

Читать полностью »

Привет! Я принесла картинок про российский рынок IT. Разных. Много. Осторожно, трафик.

image

Разница между использованием частного и публичного облака чаще всего заключается в том, что публичное дешевле и проще в обслуживании, а частное – «под боком» (что часто важно по юридическим причинам). Например, банковские приложения критичного уровня будут почти наверняка размещены в частном, а тестовые среды могут разворачиваться и в публичном. Читать полностью »

Каждый день человечество генерирует огромные объемы информации в виде потоков сообщений в социальных сетях, наблюдений метеорологов, астрономов, геологов, а также просто статей и новостных заметок. Получаемые данные нуждаются не только в умелом хранении, но и в правильном анализе. Приходится искать новые способы представления данных, порой весьма различающихся по структуре.

JetPoint. Big Data

Новые направления развития обработки как структурированных, так и неструктурированных данных порождают новые технологии. В последнее время мы чаще встречаем решения на основе Hadoop или баз данных NoSQL. Происходит бурный рост проектов, занимающихся исследованием такой информации. Этот феномен, включающий в себя методы и технологии, с 2008 года получил наименование Big Data. Давайте попробуем разобраться: что же на самом деле скрывается за этим понятием?
Читать полностью »

Электронная торговля растет с каждым годом на 25-30%. Учитывая рост количества игроков и покупателей в интернете (на 2013 год 22 млн человек покупают онлайн), растет и конкуренция между интернет-магазинами за каждого человека в отдельности, за каждую покупку. В то время как в целом ожидать большего количества людей в интернете не приходится – темпы прироста интернет-аудитории сильно замедляются. Что же делать интернет-магазинам?

На сегодняшний день не составляет труда привлечь трафик на сайт с помощью seo, контекстной рекламы, таргетированной рекламы, баннеров. И стоимость привлечения, надо сказать, год от года растет!
Но и трафик не панацея. Как известно, только 1-5% аудитории совершает покупку сразу, в момент первого посещения сайта. Зная об этом, маркетологи и владельцы интернет-магазинов стремятся увлечь и привлечь посетителя всеми возможными способами ради совершения покупки. Тут вспоминаются ловкие цыгане с их танцами, медведями и гитарами, которые любого оставят без гроша.
Яркими платками и бубнами у маркетологов выступают различные «фишки» на сайте: сообщающие о спецпредложении баннеры; формы заявки; всплывающие окна; формы обратного звонка, онлайн-консультанты и др.

Интересные цифры:
• Статистика упорно говорит о том, что необходимо использовать различные инструменты и методики для увеличения конверсии: «Организации, которые увеличили конверсию своих проектов за последние 12 месяцев, используют на 45% больше разнообразных методик, чем те, кому увеличить ее не удалось».
• Компания Schwan's (http://www.schwans.com) имеет сайт с самой высокой в мире конверсией — 40,6-41.2%, используя при этом всплывающее окно при входе, персональные рекомендации для покупки.
• 86% владельцев интернет-магазинов уже используют инструменты повышения конверсии, однако зачастую не видят резкого роста конверсии и отмечают проблемы в удобстве использования инструментов.
• 53% интернет-компаний все еще не работают с отказами от покупки, уходом с сайта без покупки или целевого действия.
Читать полностью »

Конференция по большим данным и искусственному интеллекту AI&BigData Lab

Проект GeeksLab приглашает всех 5 марта в Одессу на конференцию «AI&BigData Lab», которая будет посвящена одной из самых популярных и обсуждаемых IT-тем – большим данным и искусственному интеллекту.

Конференция пройдет в два потока, в рамках которых разработчики обсудят технические вопросы реализации и применения в реальных проектах различных алгоритмов, инструментов и новых технологий для работы с большими данными и искусственным интеллектом. Будут представлены воплощенные в жизнь проекты, рассказано о их функционале, а также показано, как они работают внутри.
Читать полностью »

в 16:11, , рубрики: big data, teradata, СУБД, метки: , ,

Предисловие: По работе мне пришлось изучать устройство базы данных Teradata, и оказалось, что в интернете почти нет информации, особенно на русском языке. Поэтому я решила собрать в кучу всю доступную информацию.

Стремительное увеличение объемов носителей информации и удешевление стоимости хранения данных привело к появлению методов, способных обеспечить более быстрый доступ к необходимым данным – индексы, хранение данных в отсортированном виде и т.п. Эти методы вполне успешно справляются со своей задачей, однако возрастающая конкуренция в мире заставляет искать новые, более быстрые, способы доступа к информации. «Кто владеет информацией, тот владеет миром». Основной интерес вызывают базы данных с традиционной реляционной моделью данных, отвечающие требованиям ACID (Atomicity, Consistency, Isolation, Durability — атомарность, согласованность, изолированность, надежность) и предназначенные для аналитики Больших Данных (Big Data).

Teradata – это параллельная реляционная СУБД, которая работает на операционных системах:

  • MP-RAS UNIX
  • Microsoft Windows 2000/2003 Server
  • SuSE Linux

Разнообразие поддерживаемых ОС — одна из причин, почему Teradata имеет открытую архитектуру.
Читать полностью »

Spannerгеографически распределенная высокомасштабируемая мультиверсионная база данных с поддержкой распределенных транзакций. Хранилище было разработана инженерами Google для внутренних сервисов корпорации. Research paper [8], описывающий базовые принципы и архитектуру Spanner, был представлен на научной конференции 10th USENIX Symposium on Operating Systems Design and Implementation в 2012 году.

Spanner является эволюционным развитием NoSQL-предшественника – Google Bigtable. Сам же c Spanner относят к семейству NewSQL-решений. В research paper [8] заявляется, что дизайн Spanner позволяет системе масштабироваться на миллионы вычислительных узлов через сотни дата-центров и работать с триллионами строк данных.

Spanner. NewSQL хранилище от Google
Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js