Рубрика «BigData»
Когда база устала искать: архитектура OpenSearch для больших данных
2025-10-29 в 6:16, admin, рубрики: acid, BigData, CDC, opensearch, pgvector, postgis, postgresql, архитектура, индексация, поискВам куда? История Uber
2025-10-19 в 5:58, admin, рубрики: BigData, uber, автономия, Алгоритмы, беспилотный автомобиль, Большие данные, доставка еды, такси, шеринг-экономика, экосистемаНажми кнопку — и поезжай. Эта идея стала началом того, что впоследствии изменило облик городского транспорта, бросило вызов регуляторам по всему миру и превратило Uber в глагол, узнаваемый по всему земному шару.
Сегодня экосистема Uber перевозит не только людей, но и еду, продукты и товары, объединяя миллионы партнёров-водителей и сотни миллионов клиентов — в десятках миллиардов поездок.
От дерзкого нарушителя правил до интегрированного партнёра — таков путь Uber.
Такси до Uber
PostgreSQL против 10 миллионов записей: оптимизация запросов, которая спасла наш проект
2025-10-03 в 14:16, admin, рубрики: BigData, explain analyze, postgresql, sql, базы данных, Большие данные, индексирование, индексы, оптимизация запросов, производительность
PostgreSQL против 10 миллионов записей: оптимизация запросов, которая спасла наш проект
Пролог: Когда база данных говорит «нет»
Это был обычный понедельник. Я пил кофе, проверял почту, и вдруг — волна уведомлений в Slack. «Сайт не грузится!», «Отчеты зависли!», «Что происходит?».
От Excel до ИИ: зачем бизнесу переходить на Smart Analytics
2025-09-05 в 12:01, admin, рубрики: BigData, teamly, аналитика данных, база знаний, умный поискВы когда-нибудь открывали папку «Архив_2017», чтобы среди файлов вроде «отчет_финал_второй_финал.xls» найти нечто, от чего зависит судьба проекта? А бывало в вашей компании такое, когда директора спорили на совещаниях: «Интуиция подсказывает — этот клиент уйдёт» — «А у нас цифры говорят, что останется»?
WAP паттерн в data-engineering
2025-08-16 в 6:15, admin, рубрики: big data, BigData, data engineering, data quality, data warehouse, DataLake, etl, warehouseВ русскоязычной части интернета присутствует много статей по теме паттернов разработки, однако я не нашел никакой информации о паттернах работы с данными.
В данной статье я хочу рассказать о паттерне Write-Audit-Publish, о предпосылках его появления, а также наглядно рассмотреть как он работает.
История зарождения
С момента появления концепции data lake, компании старались собирать как можно данных, иногда не слишком задумываясь об их качестве. Появилось четкое понимание, что данные "когда-нибудь" могут быть использованы. Так, согласно исследованиям market.usЧитать полностью »
Вселенная на ладони: крупнейший релиз данных JWST открывает космос для всех
2025-06-18 в 13:15, admin, рубрики: BigData, COSMOS-Web, астрономия, Вселенная, космос, Научно-популярноеВ июне 2025 года астрономы всего мира получили доступ к огромному массиву данных от телескопа Джеймс Уэбб (JWST). Проект COSMOS-Web, поддерживаемый NASA, выложил в открытый доступ 1,5 терабайта информации со снимками, фотометрическими каталогами и интерактивными инструментами для изучения глубокого космоса. Open-source-модель исследований, которая лежит в основе проекта, обещает «сделать звезды ближе» для всех нас. Разберемся, что это за данные, почему они важны и как меняют подход к науке.
Как мы храним 20000+ метрик и миллиарды комбинаций разрезов в одной таблице
2025-05-29 в 9:12, admin, рубрики: BigData, clickhouse, data analysis, data engineering, data structures, M42, python, storageПривет! Меня зовут Влад Божьев, я старший разработчик юнита АБ-тестирования Авито. В нашей команде мы ежедневно работаем с по-настоящему большими объёмами данных – это не просто фигура речи, это наша реальность. Мы помогаем создавать метрики, которые помогают бизнесу не «гадать на кофейной гуще», а принимать взвешенные решения, основанные на данных.
RAG‑агент для автоматизации инцидент‑менеджмента
2025-05-24 в 12:02, admin, рубрики: AI, automation, BigData, machine learning, nlp, rag, инцидент-менеджментАвтор статьи: Александр Летуновский
Проблематика
Современные крупные организации сталкиваются с большим числом ИТ‑инцидентов — счет может идти на тысячи в месяц. Инциденты нередко повторяются со временем, однако найти похожий случай в базе знаний или в системе регистрации инцидентов непросто: стандартный поиск по ключевым словам часто неэффективен, а «держать в голове» детали всех инцидентов невозможно.
Максимизация производительности ScyllaDB
2025-05-19 в 10:15, admin, рубрики: BigData, cassandra, data warehouse, dwh, IoT, no sql, nosql, scylladb, sql, storageЗдравствуйте!
Меня зовут Александр Андреев, я старший инженер данных. В своей первой статье на "Хабре" я хочу рассказать об оптимизации производительности NoSQL базы данных ScyllaDB.
Введение в ScyllaDB
ScyllaDB — это высокопроизводительная распределённая NoSQL база данных, совместимая с Apache Cassandra на уровне протокола, но предлагающая значительно более высокую пропускную способность и меньшую задержку. В отличие от Cassandra, которая написана на Java, ScyllaDB реализована на C++ с использованием фреймворка SeastarЧитать полностью »

