Рубрика «data»

Как обмануть LLM: обход защиты при помощи состязательных суффиксов. Часть 1

2025-10-01 в 9:00, admin, рубрики: AI, data, llm, llm-агент, llm-архитектура, llm-модели, ml, искусственный интеллект, разработка

Что будет, если к опасному запросу в LLM приписать специально подобранную строку токенов? Вместо отказа модель может послушно сгенерирует подробный ответ на запрещённую тему — например, как ограбить магазин. Именно так работают состязательные суффиксы: они заставляют LLM игнорировать ограничения и отвечать там, где она должна сказать «опасно».

Читать полностью »

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

2025-09-14 в 13:17, admin, рубрики: data, dataset, kaggle, визуализация данных, парсинг

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база “машин-актёров” в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.

Читать полностью »

MLOps без мам, пап и GPT: как поднять сервер для AI за вечер

2025-09-02 в 8:13, admin, рубрики: AI, data, gpu, mlops, selectel, выделенный сервер, конфигурация, сервер, хранилище данных

Читать полностью »

Алгоритмы для работы с большими данными в Go: HyperLogLog и Count-Min Sketch

2025-07-13 в 5:16, admin, рубрики: algorithms, big data, data, Go, golang, highload, алгоритм, Алгоритмы

Всем привет! Для начала давайте разберем что такое вообще Алгоритмы для работы с большими данными, основная суть алгоритмов для работы с большими данными — это эффективная обработка огромных объёмов информации при минимальных вычислительных ресурсах (памяти, CPU, диске). Их суть — жертвовать точностью ради скорости и масштабируемости. Примеры:

Потоковая обработка
Распределённые системы (агрегация на многих узлах).
Реал‑тайм аналитика (быстрые ответы на лету).

Главные алгоритмы и их суть

Алгоритм	Что решает?	Читать полностью »

Методы построения RAG систем

2025-02-11 в 5:15, admin, рубрики: AI, data, db, rag

Процесс Retrieval-Augmented Generation (RAG) представляет собой довольно сложную систему, состоящую из множества компонентов. Вопрос о том, как определить существующие методы RAG и их оптимальные комбинации для выявления лучших практик, в настоящий момент остается наиболее актуальным. В этой статье я хочу поделиться своим опытом относительно реализации подходов и практик в области RAG систем, который реализует систематический подход к решению этой проблемы.

Типовые задачи процессов RAG систем

Классификация запросов,
Деление на фрагменты
Векторизация данных
Поиск,
Переранжирование,
Читать полностью »

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

2025-01-27 в 6:15, admin, рубрики: data, data engineering, data lake, data warehouse, dwh, архитектура данных, базы данных, данные, корпоративное хранилище данных, хранилище данных

Привет! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло - 1

Читать полностью »

Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам

2024-12-22 в 6:23, admin, рубрики: big data, data, data en, llm, llm-приложения, machine learning, nlp, агенты

На каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.

Читать полностью »

Выбираем BI платформу для начинающего специалиста

2024-11-09 в 5:18, admin, рубрики: analytics, BI, data, анализ, аналитика, визуализация данных

Привет! Я работаю аналитиком данных в IT компании и только начинаю писать статьи на habr. Как и все когда-то я только начинала входить в IT и не понимала, что мне необходимо знать. Эта статья поможет тем кто находится в поисках подходящей BI платформы для изучения.

Введение

Читать полностью »

Какие нужны аналитики в 2025?

2024-11-05 в 12:16, admin, рубрики: 2025, Analyst, data, DataDriven, анализ, аналитика, ВкатитьсяВIT, данные

Всякие. Бум-бац-тсс, расходимся. Серьёзно, на рынке всё ещё дефицит кадров, дерзайте!

Привет! Я директор по аналитике в небольшой российской компании и это моя "пробапера" на habr. Про аналитиков много пишут. Парадокс, но про аналитику, как её знаю я, удивительно мало пишут. Про аналитиков, которые реализуют подход принятия решений на цифрах где-то помимо it-гигантов.

Я про специализированные подразделения аналитиков. Не бизнес-аналитиков, не инвестиционных, финансовых, web или системных, и даже не про data-scientist или ml специалистов.

Читать полностью »

Как родился термин «Культура работы с данными»

2024-10-18 в 10:20, admin, рубрики: BI, data, Data Literacy, qlik

Привет! С Вами Георгий, автор книги "Оптимизируй ЭТО Немедленно". Сегодня я расскажу о том, как родился перевод термина "Data-Literacy".

В [теперь уже] далеком 2019 году мы разрабатывали новую стратегию по продвижению Бизнес-Аналитики в России: мы верили в продукт и считали рынок сильно недооценённым, но продавать было некому: мы уже и так хорошо прошлись по рынку, имя "Qlik" было всем хорошо известно и у нас уже была хорошая клиентская база. Но мы хотели большего...

Читать полностью »

Информация

Комментарии

Рекомендуем

Рубрика «data»

Как обмануть LLM: обход защиты при помощи состязательных суффиксов. Часть 1

Автомобили в кино. Kaggle-датасет на 1,75 миллиона строк

MLOps без мам, пап и GPT: как поднять сервер для AI за вечер

Алгоритмы для работы с большими данными в Go: HyperLogLog и Count-Min Sketch

Главные алгоритмы и их суть

Методы построения RAG систем

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло

Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам

Выбираем BI платформу для начинающего специалиста

Введение

Какие нужны аналитики в 2025?

Как родился термин «Культура работы с данными»