Что будет, если к опасному запросу в LLM приписать специально подобранную строку токенов? Вместо отказа модель может послушно сгенерирует подробный ответ на запрещённую тему — например, как ограбить магазин. Именно так работают состязательные суффиксы: они заставляют LLM игнорировать ограничения и отвечать там, где она должна сказать «опасно».
Рубрика «data»
Как обмануть LLM: обход защиты при помощи состязательных суффиксов. Часть 1
2025-10-01 в 9:00, admin, рубрики: AI, data, llm, llm-агент, llm-архитектура, llm-модели, ml, искусственный интеллект, разработкаАвтомобили в кино. Kaggle-датасет на 1,75 миллиона строк
2025-09-14 в 13:17, admin, рубрики: data, dataset, kaggle, визуализация данных, парсингНа imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база “машин-актёров” в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.
MLOps без мам, пап и GPT: как поднять сервер для AI за вечер
2025-09-02 в 8:13, admin, рубрики: AI, data, gpu, mlops, selectel, выделенный сервер, конфигурация, сервер, хранилище данныхАлгоритмы для работы с большими данными в Go: HyperLogLog и Count-Min Sketch
2025-07-13 в 5:16, admin, рубрики: algorithms, big data, data, Go, golang, highload, алгоритм, АлгоритмыВсем привет! Для начала давайте разберем что такое вообще Алгоритмы для работы с большими данными, основная суть алгоритмов для работы с большими данными — это эффективная обработка огромных объёмов информации при минимальных вычислительных ресурсах (памяти, CPU, диске). Их суть — жертвовать точностью ради скорости и масштабируемости. Примеры:
-
Потоковая обработка
-
Распределённые системы (агрегация на многих узлах).
-
Реал‑тайм аналитика (быстрые ответы на лету).
Главные алгоритмы и их суть
|
Алгоритм |
Что решает? |
|---|
Процесс Retrieval-Augmented Generation (RAG) представляет собой довольно сложную систему, состоящую из множества компонентов. Вопрос о том, как определить существующие методы RAG и их оптимальные комбинации для выявления лучших практик, в настоящий момент остается наиболее актуальным. В этой статье я хочу поделиться своим опытом относительно реализации подходов и практик в области RAG систем, который реализует систематический подход к решению этой проблемы.
Типовые задачи процессов RAG систем
-
Классификация запросов,
-
Деление на фрагменты
-
Векторизация данных
-
Поиск,
-
Переранжирование,
Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло
2025-01-27 в 6:15, admin, рубрики: data, data engineering, data lake, data warehouse, dwh, архитектура данных, базы данных, данные, корпоративное хранилище данных, хранилище данныхПривет! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Как LLM меняют архитектуру систем: от простых дата-пайплайнов к интеллектуальным автономным агентам
2024-12-22 в 6:23, admin, рубрики: big data, data, data en, llm, llm-приложения, machine learning, nlp, агентыНа каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.
Выбираем BI платформу для начинающего специалиста
2024-11-09 в 5:18, admin, рубрики: analytics, BI, data, анализ, аналитика, визуализация данныхПривет! Я работаю аналитиком данных в IT компании и только начинаю писать статьи на habr. Как и все когда-то я только начинала входить в IT и не понимала, что мне необходимо знать. Эта статья поможет тем кто находится в поисках подходящей BI платформы для изучения.
Введение
Какие нужны аналитики в 2025?
2024-11-05 в 12:16, admin, рубрики: 2025, Analyst, data, DataDriven, анализ, аналитика, ВкатитьсяВIT, данныеВсякие. Бум-бац-тсс, расходимся. Серьёзно, на рынке всё ещё дефицит кадров, дерзайте!
Привет! Я директор по аналитике в небольшой российской компании и это моя "пробапера" на habr. Про аналитиков много пишут. Парадокс, но про аналитику, как её знаю я, удивительно мало пишут. Про аналитиков, которые реализуют подход принятия решений на цифрах где-то помимо it-гигантов.
Я про специализированные подразделения аналитиков. Не бизнес-аналитиков, не инвестиционных, финансовых, web или системных, и даже не про data-scientist или ml специалистов.
Как родился термин «Культура работы с данными»
2024-10-18 в 10:20, admin, рубрики: BI, data, Data Literacy, qlikПривет! С Вами Георгий, автор книги "Оптимизируй ЭТО Немедленно". Сегодня я расскажу о том, как родился перевод термина "Data-Literacy".
В [теперь уже] далеком 2019 году мы разрабатывали новую стратегию по продвижению Бизнес-Аналитики в России: мы верили в продукт и считали рынок сильно недооценённым, но продавать было некому: мы уже и так хорошо прошлись по рынку, имя "Qlik" было всем хорошо известно и у нас уже была хорошая клиентская база. Но мы хотели большего...

