Рубрика «data»

Что будет, если к опасному запросу в LLM приписать специально подобранную строку токенов? Вместо отказа модель может послушно сгенерирует подробный ответ на запрещённую тему — например, как ограбить магазин. Именно так работают состязательные суффиксы: они заставляют LLM игнорировать ограничения и отвечать там, где она должна сказать «опасно».

Читать полностью »

На imcdb.org энтузиасты уже два десятка лет отмечают автомобили в фильмах: кадры, марки, модели. Верифицируют находки на форуме, спорят о деталях. В итоге появилась крупнейшая база “машин-актёров” в кино: 1,75 млн страниц с кадрами и описаниями транспорта из фильмов разных стран. Я собрал всё это в один датасет.

Читать полностью »

Всем привет! Для начала давайте разберем что такое вообще Алгоритмы для работы с большими данными, основная суть алгоритмов для работы с большими данными  — это эффективная обработка огромных объёмов информации при минимальных вычислительных ресурсах (памяти, CPU, диске). Их суть — жертвовать точностью ради скорости и масштабируемости. Примеры:

  • Потоковая обработка

  • Распределённые системы (агрегация на многих узлах).

  • Реал‑тайм аналитика (быстрые ответы на лету).

Главные алгоритмы и их суть

Алгоритм

Что решает?

Читать полностью »

Процесс Retrieval-Augmented Generation (RAG) представляет собой довольно сложную систему, состоящую из множества компонентов. Вопрос о том, как определить существующие методы RAG и их оптимальные комбинации для выявления лучших практик, в настоящий момент остается наиболее актуальным. В этой статье я хочу поделиться своим опытом относительно реализации подходов и практик в области RAG систем, который реализует систематический подход к решению этой проблемы.

Типовые задачи процессов RAG систем

  • Классификация запросов,

  • Деление на фрагменты

  • Векторизация данных

  • Поиск,

  • Переранжирование,

  • Читать полностью »

Привет! Меня зовут Михаил Килинский, я — Senior Developer в проекте Data Warehouse «Лаборатории Касперского». Наша команда строит хранилища данных и разрабатывает ETL- и ELT-процессы, мы пишем на Python, SQL и C# (.NET), а весь код находится в монорепозитории.

Озеро для дата-склада: как мы нырнули в новые методы хранения данных и что из этого вышло - 1

Читать полностью »

На каждой технической конференции в последнее время обязательно звучит слово «агенты». Они преподносятся по разному: и как следующая ступенька после RAG, и как серебряная пуля для всех проблем, и как абсолютная замена всех классических пайплайнов. А кто еще не использует агентов — безнадежно отстал от прогресса.

Классика, LLM-ассистент и LLM-агент

Классика, LLM-ассистент и LLM-агент

Читать полностью »

Привет! Я работаю аналитиком данных в IT компании и только начинаю писать статьи на habr. Как и все когда-то я только начинала входить в IT и не понимала, что мне необходимо знать. Эта статья поможет тем кто находится в поисках подходящей BI платформы для изучения.

Введение

Читать полностью »

Всякие. Бум-бац-тсс, расходимся. Серьёзно, на рынке всё ещё дефицит кадров, дерзайте!

Привет! Я директор по аналитике в небольшой российской компании и это моя "пробапера" на habr. Про аналитиков много пишут. Парадокс, но про аналитику, как её знаю я, удивительно мало пишут. Про аналитиков, которые реализуют подход принятия решений на цифрах где-то помимо it-гигантов.

Я про специализированные подразделения аналитиков. Не бизнес-аналитиков, не инвестиционных, финансовых, web или системных, и даже не про data-scientist или ml специалистов.

Читать полностью »

Привет! С Вами Георгий, автор книги "Оптимизируй ЭТО Немедленно". Сегодня я расскажу о том, как родился перевод термина "Data-Literacy".

В [теперь уже] далеком 2019 году мы разрабатывали новую стратегию по продвижению Бизнес-Аналитики в России: мы верили в продукт и считали рынок сильно недооценённым, но продавать было некому: мы уже и так хорошо прошлись по рынку, имя "Qlik" было всем хорошо известно и у нас уже была хорошая клиентская база. Но мы хотели большего...

Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js