Буквально несколько часов назад (на момент написания этой статьи), компания Anthropic предоставила свое новое исследование по обходу защитных механизмов LLM в открытый доступ.
Новое совместное исследование: «Лучший способ взлома моделей» (Best-of-N Jailbreaking).
«Мы обнаружили простой и универсальный метод, который позволяет обходить механизмы безопасности передовых AI‑моделей и работает с текстом, изображениями и аудио.»