Введение
С ростом популярности LLM (больших языковых моделей) начинает подниматься вопрос о внедрении систем мониторинга LLM, которые будут проверять промпт пользователей на наличие токсичного контента, среди которого можно выделить промпт-инъекции и джейлбрейки (jailbreaks), а также ответ LLM, среди которого может быть сгенерированный неэтичный контент, утечки данных (пароли, промпт-инструкции и другая тайная от пользователя информация).