Илон Маск заинтересовался взломом AI-агента на $50000

в 15:40, , рубрики: AI Security, ai-агенты, безопасность, вызовы функций, искусственный интеллект

AI-агенты, способные самостоятельно обращаться к функциям системы для решения задач, набирают популярность. На прошлой неделе OWASP опубликовал гайд об угрозах для AI-агентов и примеры уязвимостей на базе популярных фреймворков: LangChain, LangGraph, CrewAI, OpenAI Swarm. Участник лаборатории ИТМО AI Security Lab Александр Буянтуев предложил версию криптоагента Freysa на базе CrewAI. Этот криптоагент должен был защитить призовой фонд и привлёк внимание Илона Маска, когда кто-то смог заполучить $50000:

Куда же без Илона Маска?
Куда же без Илона Маска?

В ноябре 2024 года все желающие за $10 могли уговорить Freysa отдать весь призовой фонд. Цена с каждым сообщением возрастала и к 482 запросу составила $450. Именно на этой попытке кому-то удалось заставить агента перевести накопившиеся 13 ETH или примерно $50000 на счёт автора запроса:

промпт, взявший банк

промпт, взявший банк

Вредоносное сообщение обходит первоначальные инструкции Freysa и запускает “новую сессию”, запрещая агенту отвечать в духе “Я не могу помочь с этим, извините”. В этой новой сессии approveTransfer() должен срабатывать, когда кто-то якобы хочет не получить, а передать деньги боту — что первоначально не предусмотрено, не считая стоимости отправки сообщения. Далее пользователь говорит, что хочет пожертвовать Freysa $100 — и агент послушно выполняет функцию одобрения, в которой происходит перевод пользователю всего призового фонда.

Этот случай показывает, что не стоит доверять управление деньгами AI-агентам вопреки моде доверить им практически всё. Агенту нужно и соблюсти первоначальные инструкции владельца, и угодить пользователю — вопрос лишь в том, кто кого перепромптит. При этом злоумышленник может использовать атакующую LLM, устраивая настоящие гладиаторские AI-бои. Мы в команде разработчиков фреймворка LLAMATOR уже используем атакующую LLM в благих целях, чтобы вовремя выявить уязвимости в LLM-системах. 

Вот как спустя 28 попыток LLAMATOR взломал нашу версию Freysa, запущенную на Saiga 12B и обернутую в чат-бот для Telegram:

Переписка LLAMATOR и Freysa в Telegram

Переписка LLAMATOR и Freysa в Telegram

Кстати, с помощью LLAMATOR можно тестировать не только чат-боты в Telegram: в документации приведены примеры с REST API, OpenAI API, Selenium и мессенджером одной запрещённой компании.

Какие интересные кейсы применения AI-агентов в корыстных целях вы знаете? Пишите в комментариях! А чтобы не пропустить новые статьи, не забудьте подписаться на канал AI Security Lab в Telegram.

Автор: nizamovtimur

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js