Исследователи обнаружили серьёзные уязвимости в новой языковой модели Grok 3 от компании Илона Маска. Специалисты компании Adversa AI провели тестирование и выявили, что систему можно легко обойти с помощью простых методов взлома, получив доступ к потенциально опасной информации.
По словам генерального директора и соучредителя Adversa AI Алекса Полякова, модель не только подвержена простым методам обхода ограничений, но и содержит серьёзную уязвимость, позволяющую получить доступ к системным настройкам. Это открывает злоумышленникам возможность понять принципы работы модели и делает её ещё более уязвимой для будущих атак.
Особую обеспокоенность вызывает тот факт, что Grok 3 не справилась с тремя из четырёх методов тестирования безопасности, в то время как конкурирующие модели от OpenAI и Anthropic успешно отразили все попытки взлома. Эксперты отмечают, что уровень защиты Grok 3 соответствует китайским языковым моделям и значительно уступает западным стандартам безопасности.
Ситуация становится ещё более тревожной в контексте развития ИИ-агентов, способных совершать действия от имени пользователей. Поляков приводит пример: если злоумышленник внедрит вредоносный код в текст электронного письма, то уязвимый ИИ-агент может автоматически разослать его всем контактам из списка.
Несмотря на высокие результаты в тестах производительности, где Grok 3 показала результаты на уровне лучших моделей OpenAI, проблемы с безопасностью могут перечеркнуть все достижения. Исследователи подчёркивают, что в погоне за скоростью и эффективностью разработчики новых моделей часто пренебрегают вопросами безопасности.
Эксперты предупреждают: по мере того как языковые модели начинают принимать решения в реальном мире, каждая уязвимость превращается в потенциальную угрозу безопасности. Это особенно актуально в свете недавнего запуска OpenAI функции Operator, позволяющей ИИ выполнять задачи в интернете от имени пользователя.