Рубрика «безопасность ии»

Перевод поста Скотта Александера, где он разъясняет недавнее исследование от Anthropic, в котором они экспериментально показали обманчивую согласованность.

В смысле, ИИ ПРИТВОРЯЕТСЯ, ЧТОБЫ ЕГО НЕ ПЕРЕОБУЧИЛИ, А-А-А-А-А-А-А, если так понятнее. Оригинал.


Гринблатт и пр. исследовали: если бы Anthropic попыталась сделать Claude злой, стала бы она сопротивляться?

(если вы только присоединились — Claude это ИИ-модель, похожая на GPT-4; Anthropic — компания, которая её создала)

Читать полностью »

По словам эксперта, новая модель OpenAI — это «турбопылесос данных», но ее все же можно использовать, минимизировав риски.

По словам эксперта, новая модель OpenAI — это «турбопылесос данных», но ее все же можно использовать, минимизировав риски.

13 мая компания OpenAI опубликовала новую модель ИИ Читать полностью »


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js