Чтобы генеративные модели искусственного интеллекта могли создавать новые формы контента, их нужно регулярно обучать на новых данных, которые создает человечество. Но что будет, если контент, созданный человеком, закончится? Тогда модели вынуждены будут обучаться на ранее сгенерированном ИИ-контенте, что может привести к «ИИ-аутофагии». И это явление может стать реальной проблемой для развития LLM.
Новое исследование, проведенное учеными из Университета Райса и Стэнфордского университета в США, говорит о том, что, когда системы искусственного интеллекта обучаются на синтетическом, машинном материале, а не на текстах и изображениях, созданных реальными людьми, качество их работы начинает страдать.
Исследователи назвали этот эффект модельным расстройством аутофагии (Model Autophagy Disorder, MAD). ИИ фактически потребляет сам себя, что можно сравнить с коровьим бешенством - неврологическим расстройством у коров, которых кормят инфицированными останками другого скота.
Без свежих, реальных данных контент, создаваемый ИИ, снижается по уровню качества, разнообразию или по обоим показателям, говорится в исследовании. Это предупреждение о том, что в будущем ИИ будет работать с отходами от этих моделей.
«Наши теоретические и эмпирические исследования позволили нам экстраполировать то, что может произойти, когда генеративные модели станут повсеместными, и обучать будущие модели в самообучающихся циклах», - говорит инженер Ричард Баранюк из Университета Райса.
«Некоторые последствия очевидны: без достаточного количества свежих реальных данных будущие генеративные модели обречены на провал».
Баранюк и его коллеги работали с визуальной генеративной моделью, обучая ее на трех разных типах данных: полностью синтетических, синтетических, смешанных с реальными данными, которые были зафиксированы, и синтетических, смешанных с реальными данными, которые постоянно обновлялись.
По мере повторения циклов в первых двух сценариях вывод модели становился все более искаженным. Это проявлялось в виде более заметных артефактов - шрамов, похожих на сетку, на сгенерированных компьютером лицах.
Более того, лица становились все более похожими друг на друга, когда не использовались свежие, сгенерированные человеком обучающие данные. В тестах с использованием рукописных цифр цифры постепенно становились неразборчивыми.
Если использовались реальные данные, но в фиксированном виде, без добавления новых, качество результатов все равно снижалось, просто на это требовалось немного больше времени. Выходит, что актуальность имеет решающее значение.
«Наша группа много работала над такими циклами обратной связи, и плохая новость заключается в том, что даже после нескольких поколений такого обучения новые модели могут быть непоправимо испорчены», - говорит Баранюк.
Хотя в данном конкретном исследовании речь шла о генерации изображений, команда утверждает, что большие языковые модели (LLM), предназначенные для создания текста, будут работать точно так же. Это действительно было замечено в других исследованиях.
Эксперты уже предупреждали, что у инструментов генеративного ИИ заканчивается запас данных для обучения, и это последнее исследование стало еще одной попыткой сдержать шумиху вокруг ИИ. Это, безусловно, многообещающая технология, но и у нее есть свои ограничения.
«Один из сценариев развития событий заключается в том, что если оставить MAD без контроля на протяжении многих поколений, то он может отравить качество и разнообразие данных во всем интернете», - говорит Баранюк.
Исследование было представлено на International Conference on Learning Representations (ICLR), и вы можете прочитать сопроводительную статью.
Автор: technokratiya