Почему GPT-4 ошибается в 96% случаев: границы возможностей LLM

в 16:59, , рубрики: chatgpt, искусственный интеллект, математика

7 декабря 1962 года журнал Life International опубликовал логическую головоломку, состоящую из 15 предложений, описывающих пять домов на улице. Каждое предложение содержало подсказку, например: «Англичанин живёт в красном доме» или «Молоко пьют в среднем доме». Каждый дом имел свой цвет, в нём проживали люди разных национальностей, у которых были разные домашние животные и другие характеристики. Заголовок статьи гласил: «Кому принадлежит зебра?» Подобные задачи стали примером для оценки возможностей, а также ограничений современных моделей машинного обучения.

Эта задача, известная также как «загадка Эйнштейна» (хотя её связь с Эйнштейном, вероятно, является апокрифической), проверяет способность к многошаговому логическому мышлению. Нуха Дзири, научный сотрудник Института искусственного интеллекта Аллена, и её коллеги недавно провели эксперимент, в котором предложили крупным языковым моделям (LLM) на основе трансформеров, таким как ChatGPT, решать подобные задачи. В большинстве случаев модели не справились с заданием. Дзири отметила, что, возможно, такие модели не способны рассуждать за пределами тех данных, на которых они обучались, или их приблизительные вычисления могут быть ошибочными.

Загадка Эйнштейна требует построения сложного решения на основе решения более простых подзадач, что исследователи называют композиционной задачей. Команда Дзири продемонстрировала, что LLM, обученные преимущественно предсказывать следующее слово в последовательности, имеют фундаментальные ограничения в решении задач, требующих композиционного мышления. Другие исследования также показали, что трансформаторы, архитектура нейронной сети, лежащая в основе большинства LLM, сталкиваются с математическими ограничениями при решении подобных задач. Хотя учёные добились определённых успехов в преодолении этих ограничений, такие решения носят скорее временный характер. Это указывает на существование фундаментальных ограничений в вычислительных возможностях таких форм искусственного интеллекта, что поднимает вопрос о необходимости рассмотрения альтернативных подходов.

Эндрю Уилсон, эксперт по машинному обучению из Нью-Йоркского университета, не участвовавший в исследовании, отметил, что эта работа важна для того, чтобы помочь научному сообществу определить, является ли архитектура трансформеров оптимальной для задач универсального обучения.

Почему GPT-4 ошибается в 96% случаев: границы возможностей LLM - 1

LLM-модели сами выявили один из своих недостатков благодаря своим выдающимся способностям. Как отметил Дзири, именно их успехи в задачах, связанных с обработкой естественного языка, вызвали вопросы о том, действительно ли они способны рассуждать. На этапе обучения такие модели анализируют фрагменты текста с пропущенной частью, которую им предстоит спрогнозировать, и корректируют свои ошибки.

Крупнейшие модели, обученные на практически всех доступных в интернете данных, усваивают не только синтаксис, но и значительную часть семантических знаний письменного языка. Это позволяет использовать их для решения сложных задач, таких как обобщение информации и генерация программного кода. Однако, несмотря на впечатляющие результаты, модели порой демонстрируют ошибки и неожиданное поведение. По словам Дзири, они могут справляться с некоторыми задачами на удивление хорошо, а с другими — удивительно плохо.

Нуха Дзири и её команда помогли продемонстрировать, с какими трудностями сталкиваются современные системы искусственного интеллекта при выполнении определённых задач, требующих логического мышления.

Нуха Дзири и её команда помогли продемонстрировать, с какими трудностями сталкиваются современные системы искусственного интеллекта при выполнении определённых задач, требующих логического мышления.

Обычные задачи, такие как умножение, остаются вызовом для стандартных больших языковых моделей, включая ChatGPT и GPT-4. В начале 2023 года команда Дзири провела эксперимент, попросив GPT-4 перемножить два трёхзначных числа. Результаты оказались неутешительными: модель справилась с задачей только в 59% случаев. Когда её попросили умножить два четырёхзначных числа, точность резко снизилась до 4%.

Кроме того, модель протестировали на решении так называемой загадки Эйнштейна. На простом уровне задачи, где присутствуют два дома и у каждого по две характеристики, GPT-4 всегда давал правильный ответ. Однако при увеличении сложности до четырёх домов и четырёх характеристик точность упала до 10%. В оригинальной версии задачи из журнала Life International, которая предполагает пять домов и пять характеристик у каждого, модель не смогла справиться с задачей ни разу.

Предполагая, что недостаток практики мог быть причиной таких результатов, команда Дзири дообучила GPT-3 на массиве из 1,8 миллиона примеров умножения. Это улучшило способности модели, но только для задач, схожих с теми, которые были в обучающих данных. Например, если данные включали умножение двух трёхзначных чисел и комбинации двузначных и четырёхзначных чисел, модель справлялась с аналогичными примерами. Однако когда ей предложили перемножить четырёхзначное число на трёхзначное, точность выполнения составила всего 2%. «Если модели действительно понимают задачу и умеют рассуждать, они должны выявлять неявные алгоритмы», — отметила Дзири. Но её команда этого не наблюдала. «Это вызывает много вопросов о том, как LLM решают задачи и обладают ли они настоящими навыками рассуждения».

Аналогичная закономерность проявилась при решении загадки Эйнштейна. GPT-3 не смог успешно справиться с более сложными версиями головоломки, отличными от тех, которые использовались при обучении. «Он имитирует то, что видел, но не полностью понимает это», — резюмировала Дзири.

Жесткие ограничения

Пока Дзири с коллегами дорабатывали свои исследования, другая команда пошла иным путём, чтобы понять, почему LLM испытывают трудности с решением композиционных задач. Бинхуэй Пэн, на тот момент аспирант Колумбийского университета, совместно с Кристосом Пападимитриу и другими исследователями пытался выяснить природу феномена «галлюцинаций» — ситуации, когда модель генерирует недостоверную информацию. Пэн, ныне научный сотрудник Стэнфордского университета, предположил, что причина кроется в отсутствии у трансформеров способности к композиции.

Чтобы понять эту проблему, представьте сценарий: модель получает два факта — «Отцом Фредерика Шопена был Николя Шопен, а Николя Шопен родился 15 апреля 1771 года». Если затем спросить модель, когда родился отец Фредерика Шопена, ей необходимо объединить два факта и ответить правильно. По сути, это требует решения вложенного вопроса: «Какова дата рождения (Кто является отцом (Фредерика Шопена)?)». Если модель выдаёт неверный ответ, это считается результатом её неспособности справиться с композиционной задачей, что приводит к «галлюцинациям».

Пэн решил проверить эту гипотезу и начал с изучения простого трансформера, состоящего всего из одного слоя. Такой трансформер обучается «обращать внимание» на порядок и расположение слов в предложении, чтобы предсказать следующее слово. В современных моделях таких слоёв гораздо больше, но команда Пэна сосредоточилась на простом варианте, чтобы выявить фундаментальные ограничения. Они обнаружили связь между сложностью слоя и «размером домена» — количеством битов, необходимых для представления вопросов. Команда математически доказала, что если общее количество параметров в однослойном трансформере меньше размера домена, то он не сможет решить композиционную задачу. Это свидетельствует о явном и математически обоснованном ограничении.

Несмотря на убедительность этого результата, его практическая значимость оставалась неясной из-за сложности современных моделей. «Расширить наше доказательство непросто», — отметил Пэн. Чтобы изучить возможности более сложных трансформеров, команда обратилась к теории вычислительной сложности, которая рассматривает задачи с точки зрения ресурсов, таких как время и память, необходимых для их решения.

Бинхуэй Пэн входит в состав команды, которая показала, что трансформеры, лежащие в основе большинства крупных языковых моделей, имеют математические ограничения в своих возможностях.

Бинхуэй Пэн входит в состав команды, которая показала, что трансформеры, лежащие в основе большинства крупных языковых моделей, имеют математические ограничения в своих возможностях.

В конечном итоге исследователи использовали известную гипотезу для демонстрации того, что вычислительные возможности многослойных трансформеров остаются ограниченными, когда речь идёт о сложных композиционных задачах. В декабре 2024 года Пэн и его коллеги из Калифорнийского университета в Беркли представили доказательство, которое не опирается на гипотезы о вычислительной сложности. Оно подтверждает, что даже многослойные трансформеры неспособны решить определённые сложные композиционные задачи. Это означает, что определённый класс таких задач всегда будет недоступен моделям, построенным на архитектуре трансформеров.

Пэн отметил, что увеличение размера модели позволяет справляться с более сложными задачами. Однако при одновременном усложнении самих задач модели снова сталкиваются с ограничениями. Это указывает на фундаментальные пределы архитектуры трансформеров.

Это не конец

Стоит подчеркнуть, что выявленные ограничения вовсе не означают конец для LLM. Уилсон из Нью-Йоркского университета отмечает, что исследователи активно работают над улучшением возможностей трансформеров, включая их способность решать арифметические задачи. Так, Том Голдштейн из Мэрилендского университета с коллегами предложили новый подход к представлению чисел для трансформеров, обучающихся сложению. Они добавили «позиционную» информацию к каждой цифре, что позволило модели, обученной на 20-значных числах, с высокой точностью (98%) складывать числа длиной до 100 цифр. Без такого дополнения точность аналогичной модели составляла всего 3%. Уилсон отметил, что такие изменения могут значительно улучшить работу моделей без необходимости полного пересмотра их архитектуры.

Ещё одним способом преодоления ограничений трансформеров является пошаговое подталкивание — метод, при котором задача предлагается модели для решения поэтапно. Эмпирические исследования показали, что такой подход может расширить возможности LLM, включая GPT-4, и позволить им справляться с более широким спектром задач. Почему этот метод работает столь эффективно, до конца не ясно, и исследователи продолжают изучать это явление. «Нам было интересно, почему он настолько эффективен и позволяет делать так много нового», — отметил Йе Хаотань, аспирант Стэнфордского университета.

Когда Хаотянь был бакалавром Пекинского университета, он вместе с коллегами изучал поведение трансформеров при использовании подсказок в виде цепочки мыслей и без них. Их работа опиралась на теорию сложности схем — раздел информатики, исследующий сложность вычислений. Доказательство показало, что подсказки в виде цепочки мыслей разбивают сложную задачу на последовательность более простых подзадач. Это позволяет трансформерам справляться с более сложными композиционными задачами. «Это означает, что модель может решать задачи, относящиеся к более широкому и сложному классу вычислений», — отметил Йе.

Однако, как предупреждает Йе, их теоретический результат не гарантирует, что реальные модели смогут решать столь сложные задачи, даже используя цепочку рассуждений. Исследование лишь продемонстрировало, что трансформеры обладают теоретической способностью к этому, но их практическая реализация и обучение определяют, насколько близко они смогут подойти к этой границе возможностей.

Несмотря на впечатляющие достижения, эти выводы не противоречат результатам команд Дзири и Пэна. В основе работы LLM остаётся сопоставление шаблонов, и их потенциал ограничен математическими рамками. Подходы, основанные на цепочке рассуждений, лишь расширяют их возможности в этом сопоставлении, но не выводят их за пределы фундаментальных ограничений. Математические исследования подтверждают, что всегда можно найти композиционные задачи, которые превысят возможности конкретной системы. Даже более современные архитектуры, такие как «модели пространства состояний», рекламируемые как более мощные альтернативы трансформерам, сталкиваются с аналогичными ограничениями.

Для большинства пользователей это не имеет большого значения. «Широкой публике всё равно, рассуждает модель или нет», — отметила Дзири. Однако для тех, кто занимается разработкой и исследованием таких моделей, эти результаты крайне важны. «Мы должны действительно понимать, что происходит под капотом», — подчеркнула она. «Если мы разгадаем, как модели выполняют задачи и как они рассуждают, мы, вероятно, сможем их улучшить. Но если этого понимания нет, сделать что-то действительно сложно».

Всё это и много другое — ТГ «Математика не для всех»

Автор: andreybrylb

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js