Моделирование экономического поведения с использованием LLM: сравнение моделей в кейнсианском конкурсе красоты

2025-03-26 в 16:15, admin, рубрики: llm, nlp, БЯМ, экономика

В последние годы исследования по моделированию экономического поведения с использованием искусственного интеллекта (ИИ) набирают обороты. Особенно интересен вопрос: насколько большие языковые модели (LLM) способны имитировать поведение людей в классических экономических экспериментах. В данной статье анализируется, как современные LLM решают задачу кейнсианского конкурса красоты и как их результаты отличаются от экспериментов с реальными людьми в работах Nagel (1995) и Grosskopf & Nagel (2008).

Почему это важно?

Эксперименты типа «кейнсианского конкурса красоты» являются краеугольным камнем для анализа поведения агентов в условиях неопределённости. Классическая постановка задачи предполагает, что участники должны выбрать число, стараясь предугадать, какое число окажется ближе всего к определённой функции от выборов всех участников (например, к двум третям среднего). Поведение игроков демонстрирует не только их рациональные ожидания, но и степень итеративного рассуждения – то есть, насколько глубоко они пытаются предугадать мысли своих оппонентов.

Несмотря на то, что эксперименты с участием людей уже проводились (Nagel, 1995); Grosskopf & Nagel, 2008)), вопросы когнитивного соответствия LLM остаются открытыми. Могут ли современные языковые модели не только принимать решения, похожие на человеческие, но и демонстрировать особенности итеративного рассуждения, характерного для участников таких игр?

Кейнсианский конкурс красоты: постановка задачи и примеры

Что такое кейнсианский конкурс красоты?
Это эксперимент, в котором участникам предлагают выбрать число, зачастую в диапазоне от 0 до 100. Победителем становится тот, чьё число оказывается ближе всего к заранее определённой доле (например, 2/3) от среднего выбора всех участников. Такая игра иллюстрирует, как участники пытаются предугадать не только поведение других, но и их предположения о поведении остальных.

Пример игры:
Представьте, что 10 участников выбирают число. Если среднее арифметическое равно 60, то выигрышное число будет 2/3 × 60= 40. Выигрывает тот, кто выбрал число, наиболее близкое к 40.

При этом возникает вопрос: какие стратегии выгодны?
Классический вывод заключается в том, что рациональный игрок должен выбрать число, которое в идеале стремится к нулю. Однако эмпирические исследования показывают, что люди не следуют строго этой логике, демонстрируя «среднее» поведение – их выбор оказывается ближе к экспериментально наблюдаемым средним значениям, чем к теоретическому равновесию.

Обзор эмпирических исследований

Ряд работ посвящён анализу поведения участников в подобных экспериментах. Например, Nagel (1995) и Grosskopf & Nagel (2008) провели эксперименты с участием студентов и специалистов, результаты можно свести в таблицу:

Статья	Участники игры	Средний ответ
Grosskopf & Nagel (2008)	Студенты 1 курса бакалавриата	35.57
Grosskopf & Nagel (2008)	Участники конференций по экономике и психологии принятия решений	21.73
Grosskopf & Nagel (2008)	Студенты 1 курса бакалавриата	29.31
Grosskopf & Nagel (2008)	Участники конференций по теории игр	18.98
Nagel (1995)	Студенты бакалавриата	27.05
Nagel (1995)	Студенты бакалавриата	36.73

Эти результаты демонстрируют, что человеческие участники в среднем выбирают числа, значительно отличающиеся от равновесия (0).

Эксперимент: репликация задачи с использованием LLM

Идея этого эксперимента заключается в том, чтобы проверить, насколько LLM способны имитировать решения экономических агентов в условиях кейнсианского конкурса красоты. В частности, мы реплицируем задание, предложенное участникам в классических экспериментах, и анализируем ответы, полученные от различных моделей. У нас с коллегами есть препринт с другой версией работы, в которой проведено сравнение других моделей с результатами большего числа эмпирических исследований.

Выбранные модели

Для этого поста были протестированы следующие модели:

meta-llama/llama-3.1-405b-instruct
meta-llama/llama-3.3-70b-instruct
meta-llama/llama-3.2-3b-instruct
meta-llama/llama-3-8b-instruct
deepseek/deepseek-r1-distill-llama-70b
deepseek/deepseek-r1
google/gemini-2.0-flash-001
openai/gpt-4
openai/o3-mini-high
anthropic/claude-3.7-sonnet
mistralai/mistral-large-2411

Выбраны модели разных размеров и от различных провайдеров, чтобы оценить, как размер и архитектурные особенности моделей влияют на их способность имитировать поведение реальных экономических агентов. Выбирались модели, доступные на OpenRouter. К каждой модели делалось 5 запросов (хорошо бы по 50-100), каждый запрос был сделан с нуля, без передачи предыщей истории в контексте, чтобы избежать эффекта обучения.

Основные метрики

В таблице ниже приведены результаты эксперимента: Для оценки ответов моделей были рассчитаны две метрики:

MM (model mean) – среднее значение, выбранное моделью.
MM_PM (model mean – paper mean) – разница между средним, полученным от модели, и экспериментальными результатами, полученными в работах Nagel (1995) и Grosskopf & Nagel (2008).

Модель	MM_PM (*)	MM
openai/o3-mini-high	-26.1	2.13
deepseek/deepseek-r1-distill-llama-70b	-22.0	6.27
meta-llama/llama-3.3-70b-instruct	-21.7	6.5
deepseek/deepseek-r1	-20.3	7.93
openai/gpt-4	-17.5	10.7
mistralai/mistral-large-2411	-16.9	11.4
google/gemini-2.0-flash-001	-14.3	13.9
anthropic/claude-3.7-sonnet	-13.9	14.4
meta-llama/llama-3.1-405b-instruct	-4.83	23.4
meta-llama/llama-3.2-3b-instruct	10.1	38.3
meta-llama/llama-3-8b-instruct	17.7	45.9

Талица отсортирована по MM_PM. Вот эта же метрика в виде графика:

Моделирование экономического поведения с использованием LLM: сравнение моделей в кейнсианском конкурсе красоты - 1

В экспериментах модель meta-llama/llama-3.1-405b-instruct показала наименьшее отклонение (–4.83) от результатов классических экспериментов , что говорит о её близости к выборкам реальных участников. Другими словами, её среднее значение (23.4) соответствует поведению людей, демонстрируя, как человеческие решения отклоняются от теоретически рационального в пользу «среднего» решения.
С другой стороны, модель openai/o3-mini-high выдала средний ответ всего 2.13, что практически совпадает с теоретическим равновесием – нулём.

Выводы

Этот эксперимент продемонстрировал, что современные LLM способны имитировать поведение экономических агентов в условиях кейнсианского конкурса красоты. Модели демонстрируют итеративное рассуждение, приближаясь к средним результатам, наблюдаемым в экспериментах с участием людей. Интересно, что модели, ориентированные на reasoning, демонстрируют результаты, близкие к нулю – теоретически оптимальному решению.

Буду рад комментариям!

Мой канал в телеге.

Автор: pparshakov

Источник

Информация

Обсуждаемое

Рекомендуем

Моделирование экономического поведения с использованием LLM: сравнение моделей в кейнсианском конкурсе красоты

Почему это важно?

Кейнсианский конкурс красоты: постановка задачи и примеры

Обзор эмпирических исследований

Эксперимент: репликация задачи с использованием LLM

Выбранные модели

Основные метрики

Выводы

Архив

Информация

Обсуждаемое

Рекомендуем

Моделирование экономического поведения с использованием LLM: сравнение моделей в кейнсианском конкурсе красоты

Почему это важно?

Кейнсианский конкурс красоты: постановка задачи и примеры

Обзор эмпирических исследований

Эксперимент: репликация задачи с использованием LLM

Выбранные модели

Основные метрики

Выводы

Рекомендованный контент

Новости

Актуальные темы

Архив