Око за око

в 13:51, , рубрики: Песочница, Социальные сети и сообщества, социум, теория игр, метки: ,

В известной проблеме теории игры «Проблема заключенного» предательство является единственным верным решением. Однако если также не давать двум сторонам договариваться друг с другом, но повторять ситуацию множество раз подряд, то такая стратегия поведения станет не самой выгодной. Выбор верной стратегии может помочь ответить на вопросы об эволюции человеческого социума, появление фактов сотрудничества в личных и деловых отношениях, соотношения моральных норм и собственных интересов.

Око за око

В конце 1970-х годов Роберт Аксельрод (математик, политолог, ныне профессор Мичиганского университета) придумал эксперимент, заключающийся в моделировании поведения субъектов, поставленных перед многократно повторяющейся дилеммой заключенного (IPD или iterated prisoner’s dilemma).

Правила игры были следующие:

  • Каждый субъект придерживается определенной стратегии, которая задается его программой. На первый турнир было представлено 14 программ, разработанных различными авторами, и одна программа, действующая по случайному принципу.
  • Каждый субъект помнит историю своих взаимоотношений и может делать выбор, основываясь на этой истории.
  • Игра проводится по круговому принципу в случайном порядке.
  • Если оба субъекта отказываются от сотрудничества они получают по 1 баллу (в терминологии заключенного это означает дачу показаний на подельника).
  • Если они соглашаются на сотрудничество, то получаются по 3 балла (оба молчат).
  • Если один отказывается, а второй нет, то отказавшийся (обманщик) получает 5, второй 0.
  • Победитель определялся по сумме выигрышей после 200 раундов.

Простейшие алгоритмы всегда сотрудничали (простофили) или всегда обманывали. Большинство подчинялось сложным моделям поведения. Но победителем вышла программа Tit-For-Tat (TFT, око за око), психолога Анатолия Рапопорта из университета Торонто. Логика действий программы была очень проста – первый раунд безусловное согласие на сотрудничество, а в последующих раундах повторение того, что делал этот же оппонент в предыдущем. Максимально возможный результат из 200 раундов это 1000 очков. Победитель получил 504. Восемь первых мест забрали программы, которые в первый контакт шли на сотрудничество, их стали называться «приятными». Они получили от 472 до 504 очков, в то время как самая удачная «неприятная» программа 401.

На второй турнир было выставлено уже 62 программы, алгоритмы многих были доработаны, в том числе с учетом противостояние с TFT. Интересно отметить, что TFT ни в каком случае не может заработать больше, чем её партнер, но победителем по сумме очков вновь оказалась TFT. Программа активно сотрудничала с другими кооператорами, но и немедленно отвечала обманом на обман.

Однако в реальном мире субъекты действуют на так детерминистки как программы, поэтому в следующих экспериментах была включена возможность ошибки, когда субъект выбирает действие случайным образом. При этом программа TFT при встрече со своим двойником стала попадать в бесконечный цикл взаимной месте, когда одно ошибочное действие запускало переключающиеся триггеры. При уровне шума 10% она уже не становилась победительницей. Следующие модификации программы CTFT и GTFT, включающие возможность прощать обманы, значительно улучшили результаты при высоком уровне шумов.

Око за окоПозднее эксперимент расширили, включив в него элементы Дарвиновской эволюции. После каждого раунда субъекты смогли выбирать себе новую стратегию, где вероятность выбора каждой стратегии была пропорциональна набранному ей количеству очков. При этом в начале игры TFT и другие кооперативные стратегии практически исчезали из популяции и балом правили мошенники! Средний выигрыш опускался практически до единицы, но через какое-то время остатки стратегий TFT вдруг брали верх, а позднее уступали дорогу тем стратегиям, которые были более склонны к прощению. Вот тогда в мире воцарялась гармония и сотрудничество. Однако такой результат не предначертан. При повторах или расширении эксперимента на сотни тысяч поколений в отдельные эпохи верх одерживали то одни, то другие стратегии, многократно повторялись смутные времена, когда царствовали обманщики и средний выигрыш был около единицы.

Око за око

Даже в благополучные эпохи в обществе всеобщего благоденствия ваш приятель или контрагент может оказаться «Павловым». В ранних экспериментах ничем себя не проявившая программа WSLS с простой логикой, основанной на повторении стратегии в случае удачи, и её смены в случае неудачи (win-stay, lose-shift), оказывается настоящим оборотнем. Как только честный бизнес не идет, и единожды удачно обманув простачка, она его обманывает вновь и вновь пока ей это приносит профит.

Среда моделирования мультиагентных систем NetLogo содержит одну из простых реализаций повторяющейся дилеммы заключенного (модель PD N-Person Iterated). В модели энное количество субъектов (черепашек в терминологии NetLogo) двигаются по полю, и, сталкиваясь друг с другом, делают тот или иной выбор, основываясь на истории своих взаимоотношений. На самом деле эти черепашки помнят только единственный случай контакта с каждым соперником, и не имеют доступа к полной истории. Изначально задано по 10 черепашек использующих 6 разных стратегий: стратегия случайного выбора, кооперативная, обманывающая (defect), TFT, непрощающая (unforgiving, отказывается от любого сотрудничества после единичного обмана), и unknown, которая по умолчанию запрограммирована аналогично TFT. Око за окоИ аналогично эволюционной модели первые сотни итераций самыми успешными по сумме выигрышей оказываются обманщики (их средний выигрыш близок к 5 очкам). Но постепенно их результат ухудшается и в лидеры выходит TFT со средним баллом 2,7 очка, против 2 у обманщиков. При исключении кооператоров обманщики получают в среднем только 1,4, а при исключении и случайной стратегии, обманщикам остается только обманывать друг друга – они получают в среднем 1 очко.

На основе проведенных экспериментов могут быть сформулированы 4 заповеди принципа для успеха в этой игре, которые могут быть перенесены и в реальную жизнь:

  • Начинай с доверия, и отвечай добром на добро
  • Реагируй на обман немедленно и адекватно
  • Будь готов простить
  • Исходи из того, что совместно можно достичь большего, чем по отдельности

Как было выше показано они не гарантируют успеха в короткий период, результат сильно зависит от чужих стратегий, от уровня случайных факторов, однако это очень простой и в то же время сильный и универсальный алгоритм поведения в такой игре.

Литература:
Филип Болл. Критическая масса
Robert Axelrod. The evolution of cooperation (англ.)

Ссылки:
www.sci.brooklyn.cuny.edu/~sklar/teaching/f05/alife/notes/azhar-ipd-Oct19th.pdf (англ.)
www.ncbi.nlm.nih.gov/pmc/articles/PMC2460568/ (англ.)
www.prisoners-dilemma.com/ (англ.)

Автор: ks0

Источник

* - обязательные к заполнению поля


https://ajax.googleapis.com/ajax/libs/jquery/3.4.1/jquery.min.js