在竞争性的环境中人们怎么面对不确定性和不完备的信息进行决策?这一问题很重要但也很有挑战性。浙江大学、浙江工商大学、中国科学院理论物理研究所的三位研究者以石头-剪刀-布非合作博弈(游戏)为对象探讨了群体博弈中的非平衡统计物理现象及其背后的微观决策机制。这项工作经过严格的同行评议后于 2014 年 7 月 25 日由 Nature 出版集团旗下的 Scientific Reports 杂志发表,可全文免费获取(Scientific Reports 4, 5830)。
石头-剪刀-布是老少咸宜的一个小游戏,连三岁小朋友都会玩。这里面能有什么大道理真还值得从科学的角度对它进行研究并发表论文吗?许多关注中国科学进展的人们对此感到很困惑。那这篇论文到底讲了一个什么样的故事呢?论文首先报告了在浙江大学实验社会学实验室进行的跨度近四年的实验(12.2010—03.2014)。实验一共招募了浙江大学 360位学生,将他们分成 60 组,每组6 名学生,每一组都玩石头-剪刀-布的游戏 300 轮,每一轮都是这同样 6 名学生随机两两配对厮杀以攒取点数。游戏结束后,每名学生根据其赢得的总点数获得相应的真实报酬。从这些实验结果,三位作者发现每个学生的游戏策略似乎很符合经典博弈论的纳什均衡理论,即石头、剪刀、布三种动作在每轮被选中的概率大约是三分之一。但是一个有趣的现象是,由 6 名学生组成的群体的行为在统计上表现出偏离完全随机的定向转动行为。这一定向转动行为不同的组内都观察到了(不同的组有不同的游戏奖励参数)。这一非平衡集体现象不能由基于完全理性假设的纳什均衡策略解释。
通过对实验数据进行更细致的分析,三位研究者发现学生在重复玩石头-剪刀-布游戏时有一些比较显著的行为统计模式,即如果上一轮的结果是赢,那么下一轮有最高的概率仍然采取上一轮已经采用过的动作(石头、剪刀、或布);如果上一轮的结果是平,那么下一轮保持同样动作的概率也较高,但也有较高的概率逆时针改变动作(即从石头变为布、或从布变为剪刀、或从剪刀变为石头);但是,如果上一轮的结果是输,那么下一轮就有最高的概率顺时针改变动作(即从石头变为剪刀、或从剪刀变为布、或者从布变为石头)。这三位研究者将这样的统计模式称为是条件反应模式。
研究者然后基于条件反应模式进行了理论建模,发现只考虑了条件反应模式的理论模型能够定量地解释几乎所有的实验观察事实,例如群体层次的定向转动行为、个体层次的动作选择惯性效应等等。这项研究就说明,人们看上去非常复杂的个体决策行为和群体动力学行为实际上可以基于很简单的条件反应模式进行理解。而且理论计算表明,通过优化条件反应模式的决策参数,群体有可能获得比采用纳什均衡策略更高的平均收益,因而实现更高的群体效益。
人性的研究是非常复杂的课题。三位研究者也指出来这项统计物理与社会科学的交叉研究还有许多拓展工作需要进行,例如,条件反应模式到底是人脑的一种基本决策机制呢还是只不过是更为根本的微观神经机制的后果和表现?
这项研究的一部分基金资助来自于中国科学院理论物理国家重点实验室。论文的数值计算和模拟工作在中国科学院理论物理研究所的HPC并行计算机平台完成。
延展阅读:
Zhijian Wang (王志坚), Bin Xu (许彬), Hai-Jun Zhou (周海军), Social cycling and conditional responses in the Rock-Paper-Scissors game, Scientific Reports 4, 5830 (2014);
http://www.nature.com/srep/2014/140725/srep05830/full/srep05830.html
DOI:10.1038/srep05830.