(资料图)

当结果不确定时,人类如何做出决定?一种可能的方法是通过将每个可能的结果数量乘以其概率来计算每个选项的期望值,然后选择具有最高期望值的选项。 虽然这种策略会最大化预期收益,但这并不是人们倾向于做的。 特别是,人们在做出后续选择时似乎会受到过去决策结果的非理性影响。

筑波大学的研究人员开发并验证了一个模型(“动态前景理论”),该模型整合了行为经济学中最流行的模型来描述不确定性下的决策——前景理论,以及一个成熟的神经科学学习模型—— 强化学习理论。 与单独的前景理论或强化学习理论相比,该模型更准确地描述了人和猴子在面临风险时做出的决定。

具体来说,研究人员要求 70 人在两张彩票中反复选择他们能以一定概率获得某种奖励的彩票。 彩票的奖励大小、中奖概率以及所涉及的风险大小各不相同。 结果表明,在经历了大于所选选项的预期值的结果后,参与者立即表现得好像在下一次彩票中获胜的可能性增加了。

该研究的资深作者助理教授 Hiroshi Yamada 说:“这种行为令人惊讶,因为向参与者清楚地描述了获胜概率(参与者不必从经验中学习),而且这些概率也完全独立于以前的结果。”

使用他们的动态前景理论模型,研究人员能够确定行为的变化是由概率感知的变化驱动的,而不是由奖励估值的变化驱动的。

Yamada 还说:“这种从意外事件中学习的方法是强化学习理论的基础,是一种众所周知的算法,当人们需要从经验中学习奖励时就会出现这种算法。 有趣的是,即使不需要学习,它也会发生。”

在对大脑与人类大脑非常相似的猕猴进行的类似实验中,观察到的结果基本相同。 研究人员评论说,在这项研究中,人类和猴子的行为非常相似。

根据这项研究的结果,预计对猴子大脑的调查将有助于了解我们所有人在做出风险决定时所使用的奖赏和概率感知所涉及的大脑机制,以及快乐 当我们成功时,我们会感觉到。

关键词: