老鼠用最初的奖励换取长期的学习机会

2023-02-15 20:14:27 来源：用户：

科学家们为大鼠学习的认知控制提供了证据，表明他们可以估计学习的长期价值，并调整他们的决策策略以利用学习机会。

研究结果表明，通过更长时间做出决定，老鼠可能会牺牲即时奖励来提高他们的学习成果，并在整个任务过程中获得更大的奖励。结果今天发表在eLife上。

行为神经科学的一个既定原则是速度 - 准确性权衡，这在许多物种中都可以看到，从啮齿动物到灵长类动物。该原则描述了个人愿意缓慢反应和犯更少错误与他们愿意快速反应并冒着犯更多错误的风险之间的关系。

“这一领域的许多研究都集中在速度 - 准确性权衡上，而没有考虑学习成果，”主要作者Javier Masís说，他当时是美国哈佛大学分子和细胞生物学系和脑科学中心的博士生，现在是普林斯顿大学普林斯顿神经科学研究所的总统博士后研究员，美国“我们的目标是调查当你有可能通过学习改善你的行为时存在的困难的跨期选择问题。

在他们的研究中，Masís及其同事试图首先确定大鼠是否能够解决速度 - 精度权衡。研究小组设置了一个实验，大鼠在看到两个大小和旋转可能不同的视觉物体之一时，决定视觉物体是对应于左反应还是右反应，并在决定后舔相应的触摸敏感端口。如果老鼠舔了正确的端口，它们就会得到水的奖励，如果它们舔错了端口，它们就会被超时。

研究小组在这些试验中使用漂移扩散模型(DDM)研究了错误率(ER)和反应时间(RT)之间的关系 - 这是心理学和神经科学中的标准决策模型，其中决策者随着时间的推移积累证据，直到一种替代方案的证据水平达到阈值。

受试者的阈值水平控制速度-精度的权衡。使用低阈值可产生快速但容易出错的响应，而使用高阈值可产生缓慢但准确的响应。但是，对于每个难度级别，都有一个最佳阈值可以设置，以最佳平衡速度和准确性，从而使决策者能够最大化其瞬时奖励率(iRR)。在困难中，这种行为可以通过ER和RT之间的关系来概括，称为最佳性能曲线(OPC)。在充分学习了这项任务后，超过一半的训练大鼠达到了OPC，这表明训练有素的大鼠解决了速度 - 精度权衡。

然而，在训练开始时，所有大鼠都放弃了超过20%的iRR，而到最后，大多数大鼠几乎以最佳方式最大化了iRR。这就提出了一个问题：如果老鼠在学习结束时最大化即时奖励，那么在学习开始时，是什么控制了它们的策略?

为了回答这个问题，该团队将DDM改编为可以随时间学习的递归神经网络(RNN)，并开发了学习漂移扩散模型(LDDM)，使他们能够研究许多试验中的长期感知学习如何受到单个试验决策时间选择的影响。

该模型的设计考虑到了简单性，以突出学习速度和决策策略之间的关键定性权衡。该模型的分析表明，大鼠采用一种“非贪婪”策略，以初始奖励为代价，优先考虑学习，从而在任务过程中最大化总奖励。他们还证明，在实验和模拟环境中，更长的初始反应时间会导致更快的学习和更高的奖励。

作者呼吁进一步研究以巩固这些发现。目前的研究受到使用DDM来估计改进学习的限制。DDM，因此LDDM，是一个简单的模型，是一个强大的理论工具，用于理解可以在实验室中研究的特定类型的简单选择行为，但它不能定量描述更自然的决策行为。此外，该研究侧重于一项视觉感知任务;因此，作者鼓励进一步研究其他可学习的任务，跨越困难，感觉模式和生物体。

“我们的研究结果通过表明感知决策行为受到快速学习的严格要求的强烈影响，为速度 - 准确性权衡提供了新的观点，”资深作者Andrew Saxe说，他曾是英国牛津大学实验心理学系的博士后研究助理，现在是亨利戴尔爵士研究员和盖茨比计算单元和塞恩斯伯里威康中心的副教授，英国伦敦大学学院。

“我们的研究提出的一个关键原则，”哈维尔·马西斯解释说，“是自然主体考虑到他们可以通过学习提高的事实，并且他们可以通过他们的选择来塑造这种进步的速度。我们生活的世界不仅是非静止的;我们也是非静止的，当我们在世界各地做出选择时，我们会考虑到这一点。

“你不会通过偶尔在琴键上摸索来学习钢琴，”萨克斯补充道。“你决定练习，你以牺牲其他更直接有益的活动为代价进行练习，因为你知道你会进步，最终可能是值得的。

　　免责声明：本文由用户上传，与本网站立场无关。财经信息仅供读者参考，并不构成投资建议。投资者据此操作，风险自担。如有侵权请联系删除！