古德哈特的帝国

主张1：古德定律是正确的。

古德哈特定律（其名称得当得令人难以置信）读为：“任何成为度量标准的度量都不再是一个好度量。”另一种说法是“代理是不安全的”，即代理永远不会完全让您了解其意图明白。

如果您希望能够区分有前途的数学学生和不太有前途的数学学生，则可以尝试一系列问题和挑战，直到完成对100名最好的学生的测验（由其他评估，例如老师的评分所确定）做得好，接下来的900个做得更好。但是，一旦您对该测试进行了测试，它将开始泄漏。在第十批的一千名学生中，最好的100名学生仍然会做得很好，但是您也会得到一堆没有通用数学技能但确实能很好地回答特定的，已知的人的人。问题。您的前100名将不再仅由100名实际最好的数学学生组成，而且随着时间的流逝，它只会变得越来越糟。

这类似于西方饮食和糖的情况。史前的灵长类动物碰巧偏爱甜食（水果），也碰巧获得了更多的维生素和矿物质，因此它们比那些不能成为我们祖先而灭绝的糖类灵长类灵长类动物存活和繁衍的速度更高。自然选择的过程将营养（甜度）的度量标准转换为度量标准 （具有甜食/隐含的硬糖假设，即更多的糖→更多的效用），直到我们学会将糖与营养物分离（教导到测试），发现我们的偏好与代理（而非实际好东西）硬连线。

权利要求2：当尝试以给定的奖励或惩罚进行操作性调节时，对于任何所需的条件强度效应，∃（“存在”）在行为和结果之间产生足够小的延迟，以产生该效果。

从字面上看，这不是真的。为了使它成为真的，贴现的双曲线性质（例如，更紧密的奖励在创建强化方面成比例地更有效）将不得不延伸到荒谬的地方，使得无穷小的奖励或响应可以产生任意大的调节效应。紧跟相关行为，如果是真的话，那么点击器训练（在这种情况下，您将使用与零食，称赞和其他奖励相关的点击声音向狗发出信号，表明您喜欢它刚刚所做的事情）增强了翻滚的远距离行为，但会增强诸如喀哒声在点击声波到达狗的耳朵之前的最后眨眼之类的效果。

但是，我认为这是正确的，对于短暂的想法或情感转变来说，酬劳小到百分之一秒。如果我想要一种抗Oreo调理效果，这种效果像吃奥利奥时获得的愉悦感一样强 ，即使思想产生的刺激很小，我也可以得到它-只要该思想迅速出现。

（这实际上就是为什么要对单击器进行培训的原因 -因为从字面上看，您提供的治疗方法不能足够快地产生效果，您可以通过音频通道提供的更为紧密的反馈循环来获得这种效果。如果您可以单击给狗一个积极的奖励，那么，比起扔奶酪块，您最好不要点击。）

（有关为什么双曲线贴现的提示，请考虑定位和确认行为＃736与直到行为＃755之后才出现的奖励之间的因果关系所需的数据位，与需要确信的位相比奖励仅在以后出现一两个行为时显示的链接。）

权利要求3：我们的S1将大量的感官数据汇总并分析为隐式因果模型，当我们遇到新的刺激时，这些因果模型会根据这些刺激是否会（根据那些模型）生成二元避免方法信号。帮助或伤害：实现我们的目标。

我认为这就是CFAR讲师Anna Salamon在谈到“口味”时所追求的。想像一下一位资深医生，在其漫长的职业生涯中，他追逐了数百种令人困惑，混杂或迄今未知的疾病的解释。在调查一千个假设时，可能有100个提出了建议，有800个导致了砖墙，还有100个仍然没有定论。他们大脑中建立并维持丰富的内部模型的部分（悄悄地在引擎盖下）画出了这些研究之间的联系，并指出了成功的研究与不成功的研究具有的共同之处。共同。当我们的医生遇到新患者并开始调查时，他们的系统的某些部分进行了快速的比较-这条新的研究线“感觉”还是“类似于”那些先前得到回报的研究，或者使人联想到那些以失败告终的人？

这些信息被压缩成一个快速的“是或否”，“好或坏”，“接近或避免”的信号-直觉的厄运或乐观，兴趣或不感兴趣。如果有很多相关经验，而新情况与旧情况属于同一类，那么这种感觉可能是非常准确和有价值的，即所谓的味觉，直觉或第二天性 ，即使很少训练数据，这种感觉仍然可以提供有用的见解。

主张4：我们的大脑经常使我们处于不适状态，而我们却没有注意到。

简而言之：已经有一些猴子的研究，他们的大脑被连接到探测器上，猴子的吸管可以将果汁喷到嘴里。当这些猴子表现出理想的行为时，科学家会给他们喝些果汁，探测器会记录多巴胺尖峰。

但是，过了一会儿，多巴胺峰迁移了。 它与“胜利！”屏幕相关联，每当猴子表现出预期的行为时，科学家就会闪烁，就像狗开始将点击与对待和其他奖励相关联一样。

暂停一下，让自己感到困惑。不要掩饰这一点。

什么。的。哎呀

多巴胺峰值移动？ 怎么样？为什么？

我声称发生了什么事，就是猴子的大脑与猴子/猴子的S2 /猴子分开的任何智能或战略意识都在调理猴子。请记住，一个能够从其环境中学习并有意义地更新该学习的系统比没有该系统的人更有可能生存和发展，因此有意义的是猴子具有适当的功能性适应性过程来塑造自己的猴子行为。

基本上，猴子的大脑可以访问a）大量数据，以及b）以愉悦和疼痛反应的形式出现。大脑坐在那里，想知道它如何使这只猴子执行适应性行为，就像人类坐在那里想知道它如何使这只狗翻来覆去。大脑具有一个模型，该什么样的行为将导致成功和蓬勃发展，就像人类具有一个可爱的小狗行为的模型一样。

而且，大脑知道，只要高兴一下，猴子就更有可能重复刚刚尝试的动作。

（实际上比这更微妙的是-眶额皮层释放多巴胺，它充当神经反应模式的“再次执行”按钮。简而言之，当OFC采取适应性模式时，它会释放多巴胺以告知任何信息神经元以相同的模式再次发射。）

导致汁液的事物被硬连接以产生愉悦感，从而增强了寻求汁液的行为。但是随后大脑慢慢开始注意到胜利屏幕和果汁之间没有决策树节点-屏幕闪烁后，果汁就不可避免。

因此，相关行为必须更进一步。 大脑开始增强胜利的画面，作为果汁的替代品（果汁本身是卡路里和微量营养素的原始替代品）。每当胜利屏幕出现时，猴子都会被自己的大脑所奖励，因此它更有可能做刚出现屏幕之前所做的任何事情。所有这一切都发生在猴子有意识的关注之下-它所知道的是它喜欢果汁，喜欢快乐，并且做过以前导致果汁和幸福的事情。最终，猴子的大脑开始向更远的地方奖励行为（尽管可能会有一点轻柔的预期兴奋感，而不是愉悦的刺激感）：游戏动作导致胜利画面，果汁导致幸福。

结论：根据过去的经验，您的大脑总是在不知不觉中一直在使您适应代理，这些代理根据过去的经验可能会使您更接近目标而不是远离目标。 此外，通过权利要求2和3的组合，这种调节是有效的-它实际上在一定程度上影响了行为。

糟糕的推论：由于代理总是漏洞百出，因此您的大脑正在调节您的错误。

恰当的例子：假设我正在减肥（这只是另一个代理），我决定每天称自己体重，因为所测量的东西得到控制（公顷）。我的大脑不是很聪明，只是隐含的聪明，就在我这边。 慢慢地，人们开始认识到高等级数字=不好，而低等级数字=好的，并决定尽一切可能使用该信息及其向我发送内脏信号的能力。

但是我经历了一些大规模的计算日，并且因为人类是规避风险和规避损失的，所以那些大规模的计算日伤害非常严重，并且在优先级列表中得到了提高。因此，我的大脑正坐在那儿，有两个镜像目标，可以最大限度地暴露于小数位数，而最大程度地避免暴露于大数位数，并且它并不真正知道该怎么做，但可以肯定的是，赫克可以为后者做些什么，无论如何，这似乎更为紧急。

因此，我瞥了一眼浴室磅秤，而且-通常水平太低而无法引起我的有意识的注意-我的大脑为我提供了一个有用的“感觉”，这不利于我刚才做的扫视。而且由于the是近乎瞬时的，所以它起作用了 （请参阅权利要求1）。经过几次迭代，我成功地适应了开发一个大的盲点的地方，我的浴室秤在那里，这样我什至都不再注意到它了（而且常常这样，我什至根本没有注意到我没有注意）。

如果幸运的话，最终我的思想思路就会消失，我的真实目标会浮现在脑海中，我意识到正在发生的事情，我说“谢谢你的努力，大脑”（因为这确实是做英勇的工作；不要因为弄错一点而动脑筋，因为猜想， 殴打更像是在注意，而不是在实际上试图消除激励的犯错，考虑一下影响（aahahhhhhhhhhh） ，然后我快速思考应该采取的激励措施，并尝试朝正确的方向进行S1转换。

但是，如果我不走运，那将永远成为我盲点的一部分。

（注意：所有这一切的认知状态都是暂时的，但是即使您对每个主张仅分配了70％的置信度（这似乎是合理的），而对纯粹怀疑论的推理却分配了50％的打击，天真地将其乘以如果所有主张都是独立的，那么仍然有12％的机会让您的大脑对您这样做，这似乎至少值得花几个周期来尝试思考和缓解这种情况。）