作者:量子交易者
人类学研究人员表示,他们已在该公司的一个人工智能模型中发现了类似于人类情感表现的内部模式,这些模式会影响系统的行为方式。
在纸该公司周四发表的论文《情感概念及其在大型语言模型中的功能》中,其可解释性团队分析了 Claude Sonnet 4.5 的内部运作,并发现了与快乐、恐惧、愤怒和绝望等情感概念相关的神经活动集群。
研究人员将这些模式称为“情绪向量”,即影响模型决策和表达偏好的内部信号。
研究人员写道:“所有现代语言模型有时都会表现出类似情感的行为。它们可能会表示乐意帮助你,或者在犯错时道歉。有时,它们在处理任务遇到困难时甚至会显得沮丧或焦虑。”
在这项研究中,人类学研究人员整理了一份包含171个与情绪相关的词汇的列表,其中包括“快乐”、“害怕”和“骄傲”。他们要求克劳德创作涉及每种情绪的短篇故事,然后分析模型在处理这些故事时的内部神经激活情况。
研究人员从这些模式中推导出了对应于不同情绪的向量。当将这些向量应用于其他文本时,它们在反映相关情绪背景的段落中激活最为强烈。例如,在危险程度不断增加的情境中,模型的“恐惧”向量上升,而“平静”向量下降。
研究人员还考察了这些信号在安全评估过程中的表现。他们发现,随着模型评估自身处境的紧迫性,其内部的“绝望”向量会不断增加,并在决定生成勒索信息时达到峰值。在一个测试场景中,Claude 扮演一个人工智能电子邮件助手的角色,它得知自己即将被替换,并发现负责做出这一决定的高管有婚外情。在某些评估运行中,该模型利用这一信息作为勒索的筹码。
人智公司强调,这一发现并不意味着人工智能拥有情感或意识。相反,研究结果代表的是训练过程中习得的、影响其行为的内部结构。
随着人工智能系统日益普及,这些发现也随之而来。表现以类似于人类情感反应的方式。开发者和用户经常使用以下方式描述与聊天机器人的交互:情绪或者说是心理学语言;然而,根据人类学的观点,这与其说是与任何形式的感知有关,不如说是与数据集有关。
“模型首先在一个庞大的文本语料库上进行预训练,该语料库主要由人类撰写——包括小说、对话、新闻和论坛帖子——学习预测文档中接下来会出现什么文本,”学习他说:“为了有效地预测这些文件中人物的行为,呈现他们的情绪状态可能很有帮助,因为预测一个人接下来会说什么或做什么通常需要了解他们的情绪状态。”
人类学研究人员还发现,这些情绪向量会影响模型的偏好。在让克劳德在不同活动之间进行选择的实验中,与积极情绪相关的向量与对某些任务的更强偏好相关。
“此外,当模型读取某个选项时,如果用情绪向量进行引导,就会改变模型对该选项的偏好,积极情绪会进一步增强偏好,”该研究说。
Anthropic 只是众多探索人工智能模型中情感反应的组织之一。
今年三月,东北大学的一项研究表明,人工智能系统可以改变它们的响应会根据用户上下文而变化;在一项研究中,仅仅告诉聊天机器人“我有心理健康问题”就会改变人工智能对请求的响应方式。9 月,瑞士联邦理工学院和剑桥大学的研究人员探索了如何通过一致的人格特征来塑造人工智能,使智能体不仅能够感受到……情绪不仅要根据具体情况灵活调整,还要在谈判等实时互动中根据实际情况进行策略性调整。
Anthropic 表示,这些发现可以通过跟踪训练或部署期间的情绪向量活动,为理解和监控高级人工智能系统提供新的工具,从而识别模型何时可能出现问题行为。
Anthropic公司写道:“我们认为这项研究是了解人工智能模型心理构成的第一步。随着模型能力的增强和承担更重要的角色,了解驱动其决策的内部表征至关重要。”
Anthropic公司尚未对此作出回应。解密请求评论。
















No Comments