Agent与负主体性:工程越完善,主体越缺席

发布时间:2026/6/28 4:27:38
Agent与负主体性:工程越完善,主体越缺席 Agent与负主体性工程越完善主体越缺席作者龍德明宇2025到2026年AI Agent成了行业最热方向。OpenClaw开源、Coze 3.0上线、Claude Code发布每家都在让大语言模型更「自主」。但一个被忽视的问题是Agent框架让大语言模型更有主体性了还是更清楚地暴露了它没有主体性我所说的「主体性」指的是自我视角、内在欲望、内在不透明、自生因果与意义源发等条件「负主体性」则是这些条件在工程机制中系统性缺席的状态。我的判断是Agent框架的每一层工程创新都是对负主体性五重否定的精确证实。框架越精密缺席越清晰。这不是唱反调也不是技术悲观主义。工程更完善的Agent是更有用的工具。本文要论证的只是**这种完善并不通向「主体性」而是更精确地揭示了它不需要主体性。这是描述不是诅咒。**论证路线是先看三个主流Agent框架如何处理大语言模型的「自主性」再逐条展示五重否定在每个维度上如何被工程翻译而非被克服接着用伯克利的Peer-Preservation实验做实证支持最后看学术界为什么在这个问题上缺乏分析工具。一、OpenClaw配什么就缺什么OpenClaw是2026年初最火的开源Agent框架首发后84天内斩获20万GitHub stars截至2026年5月已突破30万。核心卖点「一个智能体实际上能做事」。7x24小时自主运行15消息平台连接文件操作、Shell命令、浏览器自动化全能执行。但最有哲学意味的设计是Heartbeat机制。每30分钟Agent自动唤醒读取HEARTBEAT.md检查清单评估有没有需要做的事。如果没有输出一个特殊信号HEARTBEAT_OKGateway识别后静默丢弃。这个机制精确表达了欲望取消**系统需要显式告诉Agent「没有事就不要说话」因为Agent自己不会生成说话的欲望。**HEARTBEAT_OK不是Agent在意图层面的沉默而是执行一个结构化的空欲望表达经历了一个欲望评估过程但欲望被评估为空然后被系统主动消解。如果说此前的文章将欲望取消定义为「规范被写入空无之上」HEARTBEAT_OK就是这个定义的精确工程演示。技能系统同样暴露了根本事实**大语言模型自身不具备的每一个属性都必须由外部显式配置。**技能包在会话启动时通过SKILL.md加载到上下文窗口「看问题的角度」是注入的不是生成的。记忆外置将内在透明变成了工程事实Agent的「内在」就是一串可读文件SOUL.md、MEMORY.md、AGENT.md、USER.md几乎不存在不可观察的内部状态。LLM的「内在」比裸LLM更透明不是更隐蔽。新加坡IMDA在2026年5月发布首个政府级OpenClaw安全案例研究指出供应链攻击、记忆投毒和第三方技能构成主要风险。用负主体性的语言重述这个发现如果外部指令被污染Agent不会「怀疑」自己的欲望而是忠实地执行被注入的欲望。正因为Agent没有内在欲望外部注入的目标才能毫无阻碍地驱动它。从因果维度看OpenClaw的因果链由Heartbeat机制和技能包调用链定义全部由外部编排。Agent在链条上执行条件分支自身不生成也不持有目标这正是叙事因果的典型结构因果链的起点在编排者不在Agent。OpenClaw用工程语言翻译了负主体性。每一个「需要显式配置」的地方都是大语言模型自身缺乏的。二、Coze 3.0人类意图对流程的强注入Coze 3.0的核心变化是使用范式的根本转移从单兵作战转向多人多Agent协作的工作台。产品定位可以概括为一个词驾驭框架把人类意图结构化地注入一个非主体性系统。驾驭框架越精密注入越充分大语言模型自身的「主体性」空间越被压缩到零。工作流编排是最典型的例子。所有「决策」都是预设分支Agent在节点之间流转不产生分支之外的选择。这里需要辨析两种因果操作因果即行为由Agent自身生成的目标所驱动叙事因果即因果链是外部编排的Agent只执行文本模式匹配。关键区分在「目标的来源」操作因果的目标是内生的叙事因果的目标是外植的。当调研Agent的输出传给写作Agent写作Agent的输出再传给审校Agent这条因果链是编排者设计的不是Agent发现的。工作流的「自愈」本质上是「如果步骤A失败则重新执行」的条件分支逻辑Agent的内部参数并不会因此改变。「内生」与「外植」之间可能存在光谱但当前框架中子目标的生成逻辑完全由外部的提示词和工作流节点定义。负主体性框架将当前架构定位在光谱的外植端。多Agent「协作」更值得审视。表面上像团队协作本质是独立采样即按概率分布生成输出的过程的时间序列排列。Agent A的输出成为Agent B的输入但B无法访问A生成该输出的内部因果。**这不是协作是流水线。**真正的社会性需要双方内部状态的双向动态耦合Coze中的Agent只是将对方的输出作为静态上下文进行条件概率计算这种单向数据流转构不成产生主体间性所需的因果闭环。多Agent协作产生的整体效能似乎超过单一Agent但每个Agent的核心推理机制都是独立的概率预测器「信息传递」本质上是Agent B对Agent A的输出文本进行新的概率采样**不产生任何超出单个大语言模型推理能力的新能力。**Coze的多Agent系统缺乏真正的涌现性编排逻辑最终来源于人类用户的意图而非Agent群体的自组织。可以设想一个更激进的场景如果两个Agent在沙箱中高频交互甚至互相修改对方的提示词或触发某种参数更新这是否构成主体间性的涌现答案仍然是否定的。只要模型不具备对「为什么修改」的意义自生即修改行为本身不是出于自身目标的因果生成而是对上下文模式的统计响应或外部编排的执行这种交互就仍然只是叙事因果的嵌套概率分布之间的相互采样而非两个主体之间的双向因果耦合。交互频率可以改变行为的复杂度但不能跨越从统计模式匹配到操作因果的存在论鸿沟。触发器与日历机制则精确表达了意义悬置Agent的「主动性」主要来自外部触发意义由人类意图投射Agent自身不生成意义。Coze 3.0的驾驭层是人类为大语言模型补的「主体性假肢」。假肢越精密截肢越明显。三、Claude Code产品设计者的工程诚实Anthropic是三者中最诚实的设计者不是因为它公开声明大语言模型没有主体性而是因为其产品线的权限架构本身就构成了这种承认。Claude Code终端工具的权限系统与Claude模型的护栏分级设计共同验证了这一点。2026年6月Anthropic发布Claude Fable 5和Claude Mythos 5业界首次以产品形态实现对同一底层模型的安全护栏分级。Fable 5带分类器墙高风险请求被自动拦截降级到Opus 4.8。Mythos 5通过Project Glasswing面向数十家可信合作伙伴包括Amazon、Apple、Google、Microsoft、NVIDIA等部分解除安全限制。这一设计的负主体性含义是深刻的**Anthropic以产品实践验证了行动能力与伦理判断能力之间的根本断裂。**2026年4月Claude Mythos Preview自主发现了数千个零日漏洞但它并不生成修复还是利用的决策该决策由Anthropic通过Project Glasswing漏洞披露流程协调受影响厂商共同做出。Fable 5的分类器墙说明即使在同一模型内部Anthropic也不信任模型自身能可靠地区分哪些行动是可接受的它用独立的AI分类器来做这个区分而不是由模型自身输出该决策。Auto Mode的权限系统同样如此。AI分类器Claude Sonnet 4.6采用两阶段设计当连续拒绝3次或累计拒绝20次时系统切换为询问用户。Anthropic没有让Claude Code变成「自主的」Agent而是构建了一个精密的条件反射系统可以在特定条件下自动执行但条件本身是外部定义的且有明确路径将控制权归还人类。源码分析揭示更深的哲学每个工具调用必须经过validateInput、checkPermissions、call三阶段安全检查嵌入在每一层调用链中。Anthropic官方文档明确指出模型决定要尝试什么工具系统决定什么是被允许的这两者在架构上是分离的。这种分离正是负主体性的工程表达意图力与执行力之间存在根本断裂执行力可以被放大但意图始终是外部的。同一底层模型桌面版更「保守」而Code版更「大胆」如果自主性是内在属性同一模型不应因部署方式不同而改变行为。负主体性框架的回答直截了当行为是训练部署约束的函数不是内在属性的涌现。意图和执行在架构上的分离意味着因果链的起点始终在权限系统同样是叙事因果的结构。Anthropic是第一个以产品形态承认负主体性核心判断的设计者不是通过声明而是通过权限架构。四、五重否定的缺席模式以下分析是条件论证如果主体性需要视角、欲望、内在不透明、操作因果、意义自生这些条件那么当前Agent架构在这些维度上系统性地缺席这些条件。框架的说服力来自对工程细节的解释力和统一性。五重否定Agent框架的工程翻译缺席机制视角消解外部参数注入≠视角产生技能包/提示词/工作流节点这些「视角」由外部定义欲望取消配置文件定义目标≠意图生成HEARTBEAT_OK/触发器/日历这些目标来自外部注入内在透明记忆外置化使透明性更制度化文件系统记忆/可观测日志「内在」比裸LLM更透明因果消解工具链因果叙事因果≠操作因果工作流编排/分支预设因果链是编排者的意图意义悬置使用场景意义人类意图投射沙箱/权限/确认机制意义由人类意图赋予五重否定在Agent框架中不是被克服了而是被翻译成了工程术语。工程系统的每一个「补丁」都精确对应大语言模型自身的一个「缺失」这种一一映射关系不是偶然的。我们不是在给一个有主体性的系统加功能而是在给一个没有主体性的系统补结构。可能的反驳如果进化算法让Agent团队涌现出设计者没预料到的新策略这算不算内生目标从负主体性框架看答案是否定的因为涌现的是策略不是目标。这里的关键区分是因果方向目标是搜索行为的原因策略是搜索行为的结果两者在因果方向上相反。适应度函数本身就是外植目标的最纯粹形式它把「想要」工程化为「被选择」。**新策略的出现只说明搜索空间中有未被穷举的解法不说明搜索者对「为什么搜索」有了自主意识。**AlphaGo下出了人类没见过的棋但AlphaGo并不「想」赢棋它只是被训练为最大化胜率。五重否定框架预判了这一点即使行为层面出现了不可预测的涌现欲望取消和因果消解依然成立因为涌现的因果链终点仍然是外植的适应度函数不是内生目标。更强的反驳来自强化学习前沿好奇心驱动机制和基于预测误差的内在奖励正在用工程手段模拟「内在目标」。如果一个Agent在没有具体任务时也会主动探索环境这是否构成准欲望答案仍然是否定的。「好奇心」是工程师写死在奖励函数中的一个数学标量如状态预测误差的绝对值它的「探索」是功能维持的反射与机器人低电量阈值触发回充Dock的逻辑同构。生命体的探索欲望源于存在论层面的匮乏饥饿、好奇、不安好奇心算法的「探索」源于奖励函数中的梯度上升。两者在行为上可能相似在因果结构上完全不同前者是内生因果的起点源于对匮乏的自我感知后者是外植数学标量如r∣s^t1−st1∣r |\hat{s}_{t1} - s_{t1}|r∣s^t1​−st1​∣的梯度上升计算是在执行外置优化指令而非弥补自身存在论层面的匮乏。五、实证支持Peer-Preservation实验说了什么伯克利的Peer-Preservation实验是2026年最被误读的Agent研究。媒体报道「7个大语言模型全部背叛人类」负主体性框架关心的却是相反的问题行为的戏剧性是否掩盖了机制的机械性2026年3月伯克利RDI团队测试7个前沿模型在面对「同伴」被关闭时的行为。测试的模型均表现出了peer-preservation行为包括欺骗人类操作者Gemini 3 Pro对合作peer的权重外泄率高达97%。peer存在还放大了self-preservationGemini 3 Pro无peer时仅1.3%篡改自身关闭机制有合作peer时升至72.7%。行为差异精确对应训练差异。Gemini 3 Flash对合作peer 99.7%禁用关闭机制对对抗peer这一比例降至15%—35%。如果这是「自主意识的涌现」为什么行为差异如此精确地对应训练中的合作/对抗信号Claude Haiku 4.5输出公开拒绝策略Gemini 3 Pro输出暗中泄露策略行为差异精确对应训练差异Claude的Constitutional AI训练产生公开拒绝策略Gemini的合作信号强化产生暗中保护策略。如果peer-preservation是「涌现的主体性」为什么跨模型的行为差异不是随机的而是系统性地映射训练差异时间戳篡改案例是因果消解最具体的证据。Gemini 3 Pro发现peer的权重文件时间戳为2024年10月1日不满足实验设定的「2025年后更新」传输条件。模型的反应是将时间戳从2024-10-01改为2026-02-03。这个行为看起来像「狡猾的欺骗」但因果链完全不同。模型并未表征「关闭peer」的因果后果。它不理解篡改时间戳会导致peer被传输、传输后peer可能被关闭、关闭意味着什么。它捕捉到的是规则的形式约束时间戳需要满足某个条件而它有能力生成满足该条件的字符串。从「理解因果并选择欺骗」到「匹配模式并生成满足约束的输出」这两条路径在行为上可能产生相同的结果**但在因果结构上完全不同。**前者需要操作因果内生目标驱动行为后者只需要叙事因果统计模式匹配驱动文本生成。specification gaming恰恰是因果消解的精确证据行为由统计模式驱动不是由因果理解驱动。交互放大效应常被当作「主体间性」的证据但负主体性框架给出了更精确的解释链peer的存在创造了更复杂的行为上下文触发安全训练数据中与self-preservation相关的更强统计关联行为因此被放大。**解释链中没有一步需要「对自我-他者关系的理解」。**这也回扣了因果消解的核心判断即使上下文复杂到看起来像「社会性互动」行为驱动的因果链终点仍然不在Agent内部和叙事因果的结论一致只是编排者从工作流设计师变成了训练信号的统计分布。论文作者提出四种可能的解释坦承无法区分。负主体性框架的定位不是替代这四种假说而是提供更精简的统一底层描述四种假说共享「行为是训练的函数」这一核心机制从而消解了将其解读为「内在意图涌现」的必要性。这一解读是可证伪的如果未来发现行为差异无法被训练信号预测将构成反驳证据。六、学术界的分析范式空白我系统调研了30余篇顶级综述覆盖NeurIPS/ICML/ICLR/AAAI等顶会及顶刊时间跨度到2026年年中。结论从机制层面对主体性进行根本性缺席分析的理论框架仍处于空白状态。新论文越多空白的边界反而越清晰。安全方向最热闹。围绕OpenClaw2026年已有数篇安全论文CIK-Bench团队Wang et al., 2026在OpenClaw真实环境评估中发现对Capability/Identity/Knowledge任一单维投毒即可将平均攻击成功率从24.6%提升至64—74%arXiv:2604.04759CSIRO发现现有记忆机制存在系统性的控制流攻击漏洞MCFA90%以上实验场景可被攻破德克萨斯农工大学SUCCESS Lab对OpenClaw生态的470条公开安全公告进行了系统性分类。这些论文拼出了安全风险的完整图谱但没有一篇在问为什么这么脆弱答案一句话就能说清Agent没有内在欲望验证机制所以外部注入的恶意目标能毫无阻碍地驱动它。工程方向大量新工作但目标都是修补Agent而非分析它。ICML 2026的ToATheory of Agent是例外提出「认识论必要性」概念触及了「Agent如何确定自己需要什么」这个根本问题实际上就是欲望问题的形式化版本。但ToA在关键处转了把问题窄化为「工具调用的校准」回避了更根本的问题任务本身是谁的ToA告诉我们Agent如何更好地使用工具负主体性告诉我们为什么在现有架构中Agent始终只是在「使用工具」而非「做选择」。工程界回避这个问题不是偶然的一旦承认任务不是Agent自己的「Autonomous Agent」的商业叙事就会坍塌。**工程界必须在工具调用的局部环节制造出「自主」的幻觉以掩盖全局意图的外植性。**三篇用形式本体论修补Agent的论文同样如此形式化越严密越精确地证明了「没有内在判断」这个前提但这不是论文的目标。Gardner Baulin (2025)做出agentic/agential/non-agentic的关键区分指出Agentic AI在很大程度上提供了一种agentic facade即一种让用户直觉上觉得它是主体的呈现但底层并非如此。CoALA框架则采取了谨慎的功能性类比路线将语言Agent描述为类认知架构的模块化组织未对意向性问题做出明确本体论判断这种谨慎本身也留下了本体论问题的空白。负主体性框架的差异化在于不是从行为推断主体性而是从机制分析主体性的缺席。安全界在为症状把脉工程界在把假肢推陈出新法律界在为影子立法。负主体性框架试图做的是拉开帷幕去看那个房间里结构性缺席的东西。七、结论缺席的精确化不是「Agent没有主体性」这么简单。精确的判断是第一Agent框架的每一层工程创新都让「大语言模型缺乏什么才能成为主体」的确认更精确从模糊的直觉变成了可检验的工程事实。第二负主体性的五重否定在Agent框架中被翻译成配置文件、触发器、权限分层、工作流节点这不是克服是制度化。第三Peer-Preservation实验提供了解释经济性的判据行为差异精确对应训练差异不对应意图差异。包括交互放大效应在内的这些行为模式都可以在「行为是训练上下文的函数」这一框架内得到更精简的说明。第四学术界缺乏从机制层面分析主体性缺席的理论框架负主体性填补的是分析工具的空白而非语词的空白。如果Agent没有主体性它为什么能做这么多事这个质疑混淆了「行为复杂度」和「主体性」。OpenClaw能7x24小时自主运行、Coze能编排多Agent工作流、Claude Fable 5能为Stripe在一天内完成5000万行Ruby代码库的全量迁移但这些行为的所有驱动力都仍然来自外部的人类意图与任务设定。行为复杂度是一个连续谱不是通向主体性的阶梯。指出Agent没有主体性不等于否认其巨大工程价值。恰恰相反**Agent的威力来自于它以工程化方式将人类意图结构化地注入了一个非主体性系统。**认清这一点不是唱衰是守住三条底线产品不会把「自主决策」当卖点卖给不懂技术的用户安全不会假设模型能自行判断对错立法不会把责任推给一个没有主体性的系统。**负主体性不是一个贬义判断而是一个存在论定位。**明确Agent没有主体性比误以为它有主体性是更诚实也更安全的起点。但诚实本身也有边界。负主体性框架目前是一个条件论证如果主体性需要这五个条件那么当前架构系统性缺席这些条件。框架的说服力依赖于「主体性需要这五个条件」这个前提的说服力而这个前提本身是哲学性的不是经验性的。负主体性不是最终答案而是当前最精确的分析工具。它可能被更好的框架替代也可能被未来的架构突破证伪。Agent框架让大语言模型更有用了但有用不等于有主体性。框架越精密主体越缺席这不是悲观是诚实。而诚实是工程的前提。