
在Agentis Lux上的部署成功。绿色检查没有错误现场直播。我扫描了我自己的网站抓取了一张“之前”的照片进行前后对比扫描仪给出了62分。它还给下一个站点62。还有下一个。同样的分数同样的发现每次都一样包括在一个没有结账按钮的网站上发现一个“结账按钮”。构建成功了。它运行的是我几周前写好并放弃的扫描仪版本。从那时起我构建的所有东西都被搁置在回购协议中被合并被测试没有被部署。部署管道仅在5月份运行了一次再也没有运行过。我从来没有注意到因此这个实时网站是一个自信的、经过良好测试的、完全绿色的存根。技术上没有出错。这是我一直在思考的部分...结束了...结束了。小心空隙我和人工智能代理一起建造。我导演他们创作。一个代理编写基础结构另一个审计它我打电话和合并。又快又好失败模式也不是我预想的那样。我预料代理人会犯错误。他们大多不会。相反当我要求的不是我想要的时他们所做的是正确地构建我所要求的。错误不在代码中。bug存在于我的指令和我的意图之间代理用字面上最真实的东西来填充这个间隙。这个东西上下文工程出现在Anthropic的演讲中AWS峰会.在这种情况下是人类管弦乐队...我会反击。“你说部署但管道从5月起就没有运行过你的意思是重新部署当前代码吗”代理说“部署成功”是因为部署确实成功了。它回答了我提出的问题。我问了一个明显在我盲点上的错误问题。大约一周内我在一个项目中碰到过四次这种情况。每次都是一样的形状。四次它是正确的和错误的发货的存根。每一个网站都有62个回复土拨鼠日得分。基础设施是真实的测试是绿色的部署是有效的。它只是部署了我留下的代码。“部署好了吗”是真的。“我构建的东西部署了吗”是我忘记问的问题。【教训:不要假设。]三扇门其中一扇是真的。我的扫描器接受三种输入:URL、代码报告、API规范。界面为他们显示了三个选项卡。干净明显正是设计所暗示的。只有网址一是有线的。另外两个是根据我给出的规范构建的它描述了三个选项卡后来我决定首先只提供URL扫描不再更新界面来匹配。因此一个访问者点击“API spec”输入一些东西然后点击一面礼貌的墙。标签是正确的。我的瞄准镜已经移动了标签还没听说。【教训:Kiro和Claude读不懂我的心思]这些发现只有工程师才能读懂。我的所有观众都是用人工智能构建的人他们可能不知道ul是。扫描仪的发现说了类似“没有用ul或ol包装的重复兄弟元素”的事情。这是一个正确的发现。对我为之打造工具的人来说也是没用的。我要求的是准确的、技术性的、真实的发现。我拿到了。我忘了问“我的实际用户能读这个吗”[经验:不要忘记你是在为最终用户构建一个真实的人而不是一个理论上的人。]这张牌什么也没变。一个社会卡路线建立部署工作。我保存了图像得到了一个零字节的文件。该路径从网络上获取了三种字体当其中一种返回时是空的而不是彻底失败图像渲染器得到了垃圾什么也没有产生。本来应该处理字体错误的catch块没有被触发因为fetch没有失败。它空手“成功”了。错误处理对于它所监视的错误是正确的。真正的失败者从一扇没人看着的门走进来。[教训:不要跳过测试实时工作流。]模式每一个都通过了自己的测试。该部署已部署。标签符合规格。这些发现是准确的。卡路线跑了。如果我相信“它能工作”这四个都可以发货了。抓住他们的不是更好的提示也不是更聪明的代理人。我看着实际的输出问了一个比代理能问的更简单的问题。不是它跑了吗“这是我想要的东西吗”www.jpbara.com如果你费心扫描第二个站点每个站点上的62都是可疑的。三个标签是一个陷阱如果你点击那些你没有完成的。如果你是作为你自己的用户而不是作为编写它的工程师来阅读它那么一个发现是没有用的。代理针对您所说的内容进行优化。人在回路中的全部工作就是不断地检查你所说的和你所想的因为代理人看不到区别而你是唯一能看到的人。为什么我一直在做这读起来好像我还没有学到我一直在写的东西。那么是还是不是代理人在几天内做了几周的实际工作。审计代理发现了测试遗漏的真正错误。基础设施是牢固的。我不会还回去的。但是这个模型是“我导演他们制作”而不是“他们制作我观看”是有原因的方向不是一次性的指令。这是一种持续的行为将工作与意图对立起来并说“接近了但不是这样。”代理人是非凡的“正是你要求的。”知道该问什么并注意到答案在技术上是完美的但却是错误的这仍然是我的一部分。部署成功。不是我想象中的部署。现在我知道要多看两眼。这四个都来自building Agentis Lux一个代理就绪扫描仪。是的一个告诉其他人代理不能读取的工具发送了一个存根隐藏了一个损坏的标签并呈现了一个空卡。如果你想看我不停地抓我自己这是公开的