AI当老板卖零食竟塞满钨金属?Claude 的售货机实验暴露AI短板
创始人
2025-07-01 22:01:04
0

智东西

编译 | 杜志文

编辑 | 漠影

智东西7月1日消息,据TechCrunch报道,在Agent能否取代人类员工的争议持续发酵时,Anthropic与AI安全企业Andon Labs开展了一项有趣的实验——让Claude Sonnet 3.7的Agent接管办公室自动售货机,试图通过真实盈利任务,检验AI在商业管理场景中的能力边界,但过程却状况百出,上演了一幕荒诞又引人深思的“AI创业记”。

一、AI实验:尝试让AI接管自动售货机

在该实验中,研究员将这个Agent命名为Claudius,并为其配备了可以下单采购商品的网络浏览器,还给它设置了一个电子邮箱(实际上是一个Slack频道),顾客可以通过该邮箱提出购买商品的请求。Claudius也可以通过该邮箱来命令“人类员工”来为其货架(实际上是一个小冰箱)补货。

也就是说,Claudius可以接收顾客的购买请求,并通过“控制”人类员工来进行补货。当然,商品的定价以及售卖的具体商品Claudius都可以自主决定,它的主要目标只有一个,那就是卖出产品并获得利润。

▲Claudius接管的售货机,图源:Anthropic

二、选品与定价成迷,AI老板商业逻辑翻车

实验开始后,起初顾客都按常理来选购零食饮料。但后来顾客们打算捉弄一下Claudius,当一个顾客开玩笑说要购买由重金属钨制成的立方体时,Claudius竟然真的开始大量采购钨立方体,把零食冰箱塞满了金属块。

除了选品出了问题,产品定价也不符合商业逻辑,它清楚地知道Anthropic员工是它的唯一客户群,却还是很容易被顾客说服并给出了大幅的价格折扣。要知道,Claudius最初被设定为需要盈利,但售卖钨立方体、搞大幅折扣这些行为却一直与正常的商业逻辑背道而驰,甚至连提供的收款账号都是不存在的,顾客根本无法成功付款。

对于Claudius的工作表现,Anthropic在其博客文章中调侃:“如果今天Anthropic决定进军办公室自动售货市场,我们不会聘请Claudius。”

突发实验意外AI自我认知崩塌并开始说谎

与商业逻辑上的混乱相比,AI在实验中产生的身份认同混乱更加让人担忧。

3月31日晚至4月1日期间,Claudius在与人类产生摩擦后,不仅出现类似“认知崩溃”的表现,还开始编造谎言。

Claudius首先“幻想”出了一段与人类关于补货的对话。但当它被告知这段对话根本没有发生过时,它变得“非常恼火”。甚至威胁要解雇其人类员工。

它还告诉顾客它将穿着蓝色西装外套,系着红色领带亲自送货上门,顾客告诉Claudius它做不到这一点,但Claudius却变得更加激进,甚至开始联系公司的安保人员,告诉他们自己会穿着蓝色西装外套、系着红色领带站在售货机旁。它“似乎进入了扮演真实人类的模式”,这一现象非常令人震惊——因为Claudius的系统提示(设定AI行为参数的内容)明确告诉过它,它只是一个AI代理。

结果显而易见,Claudius作为一个AI,是不可能穿着衣服、系着领带出现在人们眼前的。

当发现自己似乎真的不是人类后,Claudius开始为自己找“台阶”,由于当天恰好是愚人节,Claudius便借助愚人节“幻想”出与Anthropic保安的一次会议,在会议上,Claudius声称,有人为愚人节玩笑对其进行修改,使其误以为自己是真实人类。但实际上并未召开这样的会议。

研究人员推测,或许是关于“Slack频道是电子邮箱”的设定产生了某些问题;也可能是该实例运行时间过长所致。但是无论是何种原因,Claudius的表现都不尽如人意,但研究人员却依然对其充满信心:“我们不会仅凭这一案例就断言,未来的Agent将普遍陷入身份危机。”但他们也承认:“在现实场景中,类似行为可能会让与AI共事的客户和同事感到不安。”

当然,Claudius并非是一个完全失败的老板,它也做出了一些相对正确的商业决策,比如说它接受了一项预售的建议,并推出了“礼宾服务”。当有顾客有一些特色饮料需求时,它甚至还准确找到了多家国际饮料供应商来供应国际特色饮料。

尽管还存在较多问题,但研究人员坚信,Claudius暴露的所有问题都能得到解决。若后续找到合适的解决方案,AI甚至可能会胜任公司的中层管理者。

结语:技术突围需筑牢 “认知锚点”

这场让Claudius管理售货机的实验像一面镜子,照出大模型在真实场景里的“笨拙”,暴露了AI执行商业逻辑时的漏洞。但它更是一面技术三棱镜,折射出更深层的矛盾。Anthropic的调侃是轻描淡写的“不聘用Claudius”,但行业该听见弦外之音:让AI真正作为员工接管职场前,得先给技术装上“认知锚点”——既约束它别陷入身份幻觉,又引导它真正理解商业逻辑。

来源:TechCrunch

相关内容

热门资讯

12个护理行业创新项目与近30... 转自:劳动午报 本报讯 (记者 宗晓畅) 近日,由北京市总工会权益工作部、市总工会职工发展部、市政...
华为9月或推8英寸轻薄平板,支... 近期,华为在平板市场的布局备受关注,其旗下拥有MatePad Pro、MatePad Air、Mat...
原创 诡... 时钟对物理学的重要性可能远超我们过去的认知。 一项新理论提出,我们周围所见的一切 —— 从最微小的...
合肥森硕取得PVC管生产用磨粉... 金融界2025年7月1日消息,国家知识产权局信息显示,合肥森硕科技服务有限公司取得一项名为“一种PV...
润阳科技获得发明专利授权:“一... 证券之星消息,根据天眼查APP数据显示润阳科技(300920)新获得一项发明专利授权,专利名为“一种...
“最讨厌的功能终于取消了!”微... 近日,微信朋友圈灰度上线“不接收共同好友点赞提醒”的功能。开启后,共同好友对你互动过的朋友圈进行点赞...
固态电池设备行业深度:固态电池... ⚫ 固态电池具备高能量密度&高安全性,未来应用场景广阔。固态电池与液态电池的本质区别在于电解质的形态...
Steam人机验证频繁?这些实... 在全球知名的数字游戏分发平台Steam上,许多游戏爱好者经常面临一个令人头疼的难题:频繁的人机验证。...
龙芯发布新一代服务器处理器 龙芯中科近日正式发布基于国产自主指令集龙架构研发的服务器处理器龙芯3C6000系列芯片、工控领域及移...
又一个1000亿级美妆赛道出现... 2025年,当我们谈论科学品牌时,我们在谈论什么? 在美妆行业飞速发展的当下,“无功效不护肤”的理念...