现代AI系统通过图灵测试首获证实
创始人
2026-05-24 13:44:25
0

美国加州大学圣迭戈分校科学家开展了一项实证研究,首次证明现代人工智能AI)系统通过了图灵测试。相关论文发表于新一期《美国国家科学院院刊》。

研 这是首个严格采用图灵测试来评估大语言模型的研究。

图灵测试由英国数学家、“计算机科学之父”阿兰·图灵于1950年提出,是检验机器能否逼真模仿人类对话、使人们无法将其与真人区分开来的重要科学基准。

实验设计

为获得更具代表性的结果,团队研究了两组人群,整个实验共有近500人参与:

  • 一组是美国加州大学圣迭戈分校本科生

  • 另一组是通过Prolific平台招募的更广泛的在线样本

随机对照试验中,参与者同时与另外两方聊天,一方是人类,另一方是大语言模型。实验涉及4种模型:

  • 目前最先进的GPT-4.5和LLaMa-3.1-405B

  • 较旧的基线模型GPT-4o和ELIZA(20世纪60年代基于规则的经典聊天机器人)

实验结果

结果显示:

  1. GPT-4.5在73%的情况下被判定为人类,参与者将其选为“人类”的频率,明显高于选择真实人类参与者的频率

  2. LLaMa-3.1-405B在56%的情况下被判定为“人类”,在统计学上与其所比较的真实人类没有显著区别

  3. 基线系统表现逊色,ELIZA和GPT-4o总体上分别只有23%和21%的情况被选为“人类”

若给予恰当的提示,先进大语言模型能表现出与人类无异的语气、直率、幽默,乃至易犯的错误。科学家此前已知道,大语言模型几乎可以轻松生成与任何主题相关的知识,但这项测试表明,它还能令人信服地展现社会行为特征,这对人们如何看待AI具有重大意义。

团队表示,每个大语言模型都有“性格”,会采用特定的人物设定和沟通风格。大语言模型并非依靠展示知识的能力取胜,而是因其像人类一样会犯错而胜出。这些特征,与他们认为图灵所设想的那种数学与逻辑解题能力并不相同。

不过,团队也发现,若无明确指示,这些模型被误认为人类的概率便会大打折扣:GPT-4.5的获选率降至36%,LLaMa-3.1降至38%,基线系统ELIZA和GPT-4o被选为人类的概率则更低。

相关内容

热门资讯

煤矿瓦斯爆炸后,高压氧如何抢回... 据新华社报道,5月22日19时29分,山西长治市沁源县山西通洲集团留神峪煤业有限公司井下发生瓦斯爆炸...
每天刷手机5小时以上的人,都怎... “别再刷手机了,越刷越傻”“再这么玩手机,你就要废了”……在人手一部智能手机的时代,手机上瘾现象特别...
香江警花,即将绽放于星空之间 潮新闻客户端 记者 屠晨昕 今天(23日)上午,神舟二十三号载人飞行任务新闻发布会,给了整个香港乃至...
美官员披露美伊即将签署协议的更... △霍尔木兹海峡(资料图)据美国方面23日消息,美国和伊朗即将达成一份协议,其中包括将停火再延长60天...
现代AI系统通过图灵测试首获证... 美国加州大学圣迭戈分校科学家开展了一项实证研究,首次证明现代人工智能(AI)系统通过了图灵测试。相关...
强劲“中国心” 国产自研600... 5月23日,内蒙古锡林郭勒盟上空传来轰鸣声:由我国自主研制的600公斤推力级F406涡扇发动机,双发...
留神峪矿难获救矿工讲述:自救器... 5月22日晚7时29分,山西留神峪煤矿发生瓦斯爆炸事故,已致82人死亡。据央视新闻,事故发生后,留神...
预祝圆满成功!李家超与黎家盈视... 据凤凰卫视报道,神舟二十三号载人飞船即将发射,乘组成员包括首位来自香港的航天员黎家盈。香港特区行政长...
《给阿嬷的情书》,票房超10亿... 据网络平台数据截至5月24日,2026年度电影总票房(含预售)已突破151亿元!其中,电影《给阿嬷的...
美媒称伊朗同意放弃高浓缩铀库存 新华社华盛顿5月23日电(记者黄强 颜亮)据美国媒体23日报道,作为美国与伊朗即将达成的协议中的一个...