央广网北京7月28日消息(记者吕红桥)据中央广播电视总台经济之声报道,在2025世界人工智能大会上,业界都在思考如何抑制/幻觉,提高大模型的可用性。与目前主流的外挂知识库,打造私域模型不同,在一场论坛上,业内人士提出了一种新的思路。系列报道《智能涌现》7月28日推出:《以工程化思维让大模型准确度突破99分及格线》。
论坛现场(记者吕红桥 摄)
在“从通用智力到专业生产力:高阶程序引领的AI应用新范式”论坛上,浙江大学教授、区块链与数据安全全国重点实验室主任陈纯表示,大模型专业化应用,首先面临的是可靠性问题。尽管当前技术最先进的模型准确度已经达到80%到90%,但存在幻觉的大模型距离医疗、工业、金融等专业场景的要求仍有显著差距。
陈纯表示:“幻觉本身就是想象力的一种,它一定是智力的一个必然代价。我们不能完全消除AI的想象力。从编程序的人来说,我们不能一编程就知道它的结果,那就不是AI了。所以怎么样构建工程化的保障体系,是我们要探讨的。”
什么是工程化思维和保障体系?通俗点说就是像做工程一样,事先要有目标、规划和资源统筹,在项目设计阶段就要把各种细节考虑到,项目实施要分成结构化模块,一步一步来,并通过监督和检查持续迭代优化。为什么工程化思维能提高大模型可靠性?蚂蚁集团副总裁、蚂蚁密算董事长韦韬说,这是因为人类也是用工程化思维让自身变得更靠谱。
韦韬表示:“比如手术领域,以前没有检查清单的时候,手术感染率高达11%,而清单检查核验机制落实以后,感染率降到0%。包括建筑、民航、律师等很多行业都显著降低了事故率,而更加显著的事情是现在在工程管理支撑之下,像登月、探测火星这样巨型的复杂任务也完全是可以做到的。”
以工程化思维为指引,蚂蚁密算宣布,对外开源高阶程序大模型可信应用技术框架,探索智能与工程融合的AI应用新范式,推动大模型在专业领域中规模化应用。韦韬说,大模型要想大规模用于产业领域,准确度满分100分的话,99分才是及格线,有的产业要求更高,而高阶程序可以让大模型达到99分以上。
韦韬说:“高阶程序就是把编程语言和自然语言混合,通过可执行的高级程序执行框架来做验证,它的可靠性能到99分以上。成本方面,我们根据它所产生的Token来算,能控制在2块钱以内。”
目前,高阶程序技术框架已经在金融风控全链路、网络入侵检测、医疗重复计费检测等多行业场景中初步应用,在可靠性和时效性上有显著提升。陈纯认为,高阶程序为大模型应用打开了新的大门。
“高阶程序的定义是通过全新的程序表达、场景知识的嵌入和闭环的核验反馈机制,把不确定的智力输出转化为可信的专业生产力。这条路虽然刚刚开辟,但我觉得其已经为大模型应用打开了一扇新大门。”陈纯说。