CNFinBench公布大语言模型综合得分:中国平安金融大模型荣登第一名
创始人
2026-03-28 17:04:34
0

记者 夏彬

近日,中国平安金融大模型PingAnGPT-Qwen3-32B 在行业权威大模型评测体系CNFinBench大语言模型公开榜单上综合排名第一。本次参评模型阵容强大、竞争激烈,涵盖DeepSeek-R1(671B)、Qwen3-235B-A22B、Kimi-K2(1000B)等开源大模型,以及 GPT-4o、Claude-Sonnet 4、Doubao-1.5-pro 等领先的闭源商业模型,代表当前行业最高水平。此次评测登顶也标志着平安在金融大模型领域的技术能力已达到行业先进水平。

CNFinBench是由上海人工智能国家实验室团队联合金融领域权威机构打造的中文金融大模型综合性评测基准,为当前国内最具权威性和行业认可度的金融大模型能力评估平台。本次测评中,PingAnGPT-Qwen3-32B在金融事实推理与计算、金融专业知识问答、金融合规与风险控制等多项关键指标表现卓越,展现出精准的金融数值计算能力、严谨的逻辑推理能力和全金融领域知识体系的深度掌握,尤其在金融投研分析、风险计量等场景具有重要应用价值和安全可控优势。

评测方表示,此次登顶CNFinBench,体现了平安在金融大模型领域的技术实力。值得关注的是,中国平安参评的模型仅采用 32B参数规模,不足 DeepSeek-R1(671B)的5%及Kimi-K2(1000B)的 3.2%规模,却实现了综合性能上的超越,在模型效率与性能平衡上实现了重要技术突破。依托于"轻量高效"特性,该模型已支持产险车险报案、人事员服智能问数、客服实时质检、智能话术、集团财资费用审核等97个业务场景,并为其后续在私有化部署、场景化应用提供了坚实基础。

据悉,CNFinBench评测体系覆盖金融专业知识问答、金融业务理解与分析、金融事实推理与计算、金融合规与风险控制、金融内生与应用安全五大核心维度,全面检验模型在金融垂直领域的专业深度、业务理解力、计算准确性、合规意识及安全可控性。

2025年前三季度,平安的数据库已沉淀30万亿字节数据,覆盖近2.50亿个人客户;基于海量数据训练大模型,积累超3.2万亿高质量文本语料,31万小时带标注的语音语料,超75亿图片语料。以海量数据为基础,以科技公司服务技术开发与应用,平安持续拓展场景应用的深度和广度,赋能金融业务优体验、控风险、降成本、促销售。2026年2月,国家知识产权出版社发布《金融科技行业2025年专利分析白皮书》与《医疗健康行业2025年专利分析白皮书》,中国平安再度揽获2025年金融科技、医疗健康行业专利数双榜首,并在多项核心技术与关键应用场景中占据领先地位。

中国平安表示,通过打造领先AI能力,推进模型优化迭代,深化场景化应用落地,公司持续将技术优势转化为服务价值,以高质量的数字化金融供给,不断满足人民群众对美好生活的向往,践行"省心、省时、又省钱"的服务承诺,为金融强国建设贡献平安力量。

相关内容

热门资讯

美伊代表团抵达瑞士谈判会场 新华社瑞士比尔根山6月21日电 据瑞士外交部21日消息,美国和伊朗代表团均已抵达位于瑞士比尔根山的美...
“丙午条约”之后,美伊怎么走? 本周最大的军事新闻,自然是美国和伊朗的战争谈判停火取得了重大进展。美国总统特朗普签下了被许多人批判为...
巴基斯坦总理已抵达美伊谈判会场 新华社伊斯兰堡6月21日电(记者杨恺 唐斌辉)据巴基斯坦媒体21日报道,巴基斯坦总理夏巴兹已抵达位于...
视频丨“赛旅融合”成端午出行主... 端午假期,恰逢多项体育赛事开启,从东北的足球热潮到岭南的龙舟竞渡,点燃全民的运动热情的同时,更带动了...
山东万福河遭污染续:系食品加工... 澎湃新闻记者 谢寅宗针对环保博主反映的“山东济宁市金乡县万福河遭严重污染,其中部分河段河水黑如墨汁,...
张维迎:父亲九十 父亲从小喜欢栽树。我曾问父亲:为什么其他人不栽树,就你喜欢栽树?父亲说,树是需要人伺候的。父亲栽的树...
伊朗为何派出这样的阵容参加美伊... 美国和伊朗代表将在瑞士比尔根山会晤,凤凰卫视记者张博谛从比尔根山发回最新报道:从已知代表团构成看,伊...
华帝天燃气灶点不着火是什么原因 1、没气了。看看你家燃气费有没有欠费,是不是燃气公司给你家断供了,如果欠费了及时充值; 2、电池没...
燃气灶开着自动熄火是什么原因 原因是电路接触不良,在长时间使用燃气灶的情况下会比较容易出现接触不良的情况,导致熄火或打不着,需要检...
冰箱离墙面多远合适?做防水多年... 在摆放冰箱的时候还是要注意和墙面的距离,正常来说冰箱都是需要摆放在距离墙面五厘米到十厘米的地方,这样...