作者 | 柴旭晨
编辑 | 刘宝丹
张雪峰“寒门救星”的称号,可能要被一款AI应用抢走了。
7月1日,阿里巴巴AI旗舰应用夸克秀出自家高考“志愿报告”成绩单,其累计为考生和家长生成超1000万份专业级志愿报告。
一份份近万字的“志愿报告”都是夸克调用Agent生成,背后是由夸克高考志愿大模型与专业的高考知识库提供支持。夸克内部称,它具备接近专家水平的决策能力。
夸克方面向华尔街见闻表示,该Agent会通过多轮“工具调用+反思调整”的机制,动态优化志愿方案。例如,当考生表达“倾向留在省内(广州、深圳优先)、不考虑偏远地区”时,模型会自动生成搜索指令,若优质选项受限,Agent还能主动反思扩展搜索范围,或在高层次高校(如985)上适度放开地域限制,为考生争取冲一冲的机会。
此外,Agent具备处理复杂、甚至自相矛盾诉求的能力。面对“数学成绩差,但想报考计算机”这类常见冲突,系统会触发“需求澄清”流程,提示用户这一选择可能存在的能力匹配问题。
其内部认为,这种专家式的思考路径和策略调整,是传统工具难以实现的,也是夸克“深度研究”技术真正实现智能化决策的关键所在。在业内人士看来,夸克或许有望取代“张雪峰”等近年来爆火的志愿机构,为更多没有资源、门路的考生带去最优解。
对于考生和家长而言,高考显然是人生路上的分水岭,重要程度无需多言。
过去十年,高考志愿填报的复杂性与日俱增。大学、院系、专业、录取分数都在频繁变动,随着市场快速变化,专业的增减调整也愈发频繁。如今,高校本科专业在过去十年从309种增加到845种,这进一步拉大了信息差。
从技术门槛的角度看,志愿填报咨询的附加值更多是对庞杂信息的筛选整理,在志愿填报越来越复杂的背景下,的确能解决愈发严峻的信息差问题。
随着大模型的迭代,夸克也捕捉到了用AI平权“高考报志愿”的意图。
“高考对中国家庭都非常重要”,夸克算法负责人蒋冠军向华尔街见闻表示,现在有了大模型可以做到的就是每个用户高考志愿填报需求都是个性化。“虽然他的分数一样,考的试一样,但是他家庭条件不一样,个人能力偏好不一样,所以必须个性化”。
“志愿报告其实核心解决的一个问题,就是解决用户获取大量复杂信息,根据这些复杂信息帮助用户做决策,完成学校报考”。蒋冠军如是说道。
可以说,夸克在努力搬走考生“人生路上的收费站”,对夸克自身而言,志愿报告也是其对深度研究技术的一次重要实践。夸克算法负责人蒋冠军指出,在很多专业领域,用户的需求是高度复杂的,已经无法通过常规搜索或简单总结来满足。“从这次志愿报告的应用情况来看,深度研究已经让AI真正成为用户身边的专家型助手”。
不过,真实的高考志愿中考量中,需要收集各个院系极其广泛且动态更新的信息、AI的幻觉问题又是否会影响夸克志愿报告的质量,夸克大手笔重押高考背后能否为自己带来更多的流量?
以下是华尔街见闻与夸克算法负责人蒋冠军、夸克高考算法负责人唐亮的对话实录:
问:之前收到数据有一半是三线及以下城市,有没有更细的维度划分?
蒋冠军:整体比例三线及以下城市占比在50%以上,这与中国人口分布差不多对得上。
问:县域人口和一二线城市对关键词输入的高低肯定有差别,那专门做语言判断或者语言转换的指令操作呢?
蒋冠军:这个其实不太需要做个性化匹配,因为现在大模型通用能力很强,只要有对应指令模型就会做对应的执行。有些家长和同学不熟悉,但会用我们搜索引擎或者志愿工具,他就会判断自己的分数可能更偏向于就业、城市信息要不要填、将来要不要考研,会把指令慢慢变复杂。这样其实就是它的个性化需求,模型会通用的响应这样的指令给他生成个性化报告。
今年我们做了多场线下活动,走到了湖南和贵州的一些乡村到县级高中里,直接接触到了很多乡村考生。乡村的孩子还是很直接,他们有一定的信息茧房,这是很直接的情况。
蒋冠军:在搜索框问些基础知识会做一些引导,比如他问一个学校,我们会给他介绍这个学校有哪些王牌专业或者什么志愿,但高考场景不会,因为每个人报志愿的需求差异非常大。通用的我们会做。
问:关于数据幻觉率能不能讲得再细一点?
唐亮:高考知识库和我们专业政策,每一个发布的数据都会人工实时更新。模型策略的优化,我们训练时做了比较多的数值校验,会用这样的手段使幻觉率比较低。不一定做到百分之百,但是相比于去年来讲高权威、高时效以及幻觉率有非常大改善。
蒋冠军:数据分为这么几块:第一、志愿报告里的志愿信息,这个信息是绝对不能错否则对学生影响实在太大,所以志愿信息我们用的是志愿工具。模型会根据工具的信息去算相关性,去匹配用户的指令。
基础数据是人工整理的,去各个省的教育局、各个大学各个官网把这部分数据收集进来。差不多3000来所学校,2000来个专业,基本上覆盖率准确性有4个9。有可能是这个数据真的缺或者这个专业是新的,因为学校每年都会调整它的专业,这个是绝对不能错。
事实性的数据我们会去做比对和校验,把数据准确率做上去。其他问答里一定会存在一定比例的幻觉,但是模型这一侧我们做了相对比较多的工作。我们在模型上针对高考这个垂直大模型做了持续的训练和后链路的整体对齐工作。高考的垂直模型本身的幻觉率比通用模型的低60-70%。
问:AI能不能替代张雪峰,AI填志愿和人工填志愿之间的差异和各自的优点夸克怎么看?
蒋冠军:几个维度,当前机器肯定是替代不了人。我们今天给出的志愿报告会学习很多专家经验知识,除了志愿报告我们还有高考问答和志愿工具,这样他参考的信息维度可以更多。
机器在这方面比专家可能更有优势,AI可以获取更多数据。今天市场上的咨询师多少都有局限性,夸克做高考模型过程中有几百个专家给我们迭代产品,他们有些人擅长填报某些地域,有些人擅长填报某些方向。所以这点机器比人强,可以看到全局的专业信息,再把专家的经验和事实加进来。但是在当前这个阶段,肯定是替代不了人的。
问:从长远来讲之后看呢?
蒋冠军:我们希望越来越专业,人需要做的是最关键的决策信息。但是更烦琐的基础工作,或者说简单的需要推理的确认的这些事情,AI去干效率很高。
问:夸克为什么花七年这么大的力气精力来做AI志愿填报,是因为用户流量吗?
蒋冠军:夸克的初心是做一个个人助手,高考受众大,与我们想要完成的目标非常匹配且对社会意义大。反过来对对整个夸克业务发展来讲其实也是很有价值。
问:夸克这七年里产品背后的技术进步大概能介绍一下吗?
蒋冠军:一开始做高考其实就是做了信息服务,把市面上有用的信息做了整理,但那时没有更强的技术做更强的服务。后来我们做志愿工具,那个时候市场数据非常少非常零乱,核心做的还是各种数据的整理和收集工作。
前两年大模型刚出来的时候,高考志愿服务核心还是志愿工具,志愿工具本身的预测其实不需要大模型,用传统的机器学习模型相对就比较准,因为它核心解决的是考生的数据分布,分数分布和学校招生的实际分布之间的对齐工作。
但这里解决的关键是学校会出新专业,就要找到新专业在历史上与哪个专业比较相近。另外学校一定有层次,这个学校很可能也有相关专业原来已经开设过在招生的。二是出现新学校我们就要知道这个公办学校大概定位,招生水平怎样。
还有新高考,比如今年有些省是新高考,但是去年和前几年其他省做过新高考,这上面我们去做数据和概率的预测对齐,就会比较准。
大模型出现以后,今年就我们做了志愿报告,直接帮助用户生成和解决非常复杂的决策任务。我估计明年可能市面上做志愿报告的厂商就会多起来。
问:夸克报告里有我到这个学校的概率是多少,具体到个位数的百分比是怎么测算出来的?
唐亮:用过去三年的数据来预测今年招生情况预估。今年招生计划肯定有些变动,比如招生人数、学科变动等等。第一步预测今年的位次,根据它的波动性预测今年的位次;第二步预测它波动的范围,我们会根据位次加动态分布的曲线,就看你现在的考生在动态分布的哪个位置。
问:今年我们换成了阿里的基座大模型,那今后工程问题是都要重新做一遍吗?
蒋冠军:就是我们怎么与通义之间合作的问题。站在集团内部,用通义的基座就解决我们一个问题:一是减少计算资源消耗,二是不用重复造车轮。
夸克核心还是需要算法技术驱动,需要AI驱动产品。这样的产品我们本身对于大模型的技术栈能力其实很全面。因为在夸克所有的场景里不光是搜索还是教育、医疗这种垂直场景,它对于大模型的应用和定制其实是非常深的。
我们拿到基础模型以后,就会在这个基础上进一步的围绕我们业务状况和线上实际的用户需求去做适配。做完预训练以后,像高考这样的场景,我们需要重新做些模型的推理能力优化,比如幻觉率问题。
问:志愿报告这样的能力,能不能延伸到比如说考研、留学、求职等等相关的决策方面,甚至再扩展一下比如健康?
蒋冠军:考研和留学方面我们没有做,这两个场景有它的特殊性。考研是很有目标性,我就要考哪所学校,所以这个时候他需要做的信息收集决策内容其实相对比较少。但是高考其实是个体对全国所有学校。决策模型上,我们在其他的垂直场景下做的相对比较深。医疗我们垂直做,方法其实与高考差不多。
问:夸克与千问的合作如何相互赋能?
蒋冠军:基础模型迭代方向上。因为它纯技术模型有自己的迭代策略,综合指标比较好。我们业务产品其实有我们的需求,夸克与千问团队基本上半个月到一个月就会开一次会。
数据上,因为预训练的基础数据有一部分其实也是我们提供的。后链路对齐的任务指标我们也会与他们做沟通。比如我们怎么决策这个模型的能力,怎么站在应用团队的模型能力比较强。
问:这样的互相能提供什么价值?
蒋冠军:千问对我们来讲核心价值就是省去了我们基座训练的大量时间。我们核心给他们提供数据,因为我们做搜索有很多产品数据,包括多模的图片视频数据还是比较不错的。二是迭代的角度迭代的方向。比如我们迭代专业的医疗、高考、学习方面的模型,我们知道用什么样的技术方案什么样的方法,我们在垂直方向上是有效的,比如说如何设计怎样的情况。
反过来我们也会和他讲,你在模型的具体结构设计和能力迭代方向应该注重什么问题。因为现在模型垂直能力变强以后,通用能力也会增强。
问:之前夸克把很多GPU资源放到高考上,在技术方面会降本吗?
蒋冠军:降本工作做了挺多,首先模型侧,不是一个模型打天下,在不同的路径和环境下会有些不一样的模型大小选择,我们会选择满足我们需求的,相对参数量比较小的。第二、生成团队其实有很多的迭代,我们去做大量模型的量化和性质优化工作。这部分加起来差不多能节省50%性能。
我们集团内部还是有个协商机制。比如我们和集团借卡是为618结束了,它有波峰波谷的时间,因为,因为我们很多预测资源是公共的,大家排一排资源怎么用。
问:其他友商有意识到他们和夸克的距离,你觉得夸克的机会和信息就是我们还能够继续领先吗?
蒋冠军:其实后来市场上所有产品都是按照我们产品格式做。那个是基础工具,今年我们会做志愿报告,因为夸克有很多用户在这查询相关信息,我们也会做后链路的调研,所以我觉得我们对于用户这个方向上的需求理解有领先性。
问:你们会考虑比较前端的硬件的形态吗,夸克现在还没有做艺考生等专业向的工具,是没来得及吗?
蒋冠军:我们现在来不及,硬件也好,还是更丰富的多模形态都在路上,但是我们来不及。
艺考生其实两方面原因都有,一方面是来不及,另外一方面是艺考生有自己的目标,他们目标相对更明确一些。这个时候我们去做,有时候因为这样的问题我们内部讨论过,但是没有做出决策什么时候开始做艺考生相关的事情,反正当前这段没有。
问:志愿报告之后,相关能力会不会在其他场景也用到呢?
蒋冠军:高考志愿报告一定是深入研究的垂直场景,其他场景也有比如说医疗,其实我们是有一个医生团队,我们还会有通用的垂直场景深入研究。
问:现在所谓的深入研究有很多表面整合的缺乏深度痛点,夸克的技术逻辑上有哪些核心差异?
蒋冠军:这里核心我觉得还是要找这部分领域专家去做对应的迭代。整个行业其实差不多都需要这么去做,这是怎么样让研究更有深度,这是从最终的比如人工角度。
第二个是post训练过程。现在的post训练就是标准答案的确认,但是在客观的数据上其实还是有非常大量的包含推理的信息。
三是模型这一侧,因为我们自己有非常多的比如说深度搜索、深度研究这样的应用场景。这些场景里我们去优化和分析里面的核心数据,建专业的资料库,与高考的做法差不多,然后去推进整个大模型的深入等等。
问:未来是否会有统一的夸克深度研究基座模型,夸克是否计划将多个垂类模型整合,计划为一个可跨领域的专家级精度的AI助手?
蒋冠军:现在所有的其实做的很多垂直模型工作数据,我们都在逐步沉淀到基础模型里。但是各个垂类模型依旧会跑,因为它是螺旋上升过程,今天我具备一个基础模型,迭代了一个垂类模型,在这个垂类模型上积累了一些模型结构和模型数据上比较有效的手段,我会把这样的能力或者方法沉淀到基础模型中去。
问:夸克志愿报告与夸克深入研究产品有什么技术上的关联?
蒋冠军:其实核心是模型,今天我刚才讲夸克上可以问答,可以生成一个报告。但是问答里也有很多与专业报考客观事实相关的,它的本质问题就是解决根据用户需求或者问题去做内在的推理、规划。检索到比较准确专业的材料最终给用户生成比较专业的报告。所以我们的报告和问答是同一个模型,只是最终产品输出形式上,我们会要求比如报告就生成报告的形式,问答方面就生成问答的形式。
问:志愿报告生成时数据可以理解为有知识库、数据库、模型数据三大块。我想了解什么时候调用哪部分数据?
蒋冠军:它无法在过程中分开,首先一定是分不开。我们这个报告可以分为两部分,一部分是志愿表,另外一部分叫做志愿表以外的其他内容。首先志愿表来自于志愿工具,但是模型会做一件事就是它会根据用户需求按不同的维度计算。这个计算过程就来自于模型内化知识,就是一个语义和匹配能力。
其他部分其实输入志愿表专业知识和模型内化知识,其实是做了综合内容。所以不是什么时候使用什么知识,我们整个输入会很长,但是会根据用户的要求,比如他想去哪个城市,我们就调用搜索结果,先对比确定一下沿海城市或者经济发达城市,中间决策过程中其实是比较精确。