网易有道“子曰4”多模态模型、语音合成模型全量开源
创始人
2026-05-22 20:01:27
0

IT之家 5 月 22 日消息,网易有道今日宣布,决定将“子曰”大模型 4.0 的核心双引擎 ——“多模态模型”与“语音合成(TTS)模型”,正式面向全球全量开源。开发者可以免费下载、部署,并基于此进行二次开发。

此次开源的“子曰 4”多模态模型(27B 参数规模)面向教育场景,支持视觉输入的数理能力,做到了行业顶尖水平(SOTA)。

  • 在同等参数的规模模型中,处理带图表的高难度视觉数理问题
  • 纯文本的中文数理难题,准确率 81.4%

此外,新模型采用了精细化思维链重构方案。通过汇聚大规模优质、精简的推理样本进行深度优化,把思维链输出长度压缩了 43.2%。这意味着:回答同样的问题,它输出的 Token 更少、推理路径更短、出答案更快

对于做实际业务的开发者和企业来说,直接效果就是:推理成本下降

此外,网易有道团队还针对国内学生真实的作业、考试和提问场景进行了深度优化,让它能够解决真实学习中遇到的复杂痛点。

而开源的语音合成(TTS)模型支持跨语种音色情感迁移克隆,只要上传一段中文音频,就能克隆说话人的音色,并流利说出英语、韩语、越南语…… 不带“中式口音”。而且情感也能精准迁移克隆 —— 只要生气地说一句话,合成出来的外语也是生气的语气。

  • 3 秒:上传任意音频素材,系统即可在 3 秒内完成零样本原声复制。
  • 97%:在克隆任务中准确度超过 97%,克隆音色与原声的相似度达 85% 以上。
  • 14 种语言:全面支持中、英、日、韩、德、法、西、印尼、意、泰、葡、俄、马来、越南语等 14 种语言。

IT之家附两款模型开源地址如下:

  • 多模态模型:https://huggingface.co/netease-youdao/Confucius4
  • TTS 模型:https://github.com/netease-youdao/Confucius4-TTS

相关内容

热门资讯

这一交易在马来西亚引发强烈抗议... 【文/观察者网 张菁娟】澳大利亚稀土公司莱纳斯(Lynas Rare Earths)近日与美国国防部...
吃开源的饭,砸开源的锅?3D打... (文/万肇生 编辑/张广凯)一家依靠开源生态快速构建起自己产品生态的公司,却在做大后反手封锁开发者的...
各系统已准备就绪!神舟二十三号... 据凤凰卫视报道,5月22日,神舟二十三号载人飞船发射任务组织全区合练。目前,发射任务各系统已完成相关...
网传“茂名荔枝泡药水”?官方回... 近日,一段定位显示为“茂名市诚鸿农业有限公司”的荔枝加工短视频在网络上引发关注,视频中工人将荔枝倒入...
“欧盟激辩对华政策、频频下手,... 【文/观察者网 柳白】欧洲本土产业竞争力日渐疲软,贸易保护主义思潮持续抬头,中欧经贸博弈随之愈发激烈...
复盘2024年败选原因,民主党... 新华社北京5月22日电 美国民主党全国委员会21日发布2024年总统选举败选复盘报告,将民主党总统候...
HMD在印度推出新机Vibe ... IT之家 5 月 22 日消息,据外媒 TechCrunch 今日报道,HMD 正式发布首款智能手机...
“全国科技工作者日”欢乐科学周... 5月21日,2026年现代科技馆体系联合行动暨自然科学类博物馆系列科普活动“全国科技工作者日”欢乐科...
网易有道“子曰4”多模态模型、... IT之家 5 月 22 日消息,网易有道今日宣布,决定将“子曰”大模型 4.0 的核心双引擎 ——“...
电影能“轻装上阵”吗 ■ 张勇 当前,AI生成或参与制作的电影不再只是实验室里的概念,而是实打实地出现在电影院里,随之而来...