谁是开源大模型之王？Llama、DeepSeek还是Qwen？

创始人

2025-07-16 21:41:42

0次

“友商，你们拿什么和我比？”

“友商，你们拿什么和我比？”这不是哪家公司的狂妄宣言，而是当前AI战场最真实的写照。IDC预测，2024年，全球各组织将在人工智能上投入2350亿美元，2028年这⼀数字将增长近三倍，超过6300亿美元。这预示着未来⼏年的复合年增长率（CAGR）将接近30%。开源大模型以其开放、透明、可定制的特性，成为驱动AI加速创新进程的核心引擎，它们让全球的开发者和企业能够以前所未有的速度参与到AI的研发和应用中来。

不过我们也不能简单的认为就是各科技厂商之间的技术比拼，其背后更是各国较量科技实力的无声战场。还记不记得当时DeepSeek爆红引发的各种质疑，当时的外媒报道中充斥着大量对DeepSeek的质疑。今日头条的一篇文章中说“一个去年7月成立的公司，刚刚成立一年半，仅有4人缴纳社保，竟然能开发出全球顶尖的AI大模型，你们信吗？它就是——深度求索，开发了DeepSeek的公司。”

“大佬”的进阶之路

说一千道一万，回到日常生活，Meta的Llama 2以开源之名横扫全球，Qwen系列背靠阿里云势头迅猛，DeepSeek以恐怖的技术指标席卷各大版面成功演绎什么叫“后来居上”。真正的实力面前，从来没有谦让，反而是对技术自信的张狂。很多用户可能会问，“这么多大模型公司，该怎么看谁更厉害呢？”今天，我们就来看看他们到底都看什么！先来整体梳理下这三家公司的发展脚步，大致如下图：

图：DeepSeek、Llama、Qwen三家发展梳理图

来源：数据猿经查找网络资料后制作

1. DeepSeek：后来居上，不是闹着玩的

DeepSeek作为中国AI领域的新兴力量，在开源大模型赛道上展现出了令人瞩目的发展速度和技术实力，其发展时间线清晰且迭代迅速，在技术创新和市场响应上极具敏捷性。据大量新闻报道，今年1月26日晚，游戏科学创始人、CEO冯骥发文，称“DeepSeek，可能是个国运级别的科技成果”。他还表示，如果有一个AI大模型做到了以下任何一条，都是超级了不起的突破，DeepSeek全部同时做到了。

图：冯骥评DeepSeek

来源：微博

DeepSeek的旅程始于2023年，深度求索公司正式成立。随后，在短短一年多的时间里，系列模型经历了多次关键迭代。

·2023年7月：DeepSeek公司正式成立，标志着其在AI大模型赛道的布局。

·2024年1月：DeepSeek发布了首个通用语言模型DeepSeek LLM，开启了技术追赶的序幕。

·2024年5月：DeepSeek-V2发布，总参数达2360亿，采用MoE架构优化，大幅降低成本并开源，迅速引发市场关注。

·2024年9月：DeepSeek-V2.5发布，融合代码生成与对话能力，拓展了多场景应用。

·2024年12月：DeepSeek-V3发布，总参数提升至6710亿，训练成本仅为557.6万美元，性能在多项评测中超越Owen2.5-72B和LLaMA 3.1-405B。

·2025年1月：DeepSeek-R1发布，性能媲美OpenAI，应用全球上线，全球和美国的日活跃用户数增长超110%，登顶苹果应用商店免费下载排行榜。

·2025年1月：DeepSeek-Janus-Pro发布，支持文生图与多模态理解，挑战OpenAI DALL·E和Midjourney。

·2025年2月：DeepSeek应用持续登顶苹果中国和美国应用商店，在超过140个国家中排行第一位。

图：DeepSeek模型迭代与发展历史沿革

来源:梳理网络信息及国信证券《电子AI+系列专题报告（六）——DeepSeek重塑开源大模型生态，AI应用爆发持续推升算力需求》后制作

2. Llama：开源世界的“鲶鱼”

自2023年2月首次亮相以来，Meta的Llama系列大语言模型（LLM）在AI领域掀起了巨大的波澜。从最初的Llama-1到如今即将发布的Llama-4，这一系列模型不仅在技术上不断突破，更在开源社区和商业应用中展现出强大的影响力。

·2023年2月24日：Meta首次推出Llama-1，包含7B、13B、30B和65B四个参数版本。Llama-1凭借其出色的性能和开源特性，迅速成为开源社区的焦点。然而，由于开源协议限制，该版本不可免费商用。

·2023年7月：Meta发布Llama-2，进一步扩充了模型规模至70B，并引入了分组查询注意力机制（GQA），同时将上下文长度翻倍至4096。Llama-2不仅性能更强，还首次实现了免费可商用。

·2023年8月：基于Llama-2，Meta发布了专注于代码生成的Code-Llama，进一步拓展了Llama的应用场景。

·2024年4月：Llama-3正式发布，包含8B和70B两个版本，并支持8K长文本输入。该版本在多个基准测试中表现优异，超越了同期的多个先进模型。

·2024年7月：Llama-3.1发布，推出了4050亿参数的超大型模型，并将上下文长度提升至128K tokens。

·2024年12月：Llama-3.3发布，仅70亿参数的模型在性能上比肩Llama-3.1的4050亿参数版本，同时大幅降低了推理和部署成本。

·2025年4月：Llama-4发布多次推迟，据新浪财经，关键原因是技术基准测试未达内部预期，如推理和数学任务有短板，模拟人类语音对话不及OpenAI。

3. Qwen：阿里云的“生态王牌”

Qwen（通义千问）是阿里巴巴达摩院研发的大语言模型系列。其命名源自中文“通义千问”，寓意着致力于通过技术回答人类的各种问题。

·2023 年 4 月：通义千问上线并邀请用户测试体验，是国内最早一批类ChatGPT大模型产品。

·2023 年 6 月：聚焦音视频内容的工作学习AI助手“通义听悟”上线。

·2023 年 7 月：AI绘画创作大模型“通义万相”开启定向邀测。

·2023 年 8 月：通义千问70亿参数模型Qwen-7B开源，阿里巴巴成为国内首个开源自研大模型的大型科技企业。

·2023 年 9 月：通义千问正式向公众开放。

·2023 年 10 月：通义千问升级到2.0版本，参数规模达千亿级。

·2024 年 6 月：Qwen2系列发布，包含0.5B到72B多个尺寸。

·2024 年 9 月：Qwen2.5系列发布，涵盖0.5B到72B多个尺寸。

·2025 年 4 月：Qwen3系列发布，包含0.6B到235B多个尺寸。

图：通义千问对话页面

来源：阿里云

性能PK

Llama副总裁Ahmad AI-Dahle于今年4月6日在社交媒体平台X发布了一张测试图片，并配文“截至今天，Llama4 Maverick提供了一流的性能与成本比，其实验性聊天版本在LMArena上的ELO得分为1417。”这位副总裁还感慨道几年前的Llama还是一个研究项目，真是令人难以置信。

1、ELO评分

让我们来看看他发的这张图表，该图展示了不同语言模型在LMArena平台上的ELO评分与成本之间的关系。ELO评分是什么？它通常用于衡量棋手的水平，这里被用来衡量语言模型的性能，成本则是指运行这些模型所需的费用。图中的每个点代表一个特定的语言模型，横轴表示成本（从$0.00到$100.00），纵轴表示ELO评分（从1200到1425）。

来源：Ahmad Al-Dahle的X账号

我们可以从图片中看到Llama 4 & Maverick 03-26 Experimental和GPT-4.0 (Mar 25) 位于图的右上角，表明它们具有较高的ELO评分和成本，意味着他们在性能上非常出色，但运行成本也相对较高；而DeepSeek V3.1 (Mar 25) 和 DeepSeek RT位于图的中间偏上位置，处于中等偏高的ELO评分和成本，因此，DeepSeek可能在性能和成本之间的平衡比较好。最后，Qwen 2.5 Max和a3-mini (high)位于图的左下角，显示出较低的ELO评分和成本，意思是这类模型可能在性能上不如高成本模型，但运行成本较低，可能更适合预算有限的应用场景。不过，图中也列了一些可能会影响模型性能和成本的假设条件，如分布式推理、特定硬件配置、缓存等。以上测试结果也可能已经受环境影响得到优化。

图：主流大模型信息对比

来源：国信证券《电子AI+系列专题报告（六）——DeepSeek重塑开源大模型生态，AI应用爆发持续推升算力需求》

2、MMUL/s分数

根据国信证券汇总报告中已测试过的MMUL/s分数，这三大模型均在开源领域处于领先地位，且性能已能与部分闭源模型匹敌：

·Llama3-405B达到了85.2分，性能卓越

·Qwen2-72B更是达到了惊人的86.1分，在开源模型中处于顶尖水平

·DeepSeek-V2-236B也取得了78.8分，在保持大规模的同时兼顾了效率

高MMUL/s分数意味着模型在推理任务上具有更高的效率和更快的响应速度，对实际应用，尤其是需要低延迟和高并发的商业场景至关重要。

在Meta-Llama官网中，我们看到它根据一系列不同语言的通用基准评估了模型性能，测试了编码、推理、知识、视觉理解、多语言和长上下文

图：基准

来源：Llama官网

3、Artificial Analysis发布的“AI智能指数”

4月8日，Artificial Analysis更新了AI智能指数，该指数对目前领先的AI模型进行综合评估，结合了MMLU-Pro、GPQA Diamond、Humanity's Last Exam等七项严苛的基准测试。在此次的结果中，Llama 4系列模型表现尤为抢眼，逼近榜首。

图：Artificial Analysis Intelligence Index

来源：Artificial Analysis的X账号（4月8日）

根据Artificial Analysis的最新数据，Meta的Llama 4 Scout和Llama 4 Maverick模型在智能指数上取得了显著进步。Llama 4 Scout指数从36跃升至43，而Llama 4 Maverick则从49提升至50。

值得注意的是，在最初的评估中，Artificial Analysis发现他们测量的结果与Meta声称的MMLU Pro和GPQA Diamond分数存在差异。进一步实验审查后，他们调整了评估原则，允许Llama 4模型在回答多项选择题时，即使答案格式与预期不同（例如，以“最佳答案是 A”的形式），只要内容正确，也视为有效答案。尽量避免不公平地惩罚那些以不同风格呈现答案但内容正确的模型，进而更准确地反映Llama 4系列的实际能力，这也就促成了Scout和Maverick智能指数的大幅提升。

来源：Artificial Analysis的X账号（4月8日）

☆DeepSeek V3仍领跑，但Llama 4 Maverick效率惊人

尽管DeepSeek V3 (0324) 以53分的成绩仍保持微弱领先，但Llama 4 Maverick（50分）的表现同样令人印象深刻。Maverick在参数效率上展现了巨大优势，即它仅使用了DeepSeek V3大约一半的活动参数（170亿vs370亿），并且总参数量也只有DeepSeek V3的约60%（4020亿vs6710亿）。更难得的是，Maverick还支持图像输入。Llama 4 Maverick可以在更精简的体量下实现接近顶级性能的能力，对那些追求高效部署和资源优化的开发者来说，无疑是吸引力满满呀。【备注：Artificial Analysis强调，所有测试均基于Hugging Face发布的Llama 4权重版本进行，并通过一系列第三方云服务提供商进行了测试，以确保评估的公正性和广泛性。他们特别指出，评估结果不基于Meta提供的实验性聊天调优模型（Llama-4-Maverick-03-26-Experimental），强化评估的独立性。

用户数据对比

DeepSeek的全球表现令人惊艳，根据aitools.xyz在2025年5月发布的“最受欢迎AI工具”榜单，DeepSeek成功位列全球第四名，月访问量达到580,248次，环比增长1.32%。DeepSeek的Web流量增长轨迹更是有说服力，2024年全年DeepSeek的Web总访问量为2140万次，独立访问量545万次；至2025年5月，DeepSeek的Web总访问量飙升至 4.261亿次，独立访问量达到7250万次。惊人的数据表明DeepSeek在不到一年的时间里，其总访问量实现了近20倍的惊人增长，独立访问量也增长了约13倍。进一步看，DeepSeek在全球开源大模型市场的应用份额不断扩大。

图：DeepSeek web流量数据统计

（左：2024年全年，右：2025年5月）

来源：aitools.xyz

再来看Llama，在今年3月时，副总裁Ahmad AI-Dahle发文祝贺Llama下载量超10亿次，根据相关数据，这比2024年12月初报告的6.5亿次下载量有了显著增长，在短短三个月内增长了约53%。

它在2024年全球总访问量达到233.02K，独立访问量为165.72K，相较于此前分别增加了120.59K和77.57K，实现了高达107.26%的同比增长，在大型语言模型市场份额上，从之前的基础增长了0.12%，达到了0.22%。2025年5月，Llama的Web流量轨迹出现了显著的下行趋势。该月总访问量降至15.33K，独立访问量为12.53K，相比此前分别减少了7.66K和7.91K，月环比下降了33.33%。这一骤降也反映在其市场地位上，大型语言模型的市场份额回落至0.14%，下降了0.09%。尽管全球排名略有改善（从2779上升至2669），但美国排名和大型语言模型排名仍在持续下降，这可能预示着在关键市场和核心领域竞争的加剧。

图：Meta Llama流量数据统计

（左：2024年全年，右：2025年5月）

来源：aitools.xyz

此外，我们还对比了三家在GitHub上的星标数和fork数，这是GitHub上衡量项目受欢迎程度和参与度的两个重要指标。星标数代表了项目受到的关注程度，用户可以通过点击项目页面上的“Star”按钮来为项目添加星标。

来源：GitHub“Meta-Llama”

来源：GitHub“QwenLM”

来源：Github“DeepSeek-ai”

在关注者数量上，DeepSeek以78k遥遥领先，显示出其在多模态理解领域的广泛影响力。Meta Llama和Qwen虽然在关注者数量上不及DeepSeek，但它们的项目同样在各自的领域内具有显著的影响力；在项目受欢迎程度上，DeepSeek的DeepSeek-V3和DeepSeek-R1项目星标数远超其他两个组织，显示出其在社区中的极高人气。Meta Llama的llama和llama3项目也表现出色，其在语言模型领域有强大的吸引力，Qwen的星标数则相对较低；在项目多样性上，DeepSeek的项目更侧重于多模态理解，Meta Llama的项目集中在语言模型的开发和应用。而Qwen则在大语言模型和多模态模型方面有着更多的探索。

整体来看，DeepSeek、Qwen和Llama在GitHub上的表现各有千秋，它们分别在多模态理解、大语言模型和语言模型领域展现了强大的技术实力和创新能力。Llama的成功在于其极致的开放策略和强大的全球社区凝聚力；DeepSeek 则以其惊人的技术迭代速度和在全球用户侧的爆发式增长，迅速崛起为中国乃至全球开源大模型领域的一股重要力量；而Qwen则凭借阿里巴巴的强大生态支持和在国内市场的深厚根基，成为中国AI应用领域的核心引擎。随着技术的不断进步，我们可以预见这些模型持续赋能千行百业，但是不断优化模型架构、提升推理效率的同时，实在应当更加注重用户隐私和伦理问题。

上一篇：“沪九条”扶持互联网优质内容，青年创作者如何超越流量焦虑

下一篇：经兰州前往西安方向多趟列车折返，12306回应：山体滑坡致陇海线出问题

谁是开源大模型之王？Llama、DeepSeek还是Qwen？

“大佬”的进阶之路

性能PK

用户数据对比

相关内容

热门资讯