上海人工智能实验室开源通用多模态大模型书生・万象3.5_科技资讯

上海人工智能实验室开源通用多模态大模型书生・万象3.5

创始人

2025-09-05 02:21:28

0次

🤖 由文心大模型生成的文章摘要

前文介绍了上海人工智能实验室开

上海人工智能实验室（上海AI实验室）宣布开源通用多模态大模型书生・万象3.5（InternVL3.5），其推理能力、部署效率与通用能力全面升级。此次开源标志着人工智能领域在多模态技术方面取得了重大突破，为全球科研人员和开发者提供了更强大的工具。

InternVL3.5本次开源涵盖了9种不同尺寸的模型，参数范围从10亿至2410亿，以满足各种场景下的多样化需求。其中，旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU中获得了77.7分的高分，在所有开源模型中位居榜首。该模型的多模态通用感知能力超越了GPT-5，文本能力也在主流开源多模态大模型中独占鳌头。

与之前的InternVL3.0相比，InternVL3.5在图形用户界面（GUI）智能体、具身空间感知、矢量图像理解与生成等多个特色任务上取得了显著提升。上海AI实验室的研究团队在此次升级中，着重强化了InternVL3.5在实际应用中的智能体与文本思考能力，实现了在多个关键场景中从“理解”到“行动”的跨越，这一成果得到了多项评测的验证。

在GUI交互方面，InternVL3.5在ScreenSpot-v2元素定位任务中获得了92.9分的优异成绩，超越了同类模型。该模型不仅支持Windows和Ubuntu系统的自动化操作，还在WindowsAgentArena任务中大幅领先于Claude-3.7-Sonnet。在具身智能体测试中，InternVL3.5展现出了对物理空间关系的理解能力，并能够规划导航路径，在VSI-Bench测试中以69.5分的成绩超过了Gemini-2.5-Pro。在矢量图形理解与生成方面，InternVL3.5在SGP-Bench测试中刷新了开源纪录，其生成任务的FID值也优于GPT-4o和Claude-3.7-Sonnet。

具体而言，InternVL3.5具备跨平台操作能力，可在Windows、Mac、Ubuntu、Android等多个平台上识别界面元素，并自主执行鼠标和键盘操作，实现诸如恢复已删除文件、导出PDF、邮件添加附件等任务的自动化。此外，InternVL3.5还具备更强的grounding能力，能够在全新的复杂小样本具身场景中实现泛化，配合抓取算法，支持可泛化的长程物体抓取操作，助力机器人更高效地完成物品识别、路径规划与物理交互。

作为上海AI实验室书生大模型体系的重要组成部分，InternVL专注于视觉模型技术。目前，InternVL全系列的全网下载量已突破2300万次，显示出其在全球范围内的广泛应用和影响力。

上海AI实验室开源InternVL3.5，旨在推动多模态大模型技术的进一步发展，促进全球科研人员和开发者之间的合作与创新。通过提供这一强大的开源工具，实验室希望加速人工智能在各个领域的应用，为解决现实世界的复杂问题提供更多可能性。

上一篇：亿航智能深化合肥政府合作，VT35系列长航程复合翼无人驾驶eVTOL产品总部落户合肥

下一篇：现场观看阅兵仪式之后，日籍老战士遗属代表这样说

上海人工智能实验室开源通用多模态大模型书生・万象3.5

相关内容

热门资讯