🤖 由 文心大模型 生成的文章摘要
前文介绍了上海人工智能实验室开
上海人工智能实验室(上海AI实验室)宣布开源通用多模态大模型书生・万象3.5(InternVL3.5),其推理能力、部署效率与通用能力全面升级。此次开源标志着人工智能领域在多模态技术方面取得了重大突破,为全球科研人员和开发者提供了更强大的工具。
InternVL3.5本次开源涵盖了9种不同尺寸的模型,参数范围从10亿至2410亿,以满足各种场景下的多样化需求。其中,旗舰模型InternVL3.5-241B-A28B在多学科推理基准MMMU中获得了77.7分的高分,在所有开源模型中位居榜首。该模型的多模态通用感知能力超越了GPT-5,文本能力也在主流开源多模态大模型中独占鳌头。
与之前的InternVL3.0相比,InternVL3.5在图形用户界面(GUI)智能体、具身空间感知、矢量图像理解与生成等多个特色任务上取得了显著提升。上海AI实验室的研究团队在此次升级中,着重强化了InternVL3.5在实际应用中的智能体与文本思考能力,实现了在多个关键场景中从“理解”到“行动”的跨越,这一成果得到了多项评测的验证。
在GUI交互方面,InternVL3.5在ScreenSpot-v2元素定位任务中获得了92.9分的优异成绩,超越了同类模型。该模型不仅支持Windows和Ubuntu系统的自动化操作,还在WindowsAgentArena任务中大幅领先于Claude-3.7-Sonnet。在具身智能体测试中,InternVL3.5展现出了对物理空间关系的理解能力,并能够规划导航路径,在VSI-Bench测试中以69.5分的成绩超过了Gemini-2.5-Pro。在矢量图形理解与生成方面,InternVL3.5在SGP-Bench测试中刷新了开源纪录,其生成任务的FID值也优于GPT-4o和Claude-3.7-Sonnet。
具体而言,InternVL3.5具备跨平台操作能力,可在Windows、Mac、Ubuntu、Android等多个平台上识别界面元素,并自主执行鼠标和键盘操作,实现诸如恢复已删除文件、导出PDF、邮件添加附件等任务的自动化。此外,InternVL3.5还具备更强的grounding能力,能够在全新的复杂小样本具身场景中实现泛化,配合抓取算法,支持可泛化的长程物体抓取操作,助力机器人更高效地完成物品识别、路径规划与物理交互。
作为上海AI实验室书生大模型体系的重要组成部分,InternVL专注于视觉模型技术。目前,InternVL全系列的全网下载量已突破2300万次,显示出其在全球范围内的广泛应用和影响力。
上海AI实验室开源InternVL3.5,旨在推动多模态大模型技术的进一步发展,促进全球科研人员和开发者之间的合作与创新。通过提供这一强大的开源工具,实验室希望加速人工智能在各个领域的应用,为解决现实世界的复杂问题提供更多可能性。