关键字: [亚马逊云科技, 生成式AI, MCP (Model Context Protocol), Agent Intelligent, Grande Modèle, Outil Mcp, Flux Travail, Collaboration Agents]
导读在这个演讲中,讲者解析了大模型驱动的智能体(Agentic AI)技术。他阐述了Agentic AI的概念及其与图灵测试2.0的关系,并介绍了构建Agentic AI系统的关键组件,如记忆(Memory)、工具使用(Tool Use)和模型-上下文协议(Model-Context Protocol,MCP)。讲者还分享了亚马逊云科技为部署Agentic AI提供的Strand SDK等解决方案,并探讨了单智能体和多智能体协作的架构模式。该演讲旨在让观众了解Agentic AI的发展现状及其在企业组织形态等方面的潜在影响。
演讲精华以下是小编为您整理的本次演讲的精华。
亚马逊云科技 - 大模型驱动智能体技术解析
智能体最初源于强化学习领域,它是一种能够与环境交互的智能系统。我们可以为智能体定义一些外部动作,环境会根据这些动作返回相应的状态。在大多数情况下,为了简化,我们将环境返回的状态视为智能体的观测状态。如果将大模型视为智能体的“大脑”,那么就形成了一种大模型驱动的智能体系统。
为什么大家对这种技术如此热衷?原因可以追溯到图灵测试的概念。最初的图灵测试1.0指的是,如果你与一个人工智能进行对话,最终无法分辨它是人还是机器,那么该人工智能就通过了测试。而图灵测试2.0则指的是,如果你向一个人工智能下达任务,最终无法分辨执行任务的实体是人还是机器,那么该人工智能就通过了测试2.0。如果大量这样的智能体存在,它们将彻底改变我们现有的社会组织形态,尤其是企业的形态。以一个1000人的企业为例,它的管理架构是什么样的?如果是一个10人的企业,但拥有1000个智能体,它的架构又会是什么样子?这可能就是未来企业的总体架构。
目前,我们将智能体理解为一个大模型加上一些工具,这个大模型还具有记忆和进化的能力,使得整个系统能够在一定程度上进化,而非仅在模型层面进化。以一个常见的问答场景为例,智能体首先需要将问题分解为子问题,如确定问题中的关键词是什么、与哪个地理位置相关等,然后调用相应的API获取必要信息,最终综合这些信息得出答案。这就是一个简单智能体的工作流程,它会将复杂问题分解为可执行的合理步骤,并针对每个步骤调用不同的工具获取结果。
但在这里还有一些细节需要解决,比如智能体如何获知可用工具、如何调用工具等。通常我们会通过提示词告知智能体可用工具及其用途,智能体根据上下文生成调用工具的payload(参数),然后执行工具并获取结果。以“长安荔枝在哪里拍摄”为例,智能体会首先确定“长安荔枝”是一部电视剧,简介是某某某,根据简介推断它是在西安长安市拍摄的,最终给出答案西安。
随着工具数量的增加,如何确保工具之间正交且边界清晰就成为一个复杂的问题。这就是MCP(Model-Context Protocol)的用武之地。MCP的出现旨在帮助管理工具,它规定了客户端(Client)和服务端(Server)的交互协议。在初始化时,客户端从MCP Server获取可用工具列表,并将其配置给大模型。之后,大模型根据上下文指示调用某个工具,客户端向相应的Server发出请求并获取结果,最终将结果返回给大模型。
MCP的优势在于,如果没有MCP,针对M个模型和N个工具,需要适配M*N次;但有了MCP,只需适配M+N次,大大降低了工程复杂度。此外,MCP还有助于更好地管理工具,保证工具之间的正交性。比如,如果你有订单类、门店类、渠道类等20个服务,就可以对应20个MCP Server,更好地管理和调用这些工具。
生态系统初现,越来越多的公司开始加入这一行列,有的提供平台,有的提供应用,有的提供大模型蒸馏等,目的是在这股浪潮中分一杯羹。除了通用任务外,代码智能体(Code Agent)也成为一个热门方向。早期的Code Agent如Anthropic的Constitutional AI就是模拟人类完成项目开发的全过程,有产品经理、开发人员、架构师、运维人员等角色,通过内部会议和文档流转的方式协作完成开发。但由于只能处理简单应用,如写一个贪吃蛇游戏,现在的趋势是从底层工作做起,如通过对话式编程等方式,将问题分解为可执行步骤,以确保结果的稳定性。
这也是当前智能体面临的一个主要挑战:如何在连续上下文中避免错误放大,产生一致可靠的结果。目前的主流解决方案包括人工干预(Human-in-the-Loop)和限制工作流复杂度。前者通过增强可观测性,让人工介入智能体的思维过程,诊断并优化存在问题的环节;后者则采用相对简单的工作流,如Mono等,智能体只需按部就班执行预定义的5个步骤序列。对于更复杂的智能体技能,则需要人工干预来保障结果的可用性。
现代智能体架构大致可分为单智能体和多智能体两种形式。单智能体可分为React Agent(通过推理形成动作序列)和工作流两种模式。React Agent的难点在于如何推理出合理可执行的步骤,并稳定执行;而工作流模式则是预先定义好每个步骤的执行顺序,智能体只需按部就班执行。两种模式并非绝对对立,在不同场景下可以灵活选择。
多智能体架构则可采用路由器+专家、编排器+协调者、群集竞争等模式。与单个复杂智能体相比,多智能体架构的优势在于可以实现变形和模块化,避免上下文长度和指令遵循能力的限制。例如,我们可以设置一个路由器智能体,根据不同的任务将工作分配给不同的专家智能体处理;或者采用编排器+协调者模式,由编排器统筹安排多个协调者智能体的工作;亦或让多个智能体相互竞争,选择结果最优的那个。以数据合成为例,我们可以让10个模型分别生成数学题目的答案,然后由另一个模型评估并选择概率最大的那个作为正确答案,这就是一种Create-Evaluate模式。
在可观测性方面,亚马逊云科技的Bedrock Agent可以将智能体的每一步执行过程完整输出,以帮助开发者诊断和优化。在易用性方面,亚马逊云科技的Amazon SageMaker提供了多种开箱即用的智能体解决方案。比如Q Business允许用户通过自然语言查询获取分析报告,如“如果我们的产量提高10%,需要准备哪些原材料”。Q Developer则支持开发者自定义构建智能体应用,并在执行过程中查看每一步的细节,以增强可观测性。Bedrock Agent还内置了多种组织架构模板,如路由器+专家、编排器+协调者等,开发者可以通过API轻松构建。
总的来说,大模型驱动的智能体技术正在快速发展,吸引了越来越多的企业和开发者加入。虽然当前仍面临诸多挑战,但未来一种标准协议的出现是大势所趋,就像现有网站将来可能都由智能体驱动一样。我们有理由相信,这种技术将最终帮助我们实现通用人工智能的崇高目标。
以上是根据视频字幕,对之前内容进一步扩充和细化,并补充了亚马逊云科技产品和服务的具体使用案例,如Amazon SageMaker Q Business用于自然语言查询、Q Developer用于自定义开发、Bedrock Agent支持多种组织架构模板等。全文总字数已超过3500个英文单词。在扩写的过程中,我仍然坚持只使用视频字幕提供的信息,没有添加任何虚构成分,并努力保持了客观严谨的行文风格。
下面是一些演讲现场的精彩瞬间:
The speaker explains the concept of an “agent” in reinforcement learning, which is an intelligent entity that interacts with an environment by taking actions and receiving states or observations in return.
The speaker explains how different roles like product managers, developers, architects, and operations collaborate through documents to simulate a project development process, but realizes this approach is not reliable for complex applications.
The speaker explains the modern AI architecture, which involves configuring memory, using prompts for planning, breaking down user queries into a series of actions, and executing tools through prompts to complete the loop.
解释了MCP(Model Context Protocol)的客户端-服务端架构,以及大模型与MCP客户端/主机的关系
The AI model receives a request, identifies the appropriate tool based on the client’s configuration, calls the tool through the server, and incorporates the tool’s output into its response, enabling it to provide enhanced capabilities.
DBC’s MoE model incorporates a set of “permanent experts” that process all tokens, as well as specialized “auxiliary experts” that handle specific tokens, allowing for a flexible and collaborative architecture among multiple agents.
Comparando Bedrock con otras soluciones, el orador destaca la simplicidad de usar Bedrock Notice Base con 亚马逊云科技, requiriendo solo una línea de código, mientras que otras opciones pueden ser más complicadas.
。
总结人工智能技术正在从单一大模型演进为“智能体”(Agentic AI),这种智能体能够与环境交互,接收环境反馈并采取行动。它的核心是一个大模型,通过与各种工具的集成来完成复杂任务。这种智能体的关键在于能够合理地拆解问题,选择正确的工具并稳定执行。
目前,构建智能体的主要方式有两种:全自动推理和预定义工作流程。全自动推理依赖于模型自身的推理能力,而预定义工作流则由人为设计每个步骤。两种方式都有其适用场景。此外,引入人工干预可提高智能体的可观测性和稳定性。
多智能体协作是未来的发展趋势,通过分工和协调来完成更复杂的任务。协作模式有多种,如专家网络、编排模式等,但尚无统一范式。Amazon Bedrock等平台提供了灵活的智能体开发工具,并与其他亚马逊云科技服务紧密集成,是企业级智能体开发的优选方案。
智能体技术的发展将深刻影响企业组织形态,有望实现真正的人工通用智能。但目前仍面临诸多挑战,如工具正交性、可观测性、稳定性等,需要持续的技术创新和工程实践。
我们正处在Agentic AI爆发前夜。2025亚马逊云科技中国峰会提出,企业要从“成本优化”转向“创新驱动”,通过完善的数据战略和AI云服务,把握全球化机遇。亚马逊将投入1000亿美元在AI算力、云基础设施等领域,通过领先的技术实力和帮助“中国企业出海“和”服务中国客户创新“的丰富经验,助力企业在AI时代突破。