手机pc微信三合一网站wordpress群站域名

张小明 2025/12/22 14:34:06
手机pc微信三合一网站,wordpress群站域名,wordpress 淘宝模板,怎么学做网站PHP本文是一篇关于AI Agent的全面综述#xff0c;系统介绍了AI Agent从诞生到应用的完整框架。内容涵盖配置文件定义#xff08;静态与动态#xff09;、记忆机制#xff08;短期与长期#xff09;、计划与决策能力、行动执行、多智能体协作模式、自我进化机制、测试评估方法…本文是一篇关于AI Agent的全面综述系统介绍了AI Agent从诞生到应用的完整框架。内容涵盖配置文件定义静态与动态、记忆机制短期与长期、计划与决策能力、行动执行、多智能体协作模式、自我进化机制、测试评估方法、工具部署生态以及安全挑战。文章还提供了AI Agent在科学研究、游戏、社会科学和生产力工具等领域的应用案例为开发者和研究者提供了构建或完善自身Agent知识体系的全面参考。AI Agent无疑是近几个月AI领域最炙手可热的话题之一。事实上过去几年间围绕Agent的研究与开发已经取得了突飞猛进的进展大量成果涌现为我们提供了丰富的知识储备和实践资源。但面对如此快速的进展我们该如何快速理清AI Agent的研究脉络并构建起属于自己的认知框架最近来自北京大学、伊利诺伊大学芝加哥分校、南洋理工大学、腾讯优图实验室等全球多所顶尖高校和研究机构的学者们写了一篇综述性文章https://arxiv.org/abs/2503.21460,系统性地回顾了AI Agent的研究现状为我们构建了一个从Agent诞生、拥有记忆、进行规划决策、执行任务、与其他Agent协作到最终实现自我进化和应用的完整概念框架。我们认为这篇综述文章为AI Agent领域绘制了一幅“知识地图”提供了一个全面且结构化的索引系统性地梳理了当前Agent研究的关键路径与成果。对于希望构建或完善自身Agent知识体系、乃至寻求创新突破口的开发者和研究者而言这份框架提供了极佳的起点和参照。正因如此我们特别编译整理了这篇重要文献的核心内容希望能帮助大家更高效地理解和探索AI Agent的世界。01配置文件定义每一个Agent在投入运行之前都要经历一个“诞生”阶段即配置文件定义。这决定了Agent的“先天特质”和“人格”为后续行为打下基础。静态配置可以理解为生成一个Agent实例就像在游戏里创建一个角色。此时需要确定这名Agent用哪个大型语言模型作为“大脑”以及基本的运行框架。创建阶段还包括赋予Agent一个角色设定Profile即定义它的身份、属性和行为模式。通过人工精心设定的静态配置Agent的行为会严格遵循预先设计的规则和风格以确保在特定领域的一致性和可控性。很多多Agent系统会预先定义好几类固定角色。例如像 Camel、AutoGen 和 OpenAgents 等框架会通过预定义的对话角色例如用户代理和助手代理来协调人机协作通过结构化对话执行任务。而像 MetaGPT、ChatDev 和 AFlow 等框架则展示了基于角色的协调模式通过设定和协调具有特定技术或职能的角色如 ChatDev 框架中设定的产品经理、程序员、测试员等与确定性交互协议来协作完成特定任务如 ChatDev 专注于代码开发或将这一范式通过结构化角色编排扩展到更广泛的通用任务解决如 MetaGPT 和 AFlow。动态配置除了静态配置还有一种动态初始化的方式。动态Profile会通过参数化的方法批量生成一系列多样化的Agent配置。这有点像在模拟社会中一次性创造出性格各异的一群“NPC”。比如在初始化时随机赋予每个Agent不同的性格倾向、知识背景或者价值观让整个Agent群体呈现丰富的多样性。研究者通过模板提示或从潜在空间采样的方法来生成这些差异使Agent在群体中表现出复杂的社交动态。这种方式常用于模拟人类社群行为的研究例如让几十个性格各异的AI代理在一个虚拟小镇中互动一段时间后观察是否会涌现出类似人类社会的行为模式。无论静态还是动态的Profile设置都相当于在Agent启动前给它“奠定人格”和“初始记忆”规定了它的决策边界和交互风格。此外DSPy 可以进一步优化代理配置文件初始化的参数。02记忆机制一个Agent光有初始设定还不够要让它在执行复杂任务时表现出连贯智能必须赋予它记忆机制。记忆让Agent可以记住上下文、积累经验并在后续步骤中调用这些信息。短期记忆类似于人类的工作记忆或缓存用于储存对话的上下文和最近收到的环境反馈。短期记忆维持的是任务执行过程中的临时信息。例如当Agent与用户多轮对话时短期记忆让它记得“之前用户提过的要求”从而在对话后面的回答中不跑题。在很多Agent框架中都实现了短期记忆功能比如ReAct系统通过让Agent回顾自己的思考步骤来进行反思ChatDev让软件Agent记住代码修改的历史Graph-of-Thoughts框架中Agent会保留推理链等等 。短期记忆提高了Agent的推理深度和连贯性但它也像人脑的短暂记忆一样易逝且容量有限——一旦任务完成或对话结束短期记忆中的内容往往就被清空不会长期保留 。长期记忆实践中长期记忆系统能够系统性地归档智能体的中间推理轨迹并将其转化为可复用的“资产”。这种转化过程体现在几种主要范式中一是构建编码了程序性知识的技能库例如Voyager项目在Minecraft游戏中实现的自动化技能发现或GITM项目采用的基于文本的知识库二是建立存储了成功或失败模式的经验库如ExpeL项目中的精炼经验池或是Reflexion框架用于优化试验的记忆机制三是通过工具合成框架实现工具的组合与自适应演化TPTU的自适应工具组合和OpenAgents的自扩展工具包便是此类代表。知识检索知识检索本身也被视为一种重要的记忆形式它将外部知识源整合到生成过程中。当前的实现包括通过文本语料库如经典的RAG或结构化知识图谱如GraphRAG进行静态知识定位通过结合智能体对话与外部查询进行交互式检索如Chain of Agents所示其中智能体间的短期通信能触发上下文相关的知识获取以及将逐步推理与动态知识获取相结合的集成推理检索方法如IRCoT和Llatrieval系统所展示的那样更有KG-RAR等高级变体。03计划与决策有了角色和记忆一个Agent还需要计划与决策能力才能自主完成复杂任务。这里的“计划”指的是把最终目标拆解成具体可执行的步骤并在执行过程中不断调整策略。任务分解面对复杂问题时Agent会将其拆解为更小的子任务来逐一解决 。最简单的分解方式是“链式规划”Agent先想出一个从头到尾的步骤链然后按顺序依次完成每个子任务。链式规划实现简单但缺点是一旦前面步骤有错误后面就会层层传递而且中途不易更改。为此有研究让Agent采用动态规划不预先固定整个计划只生成当前最需要做的下一步然后执行、获取反馈、再决定后续步骤 。除了线性链条有些任务需要更复杂的决策树。于是出现了“树状规划”Tree-of-Thought的方法Agent在脑海中探索一棵决策树分支出多种可能的解题路径 。它可以同时尝试不同思路如果某条路径走不通还能回溯backtrack到之前的节点改走其他路径 。树状规划让Agent拥有“试错-纠错”的能力非常适合那些需要反复摸索的复杂任务 。一些高级方法甚至把强化学习引入其中例如利用蒙特卡洛树搜索MCTS来帮助Agent在决策树中选择最佳路径 。反馈驱动迭代设置Agent根据反馈不断改进自己的计划。这种反馈可以来自多方面——环境的反应、用户的提示、Agent自身的反思或其他Agent的建议。通过反馈Agent可以发现计划中的不足并及时调整。这种边执行边学习的机制让Agent的决策更具适应性和稳健性 。04行动执行有了详细的计划蓝图Agent还需要真正执行行动将想法落地。这一步听起来理所当然但对于AI Agent而言执行行动意味着两件事一是调用外部工具或接口去完成某些它自身做不到的操作二是如果在物理世界行动则要能控制实体或设备。工具使用大型语言模型本身擅长的是文本推理和生成但并不擅长精确计算、实时查询等。为了让Agent具备更广泛的能力我们可以为它配置各种插件工具。例如可以让Agent调用计算器进行复杂运算、访问互联网获取最新资讯、调用日历安排日程甚至执行代码。关键的问题在于Agent需要决定什么时候该用工具以及选用哪一个工具 。Agent应在不确定自己答案是否可靠或者遇到特定功能需求时考虑调用工具。这就像人遇到不会的问题会查资料一样Agent如果对某步决策信心不足可以请求帮手。工具选择同样重要——Agent需要理解当前有哪些工具可用、各自擅长什么然后挑选最合适的那个。有些框架通过简化工具文档或示例让Agent更容易明白每个工具的用法和能力边界从而做出正确选择。实体交互当Agent被赋予控制物理设备或在现实环境中行动的职责时就涉及实体世界的交互 。这类执行要求Agent能够理解物理环境的反馈并据此调整动作 。这些都超出了纯文本生成的范畴需要结合现实常识和环境模型。研究者为此探索了让LLM Agent掌握一些物理知识和社交常识的方法 或者通过与其他Agent协作来完成需要实体互动的任务。05多智能体协作团队作战与通信调度当任务复杂到需要不同专业的知识或者规模大到一个Agent忙不过来时我们就需要构建多智能体协作的系统。多Agent协作主要是调度和通信这两个关键机制如何分配任务、以及Agent之间如何交流信息。首先不同协作架构在组织形式上有所区别主要分为集中式、去中心化和混合式三种 集中式协作集中式架构下会有一个充当“总控”的中心Agent负责全局的任务分配和决策整合 。其它的子Agent听从这个中心指挥只与中心通信而不直接彼此对话 。这种方式优点是协调统一适合对时序和配合要求极高的场景但缺点是一旦中心出问题整个系统可能瘫痪而且过于依赖单点智慧可能限制创造力。典型的实现如Coscientist框架把人类操作者当作中央调度者亲自分配实验任务给多个AI助手 MetaGPT也采取集中式由一个Manager代理分配软件开发各阶段的子任务给不同角色的Agent。在这些系统中任务调度由中心Agent完成它负责把大任务拆解成子任务指派给合适的Agent并收集结果汇总。消息传递方面所有沟通都通过中心节点与其它Agent不能私下沟通以保证信息流单一、决策链清晰 。去中心化协作在去中心化协作架构中不存在绝对的中心化领导所有智能体Agent均以对等方式直接通信并共同参与决策过程形成一个复杂的网状交流结构。这种模式下信息传递发生在任意智能体对之间而任务的调度与分配往往并非由中央指定而是通过智能体间的竞争、投票例如MedAgents项目中领域专家智能体在独立提出和修改决策后通过最终投票达成共识或预设约定机制来自发实现。其核心优势在于系统的鲁棒性和灵活性——没有单点故障单个智能体的失败不会导致全局崩溃同时多个智能体并行探索可能催生出更多元的解决方案。结构化编辑/迭代完善协议示例项目名称项目内容ReConcile协调智能体进行相互响应分析和置信度评估以优化最终答案。METAL使用专门的文本和视觉修订智能体提升特定任务如图表生成质量修订信号可来自外部知识库。灵活对话/推理观察协议示例项目名称项目内容AutoGen实现群聊框架支持多智能体通过迭代辩论来完善决策。MAD / MADR运用结构化通信协议解决智能体固化于初始想法的问题使其能相互批判不合理主张并完善论证。MDebate通过在坚持己见与协作完善之间进行策略性切换来优化共识构建。混合式协作混合式协作旨在融合中心化的高效管控与去中心化的灵活创新通过设立局部领导或分层控制结构来实现。这种协作可以通过两种主要模式实现一种是静态系统其中协作模式与不同模式中心化/去中心化的组合方式是预先定义好的固定结构。项目名称系统特点CAMEL将智能体组织成内部去中心化的角色扮演小组同时通过更高层级的集中治理进行协调。AFlow设计了明确的三层体系集中的战略规划、去中心化的战术谈判、市场驱动的资源分配。EoT形式化定义了多种固定协作拓扑如总线、星形、树形旨在将网络结构与特定任务特性精确匹配。另一种则是更前沿的动态系统它们引入了诸如神经拓扑优化器等机制能够根据实时的性能反馈或任务变化动态地调整和重构智能体间的协作结构实现自适应优化。项目名称系统特点DiscoGraph通过教师-学生框架实现可训练协作利用矩阵值边缘权重进行自适应空间注意力分配。DyLAN先评估智能体重要性得分识别关键贡献者然后动态调整协作结构以最高效完成任务。MDAgents根据任务复杂度低、中、高动态指派协作模式简单任务用单个智能体复杂任务自动切换到分层协作结构。06Agent 的自我进化如果说多Agent协作让智能体“群策群力”那么自我进化则让每个Agent能够“自我提升”。理想状态下我们希望Agent越用越聪明能够根据经验不断优化自身。这正是Agent生命周期中**演进Evolution**阶段关注的核心 。Agent的进化可以从多个维度来看主要包括自主优化学习、群体共同进化以及借助外部资源来提升 。自主优化与自我学习智能体Agent可以通过自身的尝试和反馈不断提高能力从而减少对人类监督的依赖。这方面的机制涵盖了多种策略如自监督学习、自我反思、自我纠错以及自我奖励机制等。简单来说就是让智能体扮演自己的老师和裁判。例如在自监督学习方面智能体可以生成自己的练习数据进行训练比如通过动态调整输入信息的遮蔽方式让模型预测缺失部分来改进自身参数。在解决问题时智能体可以先给出初步答案然后启动自我反思与纠错流程来检验和修正错误一些研究也让AI反复进行自我验证如同检查推理步骤一般如利用自我验证技术回顾性地评估和修正输出这有助于减少错误的输出和“幻觉”现象。此外通过引入内部自我奖励机制智能体能为自己的良好表现“打分”并以此强化有效的决策策略即自我强化学习自监督学习示例技术核心内容动态输入遮蔽让模型通过预测被遮蔽隐藏的部分来学习和改进参数。SE (Self-Evolving Learning)通过动态调整掩码遮蔽方式和学习策略来增强预训练效果。DiverseEvol通过提升生成练习数据的多样性来优化模型的指令调整能力。自我反思与自我纠错示例技术核心内容SELF-REFINE应用迭代式的自我反馈生成答案 - 自我批评 - 根据批评修正答案来改善最终输出。STaR / V-STaR专注于训练模型具备验证和精炼自身推理过程与解题步骤的能力。自我验证 (Self-Verification)让智能体反复检查自身的推理或输出步骤如同人类检查工作一样以回顾性地评估和修正减少错误与“幻觉”。自我奖励/自我强化学习示例技术核心内容对比蒸馏 (Contrastive Distillation)利用技术对比蒸馏让智能体通过自己生成的奖励信号进行自我对齐使其行为符合预期。RLC利用评估结果和生成内容之间的差距结合强化学习策略来促进智能体的自我改进。模拟奖励信号 (Simulated Reward Signals)智能体在达成目标或避免错误时能模拟产生内部的正反馈奖励信号以此强化好的决策。多Agent共同进化当多个智能体Agent一起学习时会产生“共同进化”的效果。通过彼此互动智能体可以在合作中共享知识、协调行动在竞争中发现弱点、改进策略从而共同提高。多智能体合作学习示例技术核心内容CORY 框架大语言模型通过角色交换轮换角色思考机制进行迭代改进以增强策略。ProAgent智能体通过推测队友意图并更新自身信念来动态适应协作任务能有效增强零样本协调能力。CAMEL 框架作为角色扮演框架让沟通型智能体能利用初始提示自主协作提升任务解决效率。多智能体竞争进化示例技术核心内容红队LLMs (Red Teaming LLMs)智能体在对抗性互动如模拟攻击中动态进化目的是发现和修复系统如大模型的漏洞。多智能体辩论 (如 MAD 框架)多个智能体通过多轮次的相互批评和完善论点来提升各自的推理能力和论证的事实准确性。(类比GAN机制)通过对抗性互动类似“军备竞赛”促使参与各方不断改进最终共同提高能力。借助外部资源进化智能体的提升不光可以自给自足也可以借力外部的知识和反馈。一方面智能体可以吸收结构化知识来武装自己例如将专业的知识图谱、行业规则引入让其在决策时参考这些权威信息从而减少错误和凭空猜测。智能体吸收结构化知识示例技术核心内容KnowAgent将动作知识库融入规划模块以约束决策路径并减轻“幻觉”现象。WKM (世界知识模型)综合利用专家知识与过往经验知识来指导规划过程能显著降低无效行动的发生。智能体利用外部反馈示例技术核心内容CRITIC 框架智能体能够调用外部工具来审查和修正自身的输出以提高准确性并减少内容上的不一致。STE 框架通过模拟试错、想象和记忆机制来增强对外部工具的学习和使用能力实现更有效的工具调用和长期适应。SelfEvolve采用两步框架让智能体能够根据代码实际执行结果的好坏反馈来自行生成和调试代码。07测试与评估当我们构建了一个强大的Agent系统后面临的一个实际问题是如何评估它的表现好坏评估一个复杂的智能Agent不像给学生考试那么简单因为Agent的能力是多维度的。为此研究者设计了各种基准测试Benchmark和数据集来全面测量Agent的智能水平 (AGent.pdf)。通用能力评估早期AI系统常用成功率或准确率这类单一指标但对于具备推理、规划、协作能力的Agent来说需要更立体的考察。现代评测框架倾向于多维度分析Agent的表现比如是否能够高效地计划、多步推理正确率、适应新环境的能力等等。多维度能力评测测评框架主要内容AgentBench覆盖8个交互式环境, 评估代理在多场景下的复杂推理与交互能力。Mind2Web专注于Web交互场景, 对137个真实世界网站进行测评, 任务横跨31个领域。MMAU通过3,000跨领域任务, 将智能分为五大核心能力并进行细粒度能力映射。BLADE关注科学发现场景, 通过追踪专家验证工作流程的分析决策模式来评估代理表现。VisualAgentBench侧重多模态基础代理的统一基准, 包括物化交互、GUI操作及视觉设计等复杂视觉任务。Embodied Agent Interface提供模块化推理组件, 如对象解释、子对象分解等, 为嵌入式系统提供细粒度错误分类。CRAB通过图形化评估与统一的Python接口进行跨平台测试。动态和自我进化的评估范式测评框架主要内容BENCHAGENTS借助LLM代理自动创建基准, 用于规划、验证和测量设计, 支持快速容量扩展。Benchmark Self-Evolving提出六种重构操作, 能动态生成测试实例来对抗捷径偏差, 保证评测结果的时效性和鲁棒性。Revisiting Benchmark (TestAgent)利用强化学习机制与代理交互, 用于面向特定领域的自适应评估。Seal-Tools设计了1,024个嵌套实例的工具调用场景, 用于评估代理在调用外部工具过程中的泛化与稳健性。CToolEval涉及14个领域、398个中文API调用的测评数据集, 主要用于检验代理对中文工具/接口的调用正确性。特定领域评估除了通用测试还有针对特定行业或场景的模拟评估。例如医疗诊断Agent会有一套医学问答和病例推理测试编程Agent有代码生成和错误调试测试机器人Agent则在仿真环境中考核导航和操作能力。通过定制接近真实应用的场景评估结果才能反映Agent在该领域的可靠程度。特定领域的能力测试测评框架主要内容MedAgentBench测试医疗保健应用包含在符合FHIR环境中由临床医生设计的任务。AI Hospital通过多智能体协作模拟临床工作流程来测试医疗保健应用。LaMPilot用于评估自动驾驶系统通过代码生成基准测试连接到LLM自动驾驶架构。DSEval评估数据科学能力涵盖从数据处理到模型部署的生命周期管理。DA-Code与DSEval一同评估数据科学能力DCA-Bench根据实际质量问题评估数据集管理代理。TravelPlanner为旅行计划场景提供沙盒环境测试多步骤推理、工具集成和约束平衡能力。MLAgent-Bench测量机器学习工程能力模拟需要优化端到端管道的类似 Kaggle 的挑战。MLE-Bench与MLAgent-Bench一同测量机器学习工程能力文本未详细区分具体侧重。AgentHarm以安全为中心包含多种恶意代理任务评估LLM在多步骤工具使用场景中的滥用风险。真实世界环境模拟测评表框架主要内容OSWorld构建可扩展的真实计算机操作系统环境 (Ubuntu/Windows/macOS)支持多种应用程序任务。TurkingBench使用众包方式获取的HTML界面来评估微任务的执行能力。LaMPilot为自动驾驶场景引入了可执行代码生成的基准测试。OmniACT提供大量的 (32K) 网页和桌面自动化实例包含视觉基础要求。EgoLife通过大型多模态自我中心数据集模拟人类日常活动测试代理在动态环境中的多种能力。GTA整合真实世界工具和多模态输入如图像、网页以评估现实世界中的问题解决能力。协同与对抗评估对于多Agent系统评估还得看它们的协作效果或对抗能力。一些研究搭建了协同任务环境让多个Agent一起完成看团队绩效如何还有对抗性的环境让Agent跟人类或其他AI对战测试其博弈策略。协同评测关注的是团队配合度、通信效率等而对抗评测则关注Agent在复杂竞技中的策略演化和适应性。多代理系统基准测试测评表/工作名称简要描述TheAgentCompany开创性地使用模拟软件公司环境进行企业级评估测试网页交互和代码协作能力。AutoGen 和 CrewAI 对比分析通过机器学习代码生成挑战进行对比分析为多智能体系统评估建立方法论标准。MLRB为评估多智能体协作能力设计了7个竞赛级别的机器学习研究任务。MLE-Bench通过71个真实世界的竞赛来评估Kaggle风格的模型工程能力。08工具与部署生态要让Agent走出实验室良好的工具生态和基础设施是不可或缺的。这方面可以分为三部分Agent用的工具Agent自己创造的工具以及开发者用来管理Agent的工具。正如前文提到Agent可以利用外部工具来增强能力。现在已经有很多现成的插件接口比如浏览器接口、数据库查询接口、各种API服务等等可以被集成进Agent系统。开发者也在为Agent定制更多专用工具以弥补目前通用工具的不足。知识检索工具工具名称简要介绍搜索引擎 (通用)帮助 LLM 代理快速访问最新的、其训练知识库之外的实时信息。WebGPT成功地结合了在线搜索引擎和 LLMs并整合了商业 API。WebCPM开发了一个网络搜索界面并用其构建了第一个中文长篇问答LFQA数据集。ToolCoder使用 DuckDuckgo 搜索常用公共库对不常用或私有库则使用 BM25 分数进行检索。计算工具工具名称简要介绍Python 解释器 (通用)帮助 LLM 代理处理复杂的代码执行任务。数学计算器 (通用)帮助 LLM 代理处理精确的或复杂的计算任务。AutoCoder设计了一个与编码执行结果交互的数据集以促进基于 LLM 的代码生成。RLEF通过端到端强化学习框架使 LLM 能从代码执行者那里学习反馈以提高代码生成性能。CodeActAgent一个自动代理系统能根据与代码解释器的交互来更新其动作。Toolformer集成包括计算器在内的一系列工具显著提高模型在数学计算等任务中的性能且不影响模型通用性。ART使 LLM 在解决复杂任务时能调用外部工具如计算器擅长数学推理和复杂计算任务。API 交互工具/系统工具/系统名称简要介绍RestGPT结合 LLM 与 RESTful API 来探索更现实的应用场景并提出了 RestBench 用于评估其性能。GraphQLRestBench构建了一个包含自然语言和函数调用序列的数据集用于评估现有开源 LLM 进行 API 调用的能力。传统的工具通常是给人用的而Agent直接调用可能不够便利或高效。因此出现了一些让Agent“造工具”的探索例如当现有工具不能满足需求时Agent可以自主编写一段代码等于创造了一个新工具来完成子任务然后下次需要时重复使用。LLM Agent创建的工具工具/框架名称简要介绍CRAFRT通过收集特定任务的GPT-4代码解法并将其抽象为代码片段来创建专用工具集为工具创建和检索提供灵活框架。Toolink通过创建工具集然后运用解决方案链CoS方法整合工具的规划和调用来执行任务分解。CREATOR提出一个包含创建、决策、执行和反思四个阶段的框架使LLM代理能够创建工具并提高输出结果的稳健性鲁棒性。LATM提出一个两阶段框架让LLM分别充当工具制造者和使用者并包含工具缓存机制以提高效率、降低成本同时保持性能。前面我们介绍了 LLM Agent可以调用和自己创造的工具接下来我们将整理用于部署、开发、运维这些 LLM Agent的相关工具、框架和协议。用于部署LLM Agent的工具/框架/协议工具/框架/协议名称简要介绍AutoGen一个开源框架使开发人员能够使用可定制的、对话式的多个代理来构建LLM应用程序。LangChain一个高度可扩展的开源框架用于构建LLM应用程序允许用户创建自定义模块和工作流以满足特定需求。LlamaIndex一个服务于大型模型应用的数据框架允许用户基于本地数据构建LLM应用并提供了访问/索引数据、检索/重排及构建查询引擎的工具箱。Dify一个开源LLM应用开发平台允许用户在画布(canvas)上构建和测试AI工作流也能监控和分析应用日志及性能以进行持续改进。Ollama一个用于构建LLM代理的平台同时提供可观察性和监控支持允许团队实时跟踪模型性能。MCP (模型上下文协议)一种开放协议标准化应用程序为LLM提供上下文的方式用于创建LLM与数据源间的安全链接及构建代理和工作流。MCP-Agent一个使用 MCP 来构建代理的简单框架。09安全挑战对抗攻击恶意方可能通过精心设计的输入诱导Agent出错甚至做出有害行为这称为对抗攻击。例如在输入中嵌入特殊扰动对人类无害但对AI是陷阱让Agent产生错误判断 。再比如通过一系列巧妙的提示诱使Agent违反预设原则输出不良内容这就是常说的提示劫持Prompt Jailbreaking。这些攻击会损害Agent决策的可靠性和安全性目前研究者也在开发对应的防御策略如输入过滤、响应验证等。后门攻击更阴险的是在Agent的底层模型中种下“后门”。攻击者如果有机会在模型训练阶段做手脚可能让模型记住一个隐秘的触发模式——一旦日后输入含有该模式Agent就会按照攻击者预设输出特定内容或执行特定动作 。这种攻击隐藏性强难以发现。防御手段包括严格控制训练数据来源、训练后对模型进行安全审计等。多Agent协作安全当多个Agent协同时还会出现协作攻击的风险。如果其中一个Agent被攻破或本身不可靠它可能向其他Agent传递错误信息导致整个团队决策失误。因此在多Agent系统中需要设计机制来检测异常行为的Agent必要时将其隔离防止谣言或错误在Agent网络中蔓延。附录Agent在各行业的中的应用案例合集为了方便读者查找原始文献我们也附上了原文中的引用序号Agent在科学研究领域的应用项目/应用名称领域简要描述通用科学与实验SciAgents [266]通用科学使用多个专门的LLM Agent如“本体论者”、“科学家”、“批评家”协同生成和完善科学假设。Curie [267]通用科学构建了一个多Agent框架“架构师”Agent设计实验“技术员”Agent执行来自动化、严谨地进行科学实验。AgentReview [268]通用科学提出一个基于LLM Agent的框架来模拟学术同行评审过程为改进论文评估协议提供见解。化学、材料科学与天文学ChemCrow [269]化学将LLM与18个化学专业工具集成使其能够自主规划和执行化学合成任务。AtomAgents [270]材料科学一个考虑物理知识的多Agent系统用于自动化合金设计规划者Agent分解任务批评家Agent验证。D. Kostunin et al. [271]天文学为切伦科夫望远镜阵列开发的AI助手Agent用于自主管理望远镜配置数据库和生成数据分析代码。生物学BioDiscoveryAgent [273]生物学通过解析文献和基因数据库提出可能阐明特定生物通路的基因敲除或编辑实验设计。GeneAgent [274]生物学使用自我修正循环从生物医学数据库中发现基因关联并通过与已知基因集交叉检查提高可靠性。RiGPS [275]生物学开发了一个具有基于实验的自我验证强化学习框架的多Agent系统用于增强单细胞数据集中的生物标志物识别任务。BioRAG [211]生物学开发了一个基于多Agent的RAG系统来处理生物学相关的问答其中包含检索信息的Agent和自我评估结果的Agent。科学数据集构建PathGen-1.6M [276]科学数据集构建通过多Agent协作视觉模型选区、LLM生成描述、其他Agent优化生成大规模病理图像数据集。KALIN [277]科学数据集构建开发多Agent协作框架以分块研究文章为背景生成高质量的领域LLM训练语料库科学问题并利用知识层次结构进行自我评估和进化。GeneSUM [278]科学数据集构建自动维护基因功能描述知识数据集包含阅读基因本体的Agent、检索文献的Agent和生成摘要的Agent。医学AgentHospital [281]医学创建一个虚拟医院由LLM驱动的医生、护士和患者Agent互动模拟从分诊到治疗的完整医疗流程。ClinicalLab [282]医学引入了一个全面的基准测试和一个用于多科室医疗诊断的Agent覆盖多个医学专科。AIPatient [283]医学创建由LLM驱动的逼真患者模拟器利用结构化医学知识图谱和推理RAG流程进行可信的医患对话。CXR-Agent [284]医学结合视觉语言模型和LLM来解读胸部X光片并生成带有不确定性评估的放射学报告。MedRAX [285]医学集成多种工具OCR、分割模型、LLM解决需要同时参考患者病史和影像的复杂胸部X光病例。Agent在游戏领域的应用项目/应用名称领域简要描述游戏玩法ReAct [33]游戏在文本或具身环境中促使LLM将推理和反思整合到行动生成中以增强决策能力。Voyager [35]游戏在《我的世界》中引入了一个由LLM驱动的终身学习Agent可持续探索游戏世界。ChessGPT [287]游戏基于混合游戏-语言数据的自主Agent用于棋盘状态评估和国际象棋对弈。GLAM [288]游戏在BabyAI-text环境中构建Agent使用策略选择行动并通过在线强化学习进行训练。游戏生成CALYPSO [289]游戏创建LLM Agent作为助手在《龙与地下城》等游戏中帮助构建引人入胜的叙事。GameGPT [290]游戏利用双Agent协作和分层方法使用多个内部字典来自动化和增强游戏开发过程。Sun et al. [291]游戏在《一千零一夜》中创建互动式讲故事游戏体验结合指令性语言模型和图像生成来塑造叙事和世界。Agent在社会科学领域的应用项目/应用名称领域简要描述经济学Econagent [292]社会科学使用提示工程创建模拟人类决策或宏观经济模拟的Agent。TradingGPT [293]社会科学提出一个用于金融交易的多Agent框架通过分层记忆结构和辩论机制模拟人类决策过程。CompeteAI [294]社会科学利用LLM Agent模拟一个虚拟城镇中餐馆和顾客的互动以提供符合社会学和经济学理论的见解。心理学Ma et al. [295]社会科学研究使用基于LLM的对话Agent进行心理健康支持的心理效应和潜在益处。Zhang et al. [296]社会科学考察具有独特特质和思维过程的LLM Agent如何复制类似人类的社会行为如同众效应。TE [297]社会科学使用LLM Agent模拟心理学实验揭示语言模型在复制特定人类行为时可能存在的系统性偏差。社会模拟Generative agents [30]社会科学在交互式沙盒环境中引入多Agent交互模型利用LLM Agent模拟各种情境下的逼真人类行为。Liu et al. [298]社会科学提出一种训练范式使LLM能够从涉及多个LLM Agent的模拟社会互动中学习。S3 [299]社会科学开发基于LLM的多Agent系统确保Agent在社交网络中的行为与真实人类高度相似。Agent在生产力工具领域的应用项目/应用名称领域简要描述软件开发SDM [300]生产力工具引入一个自我协作框架引导多个LLM Agent在代码生成任务上协同工作以应对复杂的软件开发挑战。ChatDev [301]生产力工具提出一个由聊天驱动的软件开发框架指导Agent沟通的内容和方式模拟软件开发流程。MetaGPT [27]生产力工具通过元编程方法将人类工作流程标准化操作程序SOPs融入LLM驱动的多Agent协作中以增强协调性。推荐系统Agent4Rec [302]生产力工具使用集成了用户画像、记忆和行动模块的LLM Agent来模拟推荐系统中的用户行为。AgentCF [303]生产力工具将用户和物品都视为LLM Agent引入协作学习框架来模拟推荐系统中的用户-物品交互。MACRec [304]生产力工具直接开发多个Agent来协同完成推荐任务。RecMind [305]生产力工具利用LLM Agent整合外部知识并精心规划工具的使用以实现零样本个性化推荐。在大模型时代我们如何有效的去学习大模型现如今大模型岗位需求越来越大但是相关岗位人才难求薪资持续走高AI运营薪资平均值约18457元AI工程师薪资平均值约37336元大模型算法薪资平均值约39607元。掌握大模型技术你还能拥有更多可能性• 成为一名全栈大模型工程师包括PromptLangChainLoRA等技术开发、运营、产品等方向全栈工程• 能够拥有模型二次训练和微调能力带领大家完成智能对话、文生图等热门应用• 薪资上浮10%-20%覆盖更多高薪岗位这是一个高需求、高待遇的热门方向和领域• 更优质的项目可以为未来创新创业提供基石。《AI大模型从0到精通全套学习包》如果你想要提升自己的能力却又没有方向想学大模型技术去帮助就业和转行又不知道怎么开始那么这一套**《AI大模型零基础入门到实战全套学习大礼包》以及《大模型应用开发视频教程》**一定可以帮助到你限免0元1全套AI大模型应用开发视频教程包含深度学习、提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点2大模型入门到实战全套学习大礼包01大模型系统化学习路线作为学习AI大模型技术的新手方向至关重要。 正确的学习路线可以为你节省时间少走弯路方向不对努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划带你从零基础入门到精通02大模型学习书籍文档学习AI大模型离不开书籍文档我精选了一系列大模型技术的书籍和学习文档电子版它们由领域内的顶尖专家撰写内容全面、深入、详尽为你学习大模型提供坚实的理论基础。03AI大模型最新行业报告2025最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。04大模型项目实战配套源码学以致用在项目实战中检验和巩固你所学到的知识同时为你找工作就业和职业发展打下坚实的基础。05大模型大厂面试真题面试不仅是技术的较量更需要充分的准备。在你已经掌握了大模型技术之后就需要开始准备面试我精心整理了一份大模型面试题库涵盖当前面试中可能遇到的各种技术问题让你在面试中游刃有余。*这些资料真的有用吗*这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。06以上全套大模型资料如何领取用微信加上就会给你发无偿分享遇到扫码问题可以私信或评论区找我
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

网站建设兴田德润医院网站建设招标

Langchain-Chatchat电商客服自动化:724小时商品咨询应答 在电商平台的日常运营中,一个看似简单却极为关键的问题反复出现:用户问“这个冰箱能放进我家厨房吗?”——背后其实是对尺寸、电压、安装方式甚至售后政策的综合考量。而传…

张小明 2025/12/22 14:33:05 网站建设

网站制作 网页显示不全关于网站备案及管理的授权书

Exchange 2000 基础管理全解析 1. 引言 Microsoft Exchange Server 2000 相较于其前身有了显著的发展。它高度依赖 Windows 2000 操作系统,尤其是 Active Directory(AD),这一改变也体现在其管理工具上。Exchange 2000 摒弃了旧有的管理程序,转而使用 Microsoft Manageme…

张小明 2025/12/22 14:32:04 网站建设

城市绿化建设英文网站wordpress 如何安装教程视频

Excalidraw 中的性能智慧:从 TBT 测量到主线程减负 在远程协作日益频繁的今天,一张“随手画”的草图可能比十页文档更能快速传递想法。开发者们不再满足于静态的流程图工具,而是追求一种更自然、更即时的表达方式——这正是 Excalidraw 之所…

张小明 2025/12/22 14:31:03 网站建设

响应式网站 移动端网站wordpress防止采集插件

体育器材管理 目录 基于springboot vue体育器材管理系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue体育器材管理系统 一、前言 博主介绍&…

张小明 2025/12/22 14:30:02 网站建设

免费申请企业网站网站开发 工作量评估

PDown作为一款专为百度网盘用户设计的下载加速工具,通过创新的技术架构实现了无需登录个人账号的高速下载体验。该工具采用服务器中转模式,有效规避了传统下载方式的限速问题,为用户提供了安全高效的下载服务。 【免费下载链接】pdown 百度网…

张小明 2025/12/22 14:29:02 网站建设

商丘网站制作电话电子商务网站建设 下载

导语 【免费下载链接】Kimi-Dev-72B 探索开源编程新境界,Kimi-Dev-72B模型惊艳亮相!基于大规模强化学习优化,此编码LLM在软件工程任务中表现出色,勇夺开源模型新标杆。真实仓库自主修复,严格遵循开发标准,成…

张小明 2025/12/22 14:28:01 网站建设