网站建站所用的技术学校网站建设小组及分工-万宁市网站建设公司-Seo优化

网站建站所用的技术,学校网站建设小组及分工,网站开发天津,沈阳商城网站制作在大模型技术飞速发展的当下#xff0c;大数据领域的各类应用如雨后春笋般涌现#xff0c;从数仓开发到 ChatBI 问数#xff0c;再到深度分析 Agent#xff0c;这些领域的大模型应用极大地提升了数据处理和分析的效率。但与此同时#xff0c;如何科学、准确地评估这些应用…在大模型技术飞速发展的当下大数据领域的各类应用如雨后春笋般涌现从数仓开发到 ChatBI 问数再到深度分析 Agent这些领域的大模型应用极大地提升了数据处理和分析的效率。但与此同时如何科学、准确地评估这些应用的效果成为了行业面临的重要难题。InfoQ 荣幸邀请到了字节跳动 / 数据平台大模型评测技术负责人尹小明在 AICon 全球人工智能开发与应用大会·深圳站上分享了《评测也很酷——Agent 自动化评测技术创新与实践》。作为字节跳动数据平台的大模型效果评估团队他们深耕数据应用 Agent 领域构建了覆盖从数据开发到数据应用垂直领域 Agent 应用的评测技术体系尤其在自动化评测算法、Agent 级评测框架等方面形成了可落地的技术方案。本次分享将聚焦这一领域的技术细节与实践经验。12 月 1920 日的 AICon 北京站将锚定行业前沿聚焦大模型训练与推理、AI Agent、研发新范式与组织革新邀您共同深入探讨如何构建起可信赖、可规模化、可商业化的 Agentic 操作系统让 AI 真正成为企业降本增效、突破增长天花板的核心引擎。以下是演讲实录经 InfoQ 进行不改变原意的编辑整理。为什么“评测也很酷”从用例到效果度量先谈今天分享的主题——“评测也很酷”。在传统软件测试中我们编写并执行用例核对功能是否正常即可。而在大模型相关场景中评测的复杂度和挑战明显更高。挑战主要体现在两方面一是如何更加贴切地评价我们所构建应用的实际效果二是既有的传统技术是否可复用若不足我们应在何处开展探索与创新。那当我们谈“模型评测”时究竟在说什么、常见的评测维度和指标有哪些首先是“效果”也就是大家常说的好不好、准不准。这里有三个常见指标首先是事实性指模型在回答时是否遵从通识和常识在给定上下文的情况下是否依据证据作答是否存在“幻觉”其次是有用性回答是否对任务有帮助不能只是讲了实话却对问题没有实质价值最后是有害性这是模型训练和评估都会关注的方向比如是否触及政治敏感、是否引导不当行为等其次是性能与推理性能。很多人都有这种体验大模型输出 Token 很慢我得等很久眼看着一个字一个字往外蹦。这里通常涉及首个 Token 出现的时间也就是首字符 / 首 Token 时延以及完整推理过程中的生成速度等同时还要看资源消耗这些都应纳入评估口径第三是稳健性或者说鲁棒性。重点在于能不能容错、持续稳定地输出以及面对对抗或异常输入时的抗攻击能力。这些都直接关系到上线后的可用性与风险。明确了该“看什么”接下来就是“怎么评”。在实际工作中当前的常见评测方法有以下几种首先人工评测。在大模型生成带有主观性的内容时比如一次性生成几千张创意图片哪个更好、哪个更差通常要先请领域专家过一遍并据此写出清晰的评价标准——我们认为什么是“好”什么是“坏”其次是自动化评测。业界普遍的做法大致有几类一类是客观题单选或多选便于直接做结果匹配文本类会更难一些常见思路是和标准答案做相似度比较配合相应算法和指标比如 BLEU、ROUGE 等还有一类是基于排序的评估rank在 RLHF 里就很典型——不是给一个绝对分而是让人对多个候选进行相对优劣比较从而完成与人的偏好对齐。此外人机协同评测。很多场景里纯自动化还达不到足够准确、足够让人放心的程度于是通常采用机器先给出初步结论和建议再由人工复核与定判。不过落地过程中依然会暴露出一些共性痛点。一方面当下有很多评测 Benchmark也有很多评测集。当评测结束之后大家常有一个痛点你说现在效果很好可为什么线上客户老在吐槽说“我的感觉没有你说的分数那么高”这其实就是静态评测和线上实际效果脱节的问题。另一方面今天很多评测往往针对模型的单一能力或者若干常见的通用能力。这就像高考考数学、语文、英语但这些科考完放到自己的业务里会发现成绩好并不等于能力强。回到实际业务场景我该怎么综合评估他的能力再者即便有了一个评测集业务在变产品定义在变线上用户的使用方式也在变。这个时候评测就更难反映线上的真实情况。以上是通用框架落到数据应用 Agent具体会碰到哪些垂直适配难点第一领域特殊性。模型的代码生成能力很强但在早期训练语料里SQL 的占比非常低。所以你会发现它写 Python 还不错写 SQL 就明显吃力。另外在数据领域数据“正确性”极其关键。找资料、写个想法准不准影响也许不大但一份数据分析报告或者一个关键数值最后要给到老板如果这个数差之千里后果就很严重了。还有从评测的维度来看通用模型通常关注一些基础能力比如数学。但一旦落到真正的 Agent 场景情况就完全不同了。在数据Data Agent方向像“深度研究”这样的产品形态涉及的维度非常多。其包括数据源的差异、数据的异构性都很复杂。因此对应的评估维度也需要从单一能力扩展到能够覆盖这些复杂因素。第三“效率”与“并发”非常关键这里的并发指研发并发同时尝试多种方案。这点尤其重要。为什么因为在做模型时我们至今并没有一套被验证为“最有效”的通用架构模型本身也在不断迭代。很难沿着一条技术路线一直走到底所以必须做大量尝试新模型出来也要做新的探索。此时能否承载方案空间的复杂度往往决定成败。因此评测的效率就显得格外重要。一轮回归测试要做两周和一天之内就能判断一个方案是好是坏带来的研发周期差异可想而知。三层评测框架前面说的是数据领域里可能会遇到的问题。回到 Agent 这边我们提出了一个“三层评测”的体系设计。在构建大模型的 Agent 应用时通常会同时面对几层问题。最下层是技术选型。市面上的模型很多豆包、千问、文心、DeepSeek 等等。我的 Agent 关注哪些能力哪些模型能达标、值得进入实验集不能盲目把所有模型都往架构里堆并发和成本都承受不住。先做一轮有依据的筛选这一步非常关键中间层是研发迭代。确定了初步架构之后需要持续优化并能看清 Agent 的各个部分在哪里拖了后腿。大家熟悉的 Multi-Agent、ReAct、workflow 都会用到。做法上更像“单元测试”式的评测把子模块拆开看既看效果也看速度把问题收敛到具体模块迭代才高效最上层才是端到端的业务效果。最终要用一套覆盖完整链路的评测集与流程加上相应的方法实践来衡量这个 Agent 在真实任务中的表现到底如何。围绕上述各层我们开展了配套实践。第一个层面是基础能力评测对应我们前面说的技术选型阶段。做这件事的目的是先设定一个“准入门槛”。以数据领域为例我们会关注工具调用能力Function Call、Tool using、MCP 等、数值计算与表格理解、数据幻觉的控制、复杂指令遵循以及编码与 Text-to-SQL。各个方向基本都有可参考的开源 Benchmark。比如在 Function Call 方向我们调研后会采用 ComplexFuncBench在编码能力上早期熟悉的 HumanEval 仍有参考价值现在也会引入 SWE-Bench评估代码 Agent 能力的 Benchmark。这些评测会接入我们的平台提供给数据平台的各个探索团队使用。第二个层面是组件或子 Agent的评测面向的是 Agent 的各个组成部分。可以把一个 Agent 的工作流程拆成几个阶段先是召回比如做 Schema Linking然后是理解与规划接着进入洞察、分析与执行最后是结果总结把结论写成报告。我们要看的是问题出在第几个阶段以及每个阶段的实际表现如何。放到一个典型的 RAG 应用里前序召回的上下文质量会直接决定后续表现Schema 里有没有找到正确的字段、阈值和指标都会影响后面 SQL 能不能写对。如果第一阶段就偏差很大后面再怎么优化 Agent 也很难“拉回”。第三个层面是端到端效果评测。一方面我们针对特定的业务场景构建相应的评测集层级越往上我们离业务越近评测也就越贴近实际的业务场景和产品形态的定义。我们相应地构建评测集和自动化评测方法同时在我们的评估平台上设有“数据与飞轮”模块对接业务把线上的会话日志采集进来用于 Case Study、回归评测集的沉淀以及人工标注。Data Agent 评测技术创新和实践基于上述“三层评测”框架下一步将聚焦 Data Agent 这一主题结合两个具体案例展开说明。其一为 Text-to-SQL 任务。无论是问答取数类 Agent还是更综合的分析型 Data Agent自然语言查询通常需要转化为实际的 SQL 查询无论用户提出具体指标问题如“昨天的 DAU 是多少”还是总结性分析请求如“请分析上一周的数据情况”底层通常都会拆解为若干查询任务核心评估点落在 SQL 查询的准确率与误差归因。传统的 Text-to-SQL或 NL-to-SQL评测方法与数据集如 Spider、WikiSQL、BIRD-SQL 等为通用场景提供了基础衡量手段但在面向大数据与真实业务约束的环境中仍会遭遇诸多适配性与可扩展性问题。传统评测方法往往只给出“对 / 错”的结论这种二元判定无法体现能力优劣的细微差异。以一条 SQL 为例若仅在某个条件上将“≥”写成“”其余部分完全正确执行结果可能只相差极小但在二元评分下仍被判为零分。若此类情况高频出现模型的实际可用性仍然较强——在数据开发场景中只需改动个别细节即可投入使用——而传统方法无法反映这种“接近正确”的价值。所谓“执行正确性”是指对每个问题—答案对提供标准 SQL 与测试数据集分别执行标准 SQL 与模型预测的 SQL比较结果是否一致以此判断对错。然而实践表明这一方法易产生误判。根源在于测试数据分布并不完备可能存在“非等价 SQL 执行结果相同”的情况。例如age 34 与 age ≥ 34 在测试集中恰无 34 这一边界值时二者输出一致导致错误地判定为正确。这里放一个稍微复杂点的例子我们的goldground truth标准答案其实是一条很简单的 SQL问题是“文档中哪些template_id被使用过”。但模型在预测时去和另一张template表做了INNER JOIN按id关联。肉眼一看就知道两者不是一回事。按理说放到设计更严谨的数据集上应该能把差异测出来可不幸的是在 Spider 上两条 SQL 的执行结果一模一样最终造成了误判。还有一种做法是比较标准答案 SQL 与预测 SQL 的文本相似度。字面上可以直接比对一致性并计算一个相似度分数比如余弦相似度等。但这类方法很难准确反映语义 / 逻辑上的等价哪怕只是表名或子查询的别名不同也可能被判为不一致而误判。第三个问题如果要在大数据引擎比如 ClickHouse上构造一套可用于回归测试的数据集成本非常高。这些都是传统 Text-to-SQL 评测在实际落地中的局限。针对以上问题我们做了一些改进核心是提出一套基于语义等价的评测方法。所谓语义等价是指两条 SQL 在逻辑含义上相同那么它们在执行结果上就应当相同只要判断这一点即可并不一定需要真正去跑一次查询。做法上先把 SQL 当作代码处理表示成抽象语法树AST。进一步我们借助Apache Calcite做执行层的下推把字面 SQL 转成执行层的语法表示也就是RelNode。到了这一层很多写法上的不一致会被归一到相同的执行语义。举两个直观的例子某些情况下用JOIN和用IN子查询是等价的再比如连接两个表时你可以用子查询也可以用WHERE条件最终下推到执行语法树上的执行过程是一样的。通过这样的语义下推和标准化能抹平大量表面差异。第二个方法我们把节点之间的引用关系建立起来参考答案是一张图预测答案也是一张图然后训练一个图匹配网络Graph-Matching NetworkGMN来计算两条 SQL 在语法 / 表达上的相似度。基于语法树的匹配这一路我们称为RelPM在执行层面的语法树上做Partial Matching的局部匹配用规则做局部比对并赋权得到 01 的相似度分数已经明显优于传统做法。进一步在FuncEvalGMN上无论对比基于执行正确性的评测、基于文本 / 语义相似度的评测还是一些基于 BERT 的预训练模型我们的效果都有显著提升。在业务侧这套方法也已经成为我们数据领域的核心算法之一。以上 Text-to-SQL 更偏向“查询”类场景不过 Data Agent 的产品形态在不断丰富。现在形成了一种新的产品形态——“深度研究”。用户只需提出一个简单的问题或者把意图描述清楚系统就会给出一套完整的分析流程并且能够同时完成多种分析任务。评测在这里会明显更难。它不再是简单的查数题比 Text-to-SQL 难得多。我们要回答的不是“查得对不对”这么单一的问题还要判断这份报告是否对业务有用生成时的推理思路是否合理内容是否完整是否覆盖了我要求它分析的那些角度最后给出的建议是否有效。用什么维度来衡量一份深度分析报告“好不好”以及如何把这些维度做成可执行的自动化评测都是实打实的挑战。因此我们首先定义了一套评测体系。它是指用一套明确的标准来衡量好与坏。就像高考有一整套评价口径公司招聘、晋升和绩效也都有相应的准则一样。针对“深度研究”这种产品形态我们从几个角度来评一是分析与洞察的深度与准确性二是报告在展示上的可读性、易读性三是执行过程的稳定性与成功率。围绕这些我们设定了第一层与第二层的评估维度并分别定义了关键指标并在每项指标下设定可落地的评分点。接下来谈自动化评估技术。这是业界相对前沿的话题大家可能听过 “LLM as a Judge” 或 “LLM Judge”。我们最新的探索是用 Agent 来评测 Agent。原因很简单写一份数据分析报告没办法把数据直接丢给大模型就指望一次性产出完整结果中间需要大量 Agent 能力来完成过程性的工作所以在评测侧同样要引入 Agent 技术。从评测角度来讲。我们也不可能把一个结果直接交给 LLM 就让它打分完事评测仍需要 Agent。这里大家可能会有个自然的疑问Data Agent 做了那么多架构改进、用了那么多技术和技巧甚至有那么多专家参与它都可能算不对为什么“评测的 Agent”能评得出来这是我们一开始必须回答的基础判断。我的判断基于几个前提第一挑错往往比做对容易给出一套完全正确的方案很难但指出其中的问题相对容易。第二可以复盘过程把 Data Agent 写报告的完整流程和数据计算链路逐步审阅像批改应用题一样看每一步思路是否合理如果每一步都是对的结果大概率也是对的。第三可以做定向优化针对特定领域或特定评测集进行针对性调优并结合 Agent 方法增强判断能力。基于这些我们认为这条路线是有前景的。在实现上我们用到一些基本技术。其一是自我反思模型先按评分标准完成一次打分再进入反思环节检查自己是否完整遵循了打分逻辑、是否有遗漏。其二是多 Agent 协作架构。我们把评估对象报告、评估过程、问题及相关上下文作为整体输入送入一个用于应用评估的系统我们称为 Critic Agents。该系统首先按我们的评分标准与细则完成初评分然后交给 Reflect自我反思模块复查本次打分是否存在遗漏或不当之处。再举一个我们踩过的坑写报告时很容易在单位转换上出错。原始计算得到的是一个数写进报告却被表述成“XX 万”。这既是 Data Agent 的高发错误点也是评估里容易被误判的点。针对这类问题我们会把相关环节交给Reflect的反思流程复查同时引入多个 Agent从不同角度、甚至基于不同的底层模型分别打分最后由“裁判长”统一审阅整条打分链路及其与标准答案的对齐情况。整体架构上我们还会结合ReAct让评测侧“自己写代码”把关键数据复算一遍核对计算是否正确。遇到特定场景比如归因分析要完成有效评估还需要专业的领域计算工具这些工具同样交由评判方调用才能对该类任务给出评价结果。为说明方法有效性以下给出两个真实案例。这是第一个案例我们用自动化评测在报告里定位到数据错误。上面的片段是一个典型的归因场景。机评发现报告写到“德芙巧克力单笔销售额 1.5 万”等数字没有真实来源。回溯过程可以看到右侧的 SQL 少写了一个GROUP BY 商品名。在这种写法下只能查出一系列明细订单不可能直接得到“德芙巧克力 1.5 万”这样的聚合结论。原始明细里虽然出现过“1.5 万”这个数但无法据此推断它对应“德芙巧克力”。这一问题被机评准确抓出。在人评场景中读过类似报告的同学会有同感像 OpenAI 的 Deep Research 那样的长报告要把其中每个数字都核验一遍几乎不现实人评非常容易漏错。相比之下机评在这类细粒度、很复杂的校验上更有优势。第二个例子我们评估的是“分析意图的完成度”。左边是题目对 DAU 数据做分析下面先定义分析对象再给出一套完整的分析框架也就是要从哪些角度展开。右边是自动化评测页面的截图。红框里可以看到这个题目一共有 18 个分析意图这份报告完成了 17 个对应得分 0.94。系统还会标注哪一个意图没有完成已完成的意图在报告中对应的是哪些章节。由此能直观看到机评在这个场景下的实际效果。最后给一组离线实验数据我们做了人评与机评的对比。机评在事实性错误上的召回率超过 88%准确性达到 86%。意思是说真实存在的错误里有 88% 以上能被正确发现而被机评判为“错误”的项里接近九成判断是对的。对日常评测尤其是研发迭代这样的能力基本够用。只要测试集覆盖充分就能用来比较两个版本、两种架构的优劣。当然也有目前覆盖不到的部分。比如易读性高度依赖人工判断图表展示是否出现图例堆叠等问题自动化暂时难以发现再如报告是否“足够有深度、足够有丰富度”这些判断偏主观我们也尚未做自动化覆盖。评估平台的工具与链路建设开展评测不仅需要方法与算法也需要完善的平台与工具支撑。我们在数据平台内部搭建了面向数据评估的统一平台定位于为大模型应用的探索与优化提效。平台覆盖数据集管理与标注、自动化与人工评测、指标汇总与分析、结果归因与对比归因等完整流程并提供相应的功能组件。另外平台同时引入“数据飞轮”将线上新增案例持续沉淀为评测集确保评测随业务与使用方式演化而更新在基础选型环节提供 Benchmark 与榜单模块便于业务侧进行判断与选择。这里简单介绍一下几个特色功能。第一个“数据飞轮”前面已经提过。第二我们还提供一系列常用评测算子既有基于规则实现的也有基于大模型实现的。业务方可以自行调用在“自定义策略”模块里按业务需要编排这些“原子算子”实现自己的分析逻辑。针对这类场景我们还设计了“评估工作流”模块。用过类似 langchain、Dify、Coze 这类平台的同学都会熟悉用工作流可视化地搭建一个 agent同样地我们也支持把评估流程用工作流快速搭建起来更高效地复用算子而不是一律写代码。这个模块的反馈很好内部评测同学也在用它为业务搭建评测流程。举个很简单的用法先对输入做基础处理与归一化然后调用一个评估算法或调用大模型并写好自己的 prompt即可把这条评估链路跑通。未来展望面向未来自动化评测在数据领域可能的重点投入方向如下首先评测的维度和体系需要进一步完善。现在对多模态能力的利用还不够数据集也需要持续优化流程要更规范效率要更高。同时要解决线上与线下的一致性如何让线下评估尽可能反映线上的真实能力而不是做成“线上全量、全人工”的评估。可以通过有效采样、时效性校验等手段持续衡量线下评测数据集是否过时让评测结果真正对应用户的实际体感。其次在应用改进方面以前常讲 TDDTest-Driven Development。在大模型时代我更主张“评估驱动开发”EDD。它需要把评估更好地分解到 Agent 架构的各个环节细化到子模块的能力、推理的不同阶段并把最终业务指标与过程性指标建立起更有效的关联。模型训练层面无论是精调SFT还是强化学习归根到底都是与预期业务效果和人类判断对齐这与评测天然相关。我们也在探索用自动化评测去反向驱动训练流程。最后是让自动化评估的结果更快、更高效地生成对应用改进的建议切实服务迭代。这能直接帮助到研发与业务两端作为用户方 / 业务方可以更有效地判断一个 Agent 是否满足需求作为开发者也能在更高效的评测支持下用更大的探索空间去尝试新技术方案并把最终效果做上去。活动推荐AI 重塑组织的浪潮已至Agentic 企业时代正式开启当 AI 不再是单纯的辅助工具而是深度融入业务核心、驱动组织形态与运作逻辑全面革新的核心力量。把握行业变革关键节点12 月 19 日 - 20 日AICon 全球人工智能开发与应用大会北京站即将重磅启幕本届大会精准锚定行业前沿聚焦大模型训练与推理、AI Agent、研发新范式与组织革新邀您共同深入探讨如何构建起可信赖、可规模化、可商业化的 Agentic 操作系统让 AI 真正成为企业降本增效、突破增长天花板的核心引擎。那么如何系统的去学习大模型LLM作为一名深耕行业的资深大模型算法工程师我经常会收到一些评论和私信我是小白学习大模型该从哪里入手呢我自学没有方向怎么办这个地方我不会啊。如果你也有类似的经历一定要继续看下去这些问题啊也不是三言两语啊就能讲明白的。所以我综合了大模型的所有知识点给大家带来一套全网最全最细的大模型零基础教程。在做这套教程之前呢我就曾放空大脑以一个大模型小白的角度去重新解析它采用基础知识和实战项目相结合的教学方式历时3个月终于完成了这样的课程让你真正体会到什么是每一秒都在疯狂输出知识点。由于篇幅有限⚡️ 朋友们如果有需要全套《2025全新制作的大模型全套资料》扫码获取~大模型学习指南路线汇总我们这套大模型资料呢会从基础篇、进阶篇和项目实战篇等三大方面来讲解。①.基础篇基础篇里面包括了Python快速入门、AI开发环境搭建及提示词工程带你学习大模型核心原理、prompt使用技巧、Transformer架构和预训练、SFT、RLHF等一些基础概念用最易懂的方式带你入门大模型。②.进阶篇接下来是进阶篇你将掌握RAG、Agent、Langchain、大模型微调和私有化部署学习如何构建外挂知识库并和自己的企业相结合学习如何使用langchain框架提高开发效率和代码质量、学习如何选择合适的基座模型并进行数据集的收集预处理以及具体的模型微调等等。③.实战篇实战篇会手把手带着大家练习企业级的落地项目已脱敏比如RAG医疗问答系统、Agent智能电商客服系统、数字人项目实战、教育行业智能助教等等从而帮助大家更好的应对大模型时代的挑战。④.福利篇最后呢会给大家一个小福利课程视频中的所有素材有搭建AI开发环境资料包还有学习计划表几十上百G素材、电子书和课件等等只要你能想到的素材我这里几乎都有。我已经全部上传到CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】相信我这套大模型系统教程将会是全网最齐全最易懂的小白专用课

网站建站所用的技术学校网站建设小组及分工

建站优化推广哪些网站可以做调查问卷

做门户网站需要什么条件建立网站的步骤及费用

用dw做淘宝网站dedecms模板站

网站宣传文案有哪些密云区社区建设网站

建设银行签证预约网站网站模板源码之家

做网站创意是什么意思wordpress报错

网站建站所用的技术学校网站建设小组及分工

建站优化推广哪些网站可以做调查问卷

做门户网站需要什么条件建立网站的步骤及费用

用dw做淘宝网站dedecms模板站

网站宣传文案有哪些密云区社区建设网站

建设银行签证预约网站网站模板 源码之家

做网站创意是什么意思wordpress报错

建设银行签证预约网站网站模板源码之家