做网站实现自动生成pdf太平洋手机网官网

张小明 2025/12/31 2:42:02
做网站实现自动生成pdf,太平洋手机网官网,建筑常用的模板下载网站有哪些,wordpress修改在线字体【NLP】拒绝数学劝退#xff01;大白话讲清楚序列标注与 CRF#xff08;原理公式图解#xff09;摘要#xff1a;你看古文会觉得头大吗#xff1f;因为没有标点符号。其实机器看中文也是这样#xff01;如何教会机器给一长串汉字正确地“断句”#xff1f;本文将避开晦涩…【NLP】拒绝数学劝退大白话讲清楚序列标注与 CRF原理公式图解摘要你看古文会觉得头大吗因为没有标点符号。其实机器看中文也是这样如何教会机器给一长串汉字正确地“断句”本文将避开晦涩的数学推导用通俗的语言带你拆解 NLP 核心任务——序列标注并揭秘条件随机场CRF背后的“打分”逻辑。无门槛包看懂一、 什么是“序列标注”给汉字办身份证在 NLP自然语言处理的世界里机器最头疼的一件事就是中文没有空格。英文是I love AI有空格隔开中文是我爱人工智能粘在一起。如果机器把“北京大学”切分成“北京/大/学”意思就变了。为了解决这个问题我们发明了序列标注Sequence Labeling。1. 任务定义简单来说就是给句子里的每一个字都发一张“身份证”打标签。只要标签发对了词语的边界就出来了。序列标注流程标注标注标注B:开始输入: 昨E:结束输入: 天S:单字输入: ,(图解序列标注的基本流程输入汉字输出标签) 核心概念数学视角输入 (xxx)称为观测序列。比如文本序列{x1,x2,...,xn}\{x_1, x_2, ..., x_n\}{x1​,x2​,...,xn​}。输出 (yyy)称为状态序列。比如标签序列{y1,y2,...,yn}\{y_1, y_2, ..., y_n\}{y1​,y2​,...,yn​}。目标找到最正确的yyy使得它与xxx最匹配。2. 怎么打标签BMES 法我们最常用的是一套叫BMES的标签系统B (Begin)词语的开始。M (Middle)词语的中间。E (End)词语的结束。S (Single)这个字自己独立成词单字。3. 看个栗子假设我们要处理这句话“昨天小明…”机器标注前昨天小明…机器标注后昨 -B词头天 -E词尾 -B和E连起来机器知道“昨天”是一个词 -S单字小 -B词头明 -E词尾 -机器识别出“小明”是一个人名4. 知识扩展序列标注模型的进化史为了解决这个问题聪明的科学家们发明了一代又一代的模型模型特点能力值HMM隐马尔可夫只看当前字不看上下文⭐⭐CRF条件随机场本文主角能看上下文和逻辑⭐⭐⭐⭐BiLSTM-CRF引入长短期记忆读得更远⭐⭐⭐⭐⭐BERT-CRF全知全能精准聚焦⭐⭐⭐⭐⭐⭐二、 为什么要用 CRF条件随机场有了标签系统谁来负责贴标签呢最早有个笨笨的机器人叫HMM隐马尔可夫模型。它有个大毛病近视眼。它遵循**“独立输出假设”**认为“现在的标签只跟现在的字有关”。但实际上“名词”后面大概率接“动词”“B”后面绝不可能接“S”。CRF 的出现解决了这个问题。它是一个判别式概率模型它的强项在于处理两种依赖关系CRF结构图标签 y2标签 y1标签 y3输入 x1输入 x2输入 x3(图解CRF 的网状结构。注意看标签 y2 不仅连着输入 x2还连着旁边的 y1 和 y3这就是“看规矩”的能力)全局依赖 (Global Dependence)每一个输出的标签不仅仅取决于当前的字而是由整个输入句子决定的。相邻依赖 (Neighbor Dependence)每一个标签都跟它前后相邻的标签有关系。三、 CRF 的“大脑”是怎么思考的核心原理很多人看到 CRF 的数学公式就想关网页但其实它就是在做一个**“打分游戏”。CRF 的逻辑是对于一句话可能有成千上万种标注方法路径我要算出每一种方法的得分**分最高的那个就是正确答案。1. 打分公式人话版别怕我们看一眼公式的样子然后马上拆解它P(y∣x)1Zexp⁡(∑转移得分∑状态得分)P(y|x) \frac{1}{Z} \exp \left( \sum \text{转移得分} \sum \text{状态得分} \right)P(y∣x)Z1​exp(∑转移得分∑状态得分)这就好比老师改卷子总分由两部分组成第一部分转移特征 (Transition Features) —— 负责“管纪律”含义衡量相邻状态变量之间的影响。看标签和标签之间顺不顺眼。规则举例如果前一个标签是B当前标签是E组成双字词符合纪律✅加分。如果前一个标签是B当前标签是B连续两个开头违反纪律❌扣分。第二部分状态特征 (State Features) —— 负责“看事实”含义衡量观测序列对状态变量的影响。看字和标签配不配。规则举例看到“天”这个字把它标成E结尾。机器回想了一下训练记忆在“昨天、今天、蓝天”里“天”都是结尾。符合事实✅加分。2. 谁来决定加多少分权重你可能会问为什么是加10分而不是加100分这是机器在训练阶段刷题阶段学出来的。如果训练数据里“B后面跟着E”出现得特别多机器就会把这个规则的权重Weight即公式里的λ\lambdaλ和μ\muμ调得很高。四、 怎么快速找到最高分维特比算法如果一句话有 10 个字每个字有 4 种标签可能那么组合就有4104^{10}410种一百多万种机器如果把每一条路都走一遍算出分数CPU 都要烧了。于是我们用了一种走迷宫的捷径——维特比算法 (Viterbi Decoding)。算法精髓步步为营优胜劣汰想象你在玩闯关游戏从第 1 关走到第 10 关走到第 2 关时虽然从起点过来有 4 条路但我只保留分数最高的那 1 条把剩下 3 条差的路直接剪断、忘掉走到第 3 关时基于第 2 关留下的最好路径继续往下走再次只保留最好的 1 条。结果不管句子多长机器在每一步都只保留了“最优解”。走到终点时回过头一看留下的就是那条唯一的全局最优路径比如红线所示。(图解红线代表最终筛选出的最高分路径B-E-B-E即“老王/上课”)五、 总结序列标注就是把“分词问题”变成了“给每个字打标签BMES”的问题。记住核心输入是观测序列xxx输出是状态序列yyy。CRF 模型是一个严谨的评分老师它不仅看字状态特征还看标签顺不顺转移特征打破了 HMM 的独立假设。核心公式总分 事实分 纪律分。维特比算法是一种聪明的剪枝算法帮我们快速找到得分最高的那条路。学会了 CRF你就掌握了 NLP 领域的“瑞士军刀”。无论是医疗领域的病历分析还是金融领域的合同审核背后都离不开它的支持如果你觉得这篇文章对你有帮助欢迎点赞、收藏、关注三连有任何疑惑和问题请在评论区留言
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

百度推广后台登录页面成都百度搜索排名优化

文章目录 集群最少要几台机器?集群规则是怎样的?前言一、什么是 ZooKeeper?二、集群最少要几台机器?1. ZooKeeper 的数据存储机制2. 为什么最少需要3台?3. 实际案例 三、ZooKeeper 的集群规则1. 节点角色2. 心跳机制3.…

张小明 2025/12/26 15:49:29 网站建设

餐馆网站模板企业推广语句

还在为网络波动错过精彩瞬间而懊恼?想要永久珍藏心仪UP主的经典作品却受限于平台规则?B站视频下载工具BilibiliDown为你提供完美解决方案,只需简单三步操作,即可将B站海量视频资源收入囊中!🎉 【免费下载链…

张小明 2025/12/26 15:48:55 网站建设

手机端网站关键词排名wordpress漏洞教程

垃圾网页恶意链接挖掘的 Python 实战 网页链接提取、威胁情报校验(Virustotal API)、恶意链接判定 一、环境准备 首先安装依赖库: pip install requests beautifulsoup4 python-dotenv # 核心依赖二、核心代码实现 1. 配置项与工具函数(防恶意脚本、链接清洗) impo…

张小明 2025/12/26 15:48:20 网站建设

网站建设工作 方案自己怎么开电商平台

想要在Obsidian中建立高效的Zettelkasten笔记系统,却苦于没有合适的模板?Obsidian-Templates项目提供了完整的解决方案,通过精心设计的模板体系,让你的知识管理效率翻倍。本文将从新手角度出发,详细介绍如何快速上手这…

张小明 2025/12/26 15:47:46 网站建设

网站登录页面怎么做的建设电玩网站

在跨境电商全球化布局的浪潮中,独立站凭借 “品牌自主、数据可控、利润更高” 的优势,成为卖家出海的核心阵地。但跨境场景的复杂性,让多语言适配、多币种支付、国际物流对接成为开发的三大核心痛点 —— 数据显示,超 50% 的跨境独…

张小明 2025/12/26 15:47:11 网站建设

小米商城官方网站入口电子商务网站建设重点难点

某机械配件企业的“锐锋”牌刀具在行业内小有名气,前业务员离职后另起炉灶,推出的产品标识里竟完整嵌入了“锐锋”的图形商标,只在旁边加了极小的“天华”字样。不到半年,仿冒产品以低价抢占了近三成市场,不少客户误认…

张小明 2025/12/26 15:46:02 网站建设