做网站实现自动生成pdf,太平洋手机网官网,建筑常用的模板下载网站有哪些,wordpress修改在线字体【NLP】拒绝数学劝退#xff01;大白话讲清楚序列标注与 CRF#xff08;原理公式图解#xff09;摘要#xff1a;你看古文会觉得头大吗#xff1f;因为没有标点符号。其实机器看中文也是这样#xff01;如何教会机器给一长串汉字正确地“断句”#xff1f;本文将避开晦涩…【NLP】拒绝数学劝退大白话讲清楚序列标注与 CRF原理公式图解摘要你看古文会觉得头大吗因为没有标点符号。其实机器看中文也是这样如何教会机器给一长串汉字正确地“断句”本文将避开晦涩的数学推导用通俗的语言带你拆解 NLP 核心任务——序列标注并揭秘条件随机场CRF背后的“打分”逻辑。无门槛包看懂一、 什么是“序列标注”给汉字办身份证在 NLP自然语言处理的世界里机器最头疼的一件事就是中文没有空格。英文是I love AI有空格隔开中文是我爱人工智能粘在一起。如果机器把“北京大学”切分成“北京/大/学”意思就变了。为了解决这个问题我们发明了序列标注Sequence Labeling。1. 任务定义简单来说就是给句子里的每一个字都发一张“身份证”打标签。只要标签发对了词语的边界就出来了。序列标注流程标注标注标注B:开始输入: 昨E:结束输入: 天S:单字输入: ,(图解序列标注的基本流程输入汉字输出标签) 核心概念数学视角输入 (xxx)称为观测序列。比如文本序列{x1,x2,...,xn}\{x_1, x_2, ..., x_n\}{x1,x2,...,xn}。输出 (yyy)称为状态序列。比如标签序列{y1,y2,...,yn}\{y_1, y_2, ..., y_n\}{y1,y2,...,yn}。目标找到最正确的yyy使得它与xxx最匹配。2. 怎么打标签BMES 法我们最常用的是一套叫BMES的标签系统B (Begin)词语的开始。M (Middle)词语的中间。E (End)词语的结束。S (Single)这个字自己独立成词单字。3. 看个栗子假设我们要处理这句话“昨天小明…”机器标注前昨天小明…机器标注后昨 -B词头天 -E词尾 -B和E连起来机器知道“昨天”是一个词 -S单字小 -B词头明 -E词尾 -机器识别出“小明”是一个人名4. 知识扩展序列标注模型的进化史为了解决这个问题聪明的科学家们发明了一代又一代的模型模型特点能力值HMM隐马尔可夫只看当前字不看上下文⭐⭐CRF条件随机场本文主角能看上下文和逻辑⭐⭐⭐⭐BiLSTM-CRF引入长短期记忆读得更远⭐⭐⭐⭐⭐BERT-CRF全知全能精准聚焦⭐⭐⭐⭐⭐⭐二、 为什么要用 CRF条件随机场有了标签系统谁来负责贴标签呢最早有个笨笨的机器人叫HMM隐马尔可夫模型。它有个大毛病近视眼。它遵循**“独立输出假设”**认为“现在的标签只跟现在的字有关”。但实际上“名词”后面大概率接“动词”“B”后面绝不可能接“S”。CRF 的出现解决了这个问题。它是一个判别式概率模型它的强项在于处理两种依赖关系CRF结构图标签 y2标签 y1标签 y3输入 x1输入 x2输入 x3(图解CRF 的网状结构。注意看标签 y2 不仅连着输入 x2还连着旁边的 y1 和 y3这就是“看规矩”的能力)全局依赖 (Global Dependence)每一个输出的标签不仅仅取决于当前的字而是由整个输入句子决定的。相邻依赖 (Neighbor Dependence)每一个标签都跟它前后相邻的标签有关系。三、 CRF 的“大脑”是怎么思考的核心原理很多人看到 CRF 的数学公式就想关网页但其实它就是在做一个**“打分游戏”。CRF 的逻辑是对于一句话可能有成千上万种标注方法路径我要算出每一种方法的得分**分最高的那个就是正确答案。1. 打分公式人话版别怕我们看一眼公式的样子然后马上拆解它P(y∣x)1Zexp(∑转移得分∑状态得分)P(y|x) \frac{1}{Z} \exp \left( \sum \text{转移得分} \sum \text{状态得分} \right)P(y∣x)Z1exp(∑转移得分∑状态得分)这就好比老师改卷子总分由两部分组成第一部分转移特征 (Transition Features) —— 负责“管纪律”含义衡量相邻状态变量之间的影响。看标签和标签之间顺不顺眼。规则举例如果前一个标签是B当前标签是E组成双字词符合纪律✅加分。如果前一个标签是B当前标签是B连续两个开头违反纪律❌扣分。第二部分状态特征 (State Features) —— 负责“看事实”含义衡量观测序列对状态变量的影响。看字和标签配不配。规则举例看到“天”这个字把它标成E结尾。机器回想了一下训练记忆在“昨天、今天、蓝天”里“天”都是结尾。符合事实✅加分。2. 谁来决定加多少分权重你可能会问为什么是加10分而不是加100分这是机器在训练阶段刷题阶段学出来的。如果训练数据里“B后面跟着E”出现得特别多机器就会把这个规则的权重Weight即公式里的λ\lambdaλ和μ\muμ调得很高。四、 怎么快速找到最高分维特比算法如果一句话有 10 个字每个字有 4 种标签可能那么组合就有4104^{10}410种一百多万种机器如果把每一条路都走一遍算出分数CPU 都要烧了。于是我们用了一种走迷宫的捷径——维特比算法 (Viterbi Decoding)。算法精髓步步为营优胜劣汰想象你在玩闯关游戏从第 1 关走到第 10 关走到第 2 关时虽然从起点过来有 4 条路但我只保留分数最高的那 1 条把剩下 3 条差的路直接剪断、忘掉走到第 3 关时基于第 2 关留下的最好路径继续往下走再次只保留最好的 1 条。结果不管句子多长机器在每一步都只保留了“最优解”。走到终点时回过头一看留下的就是那条唯一的全局最优路径比如红线所示。(图解红线代表最终筛选出的最高分路径B-E-B-E即“老王/上课”)五、 总结序列标注就是把“分词问题”变成了“给每个字打标签BMES”的问题。记住核心输入是观测序列xxx输出是状态序列yyy。CRF 模型是一个严谨的评分老师它不仅看字状态特征还看标签顺不顺转移特征打破了 HMM 的独立假设。核心公式总分 事实分 纪律分。维特比算法是一种聪明的剪枝算法帮我们快速找到得分最高的那条路。学会了 CRF你就掌握了 NLP 领域的“瑞士军刀”。无论是医疗领域的病历分析还是金融领域的合同审核背后都离不开它的支持如果你觉得这篇文章对你有帮助欢迎点赞、收藏、关注三连有任何疑惑和问题请在评论区留言