m99ww094cn 苍井空做的网站英文版企业网站布局设计
m99ww094cn 苍井空做的网站,英文版企业网站布局设计,大概在网上建立一个网站一年要花多少钱呀,微信网站建设报价标题#xff1a;论文解读#xff1a;文档的时间序列排序 一、翻译全文
论文原标题#xff1a;Temporal Sequencing of Documents 原文链接#xff1a;arXiv:2311.02578
摘要 本文概述了一种无监督方法#xff0c;用于对历史文档集合进行时间排序#xff0c;具体对象包括…标题论文解读文档的时间序列排序一、翻译全文论文原标题Temporal Sequencing of Documents原文链接arXiv:2311.02578摘要本文概述了一种无监督方法用于对历史文档集合进行时间排序具体对象包括美国国情咨文SOTU和中世纪英语财产转让文件语料库DEEDS。该方法依赖于通过非参数广义线性模型的带宽估计来有效捕捉词汇使用的逐渐变化。即使对于小型文档集与带宽相关的成本函数所需的可能排序数量也相当巨大。我们利用模拟退火算法解决了这一组合优化问题从而获得了最优的文档时间顺序。与随机排序基线相比我们的排序方法显著改善了两个语料库的时间序列。这种无监督方法应能实现未注明日期的文档集的自动时间排序。1. 引言历史与遗产文本的准确断代对历史学家至关重要。基于正确排序的文本历史学家可以在特定时间段的背景下检查、判断和分析事件。通常历史学家只能获得未注明日期的文本内容并据此推断创作日期。英国财产转让文件宪章或契约被选为本研究的一个组成部分因为它们具有特殊的性质。虽然盎格鲁-撒克逊时期约公元670年至1066年现存最早的例子总是注明日期的但在大约1600份文件中只有300份可以被认为是原件。专家指出许多所谓的盎格鲁-撒克逊文件实际上是后来的伪造品但很难与真正的宪章区分开来。在某些情况下给出的日期要么明显是虚构的要么是可疑的或者在许多情况下宪章仅在发行日期几个世纪后的副本中幸存下来导致抄写员误读或误抄产生真正的错误。当1066年诺曼征服英格兰后盎格鲁-撒克逊的政治和司法体系在很大程度上被诺曼体系取代出现了一个全新的现象未注明日期的宪章。从1066年到大约1307年爱德华二世统治开始在已知发行的百万份或更多宪章中只有约3%带有内部日期。虽然理查一世于1189年在皇家大法官法庭重新引入了日期标注但贵族和平民在之后的一百年里并没有效仿。与欧洲大陆的宪章相比英国宪章记录的前600年一直漂浮在不确定的海洋上。在历史研究中确定事件的正确顺序是一项基本原则。未注明日期的文件无处不在给律师、警察、情报机构、法医语言学家、密码破译者、艺术史学家等留下了确定事件先后顺序的责任。本研究为任何拥有一系列未注明日期的数字化文本或列表的人奠定了基础使其无需承担检查每个文档的上下文线索和特定事件引用的艰巨任务即可确定其时间顺序。此前在文档排序方面的努力主要集中在历史语言模型的开发上。在更广泛的信息检索领域研究者采用了包含术语使用时间方面的统计模型。然而依赖时间术语进行断代存在缺陷因为术语可能非常稀疏且模棱两可。在本研究中我们提出了TempSeq一种用于文档时间排序或排名的无监督方法。该方法设计用于仅有未注明日期的文档可用的情况。TempSeq依赖于“词袋”方法不使用关于时间的语言特征也不使用带有时间标签的训练集。TempSeq依赖于测量词汇使用的漂移假设词汇使用随时间逐渐变化。我们通过非参数广义线性模型回归对词汇使用漂移进行建模并估计文档的正确时间排序是使相关核带宽词汇使用时间变异性的直接度量平均最小化的排序。2. 语料库我们在两组带有时间标签的语料库上评估了我们的时间排序方法。第一个语料库由240份美国国情咨文SOTU的抄本组成年份从1790年到2020年。每个抄本的中位平均长度为6400个单词。第二个语料库来自早期英格兰文件数据集DEEDS。在该语料库中我们专注于1120年至1300年间发行的11,463份英语财产转让记录。所有记录均用拉丁文书写并经过主题专家历史学家的内容检查以验证发行日期。拉丁文档的中位长度为175个单词。我们在两种不同形式下考虑DEEDS语料库第一种是将给定年份的所有文档合并为单一文本DEEDS-conflated产生181份合并记录第二种是保持11,463份未合并记录的原样DEEDS-single。3. 概述当有一组已知日期的训练文档可用时Tilahun等人提出了“最大流行度”方法进行断代。这种方法基于对描述未注明日期的文档中每个单词出现概率的时间模式曲线的建模。例如在DEEDS语料库中该方法实现了非常可靠的日期估计测试集的中位断代误差为±5年。这种高精度验证了模型的一个潜在特征即用于断代文档的有用单词是那些在日期范围内出现概率不均匀且其使用变化变异性呈现逐渐变化的单词。像et、de、huic拉丁语或the、to、that英语这样的功能词在任何时候都以一致的比例出现即非信息性单词对未注明日期的文档的日期估计没有贡献。我们寻求一种优化过程来平衡偏差-方差权衡。这种优化一方面寻求最小化偏差从而增加曲线波动以准确跟踪单词出现的经验值同时最小化方差从而减少曲线波动以获得平滑曲线。用于平衡这些需求的最佳平滑曲线是一个可量化的参数值可以使用“经验法则”平滑参数估计。在没有注明日期的训练数据集的情况下我们计算用于估计文档中每个单词出现概率的最佳平滑参数的平均值。我们通过组合优化使用模拟退火算法在所有可能的时间排序中搜索以识别最高平均最佳平滑参数从而找到文档集的正确时间顺序的近似估计。4. 词汇使用时间模式的建模我们的基本假设是词汇使用是逐渐变化的。我们使用广义线性模型的局部多项式核回归将词汇使用概率建模为时间的函数。假设( D i , t D i ) (D_i, t_{D_i})(Di,tDi)代表数据对序列其中t D i t_{D_i}tDi代表第i ii个文档的日期。令n w ( D i ) n_w(D_i)nw(Di)表示单词w ww在文档D i D_iDi中的出现次数N ( D i ) N(D_i)N(Di)表示文档的总词数。我们感兴趣的是估计术语w ww在时间t tt的出现概率公式如下[ \hat{\pi}{w,h}(t) \frac{\sum{i1}^n n_w(D_i)K_h(t_{D_i} - t)}{\sum_{i1}^n N(D_i)K_h(t_{D_i} - t)} ]其中K h K_hKh是权重项h hh是带宽参数平滑参数。如果h hh非常大高度平滑则π ^ w , h ( t ) \hat{\pi}_{w,h}(t)π^w,h(t)近似于单词w ww的整体比例结果不随t tt变化。如果h hh非常小曲线会过拟合迅速波动以达到每个时间点的值。带宽控制偏差和方差是估计器的关键参数。我们通过SOTU语料库中的单词“Drug(s)”毒品/药物说明了带宽的作用。最佳平滑曲线揭示了数据中的清晰模式第一个峰值尼克松时期与“毒品战争”有关第二个峰值克林顿至布什时期与处方药的可负担性有关。相比之下像“de”of这样的停用词其平滑概率曲线在整个日期范围内是均匀的。这被称为非信息性信息性单词的时间均匀性非均匀性原则。5. TempSeq时间排序方法对于一组文档{ D 1 , … , D m } \{D_1, \dots, D_m\}{D1,…,Dm}假设l ( 1 , … , m ) l (1, \dots, m)l(1,…,m)代表真实的文档时间排名顺序。对于每个单词w ww和文档的时间排名排序σ ( l ) \sigma(l)σ(l)我们计算π ^ w , h ( t ) \hat{\pi}_{w,h}(t)π^w,h(t)的渐近最优带宽值记为h a m i s e , w , σ ( l ) h_{amise,w,\sigma(l)}hamise,w,σ(l)。根据信息性单词的时间非均匀性原则在正确的文档时间排序下最佳平滑参数h a m i s e , w , σ ( l ) h_{amise,w,\sigma(l)}hamise,w,σ(l)将更大因为曲线不需要如此剧烈的振荡来获得小偏差。因此我们通常期望h a m i s e , w , σ 0 ( l ) ≥ h a m i s e , w , σ ( l ) h_{amise,w,\sigma_0(l)} \ge h_{amise,w,\sigma(l)}hamise,w,σ0(l)≥hamise,w,σ(l)成立。对于一组文档我们通过首先计算H σ ( l ) H_{\sigma(l)}Hσ(l)来估计时间排名顺序其中H σ ( l ) H_{\sigma(l)}Hσ(l)是与m mm个文档中存在的每个单词相关的最佳带宽的统一中位数值。估计的时间排名顺序σ ^ ( l ) \hat{\sigma}(l)σ^(l)是在所有可能的排列中最大化H σ ( l ) H_{\sigma(l)}Hσ(l)的排名顺序[ \hat{\sigma}(l) \arg \max_{\sigma} H_{\sigma(l)} ]为了解决组合优化问题我们使用模拟退火算法。该算法通过反转和/或移动子序列从当前解生成随机排列解从而在邻域内搜索以最大化H σ ( l ) H_{\sigma(l)}Hσ(l)。6. 评估与结果我们使用斯皮尔曼等级相关系数Spearman’sρ \rhoρ来衡量预测顺序与真实顺序的接近程度。对于SOTU和DEEDS-conflated语料库我们随机选择了间隔约24年和18年的10个文档集。对于100次重复实验估计的排名顺序与真实排名顺序之间的相关系数绝对值的中位数对于SOTU语料库为0.66对于DEEDS-conflated语料库为0.78。相比之下随机排列的基线相关系数中位数为0.24。TempSeq方法的表现显著优于基线。然而对于DEEDS-single语料库TempSeq的表现不如合并集合。虽然统计上显著优于基线但中位相关系数仅为0.45。这是因为DEEDS-single文档的平均长度仅为175个单词而合并文档为11,000个单词导致用于估计时间顺序的单词样本非常少。TempSeq方法还允许识别对确定正确时间顺序最具信息量的单词。例如在SOTU语料库中“Britain”英国、“Families”家庭和“Court”法院被识别为信息性单词。通过LDA主题模型分析我们发现这些单词的使用上下文随时间发生了显著变化例如“Britain”从早期的海战封锁背景转变为后来的贸易和渔业权利背景。7. 误差分析我们对TempSeq表现不佳的子集进行了误差分析。当比较估计的时间排序的平均带宽值与正确时间排序下的平均带宽值时后者的值通常更大。这反映了词汇使用的较小变异性和随时间的逐渐变化。TempSeq在这些文档集上的表现不佳可以解释为模拟退火算法的搜索运行不足。8. 结论大型语言模型LLM虽然在自然语言理解方面能力卓越但通常需要海量数据进行训练。相比之下SOTU和DEEDS语料库的规模远小于LLM所需的训练数据。我们的无监督方法TempSeq依赖于词汇使用随时间逐渐变化的原则有效地捕捉了语料库中的变化。该方法在SOTU和DEEDS-conflated语料库上的表现显著优于随机排序。未来我们将检查该方法在文档间隔时间可变以及文档字数极少的情况下的表现。附录附录部分详细介绍了二项式模型的非参数核回归推导包括广义线性模型GLM的指数族形式、条件均值和方差以及局部多项式估计量的最大似然估计。此外还详细说明了带宽估计的“经验法则”程序包括渐近均方误差AMSE和渐近平均积分平方误差AMISE的计算公式。二、解读这篇论文的核心贡献在于提出了一种在完全无监督的情况下仅凭文本内容就能对历史文档进行时间排序的数学方法。其背后的直觉非常优雅且符合语言演化的规律语言的使用是随时间平滑演变的而不是突变的。作者将这一直觉转化为一个统计学问题。如果我们把文档按照正确的时间顺序排列那么某个特定单词如“drug”或“court”在这些文档中的出现频率曲线应该是相对平滑的例如先上升后下降或者保持稳定。这种“平滑度”在数学上可以通过核回归模型中的**带宽Bandwidth,h hh**来衡量。带宽越大意味着曲线越平滑噪音越小。反之如果我们把文档的时间顺序打乱同一个单词的频率曲线就会变得剧烈波动为了拟合这些波动模型不得不选择很小的带宽。因此整个排序问题被转化为了一个优化问题在所有可能的文档排列组合中哪一种排列方式能让所有单词的平均带宽最大化为了解决这个问题作者引入了**非参数广义线性模型Non-parametric GLM来拟合词频曲线并利用模拟退火算法Simulated Annealing**来在巨大的排列空间中寻找最优解。这避免了穷举法带来的计算灾难例如10个文档就有约180万种排列。该方法的优势在于它不需要外部的训练数据或标签这对于那些缺乏标注数据的历史文献如中世纪宪章尤为重要。它不仅能排序还能反向挖掘出那些“信息量大”的单词即那些随时间有明显且平滑演变规律的词汇这为历史学家分析特定时期的社会变迁提供了量化依据。然而该方法的局限性也在论文中坦诚地展示了出来它对数据量敏感。当处理单词数量极少的单个中世纪契约DEEDS-single时由于样本稀疏统计规律被噪音淹没排序效果明显下降。这提示我们基于统计规律的文本分析方法其效力往往受限于文本的长度和词汇的丰富程度。三、问答TempSeq方法的核心假设是什么TempSeq的核心假设是词汇的使用习惯是随时间逐渐变化的而不是突变的。这意味着在正确的时间序列下单词出现概率的曲线应当是相对平滑的具有较低的时间变异性。为什么说带宽Bandwidth是衡量排序质量的关键指标在核回归模型中带宽控制曲线的平滑程度。如果文档顺序正确词汇变化平缓模型会估计出较大的带宽如果顺序混乱词汇频率剧烈跳动模型为了拟合数据会估计出极小的带宽。因此带宽越大意味着当前的排序越符合词汇演变的平滑规律。该方法与传统的监督学习方法有何不同传统的监督学习如论文提到的Maximum Prevalence方法需要一组已知日期的文档作为训练集来学习词汇的时间模式。而TempSeq是无监督的它不需要任何已知日期的文档仅通过最大化词汇变化的平滑度来推断文档的相对顺序。模拟退火算法在其中扮演了什么角色对于m mm个文档可能的排列组合有m ! / 2 m!/2m!/2种。当文档数量增加时穷举搜索是不可能的。模拟退火算法作为一种组合优化技术通过随机扰动反转或移动子序列来高效地在巨大的搜索空间中寻找能使平均带宽最大化的最优排序。什么是“信息性单词”Informative Words信息性单词是指那些随时间推移其使用频率表现出明显且平滑变化模式的单词如“Britain”、“Drug”。相反像“the”、“of”这样的停用词在所有时间段频率稳定对确定时间顺序没有帮助被称为非信息性单词。为什么DEEDS-single语料库的排序效果不如DEEDS-conflatedDEEDS-single中的文档是独立的契约平均长度仅175词数据非常稀疏。而DEEDS-conflated将同一年份的文档合并平均长度达11,000词。统计方法依赖于足够的数据量来消除噪音单文档词数过少导致无法准确估计词汇概率的变化曲线。论文中使用了哪种数学模型来估计词汇概率论文使用了二项式族Binomial family的非参数广义线性模型Non-parametric Generalized Linear Models结合局部多项式核回归Local Polynomial Kernel Regression来估计单词在特定时间的出现概率。除了排序这种方法对历史学家还有什么潜在价值除了恢复文档顺序该方法还能识别出“不合时宜”的词汇。如果某个文档声称来自某个时代但其中包含的词汇在该时代的平滑曲线中极不协调这可能提示该文档是伪造的或被错误归档。为什么作者认为LLM大型语言模型不适合解决这个问题作者指出训练LLM需要海量数据数十亿词而历史语料库如SOTU或DEEDS通常只有几百万词数据量远不足以训练或微调大模型。此外LLM难以直接应用于无标签数据的纯时间排序任务。评估排序效果时使用了什么指标使用了斯皮尔曼等级相关系数Spearman’s Rank Correlation,ρ \rhoρ。该指标衡量了算法预测的文档排名与真实时间排名之间的单调相关性值越接近1表示排序越准确。