一种基于层叠CRF的古文断句与句读标记方法

减小字体 增大字体 作者:张 合 王晓东 杨建宇 周卫东  来源:www.zhonghualunwen.com  发布时间:2009-10-12 23:38:31

  0 引言
  
  古汉语是中华民族悠久历史文化的积淀,利用自然语言理解技术对古文进行挖掘对发扬我国古代灿烂的历史文化具有重要意义。无标点符号是古代汉语的重要特点之一,大量未修订的古籍均是无标点符号的文本。本文针对古文句子缺少标点符号的问题,研究了条件随机场(conditional random fields, CRF)模型在古文句子切分与标点符号自动标注的应用,设计了在一个六字位标记集的基础上,提出基于层叠式条件随机场模型的古文断句与句读标记算法,开发出了集训练、解码、评测为一体的古文句子切分与标点符号标注工具包。实验显示,本文提出的方法在封闭测试中断句与句读标注的F值分别达到96.48%和91.35%,开放测试中断句与句读标注的F值分别达到71.42%和67.67%,具有较好的效果。
  
  1 问题的难点与相关研究
  
  本文要解决的问题是设计算法对无标点的古文文本进行句子切分,确定句读后进行标点符号的自动标注,包括逗号、句号、问号、分号、感叹号、冒号、引号等。不等同于句子边界的识别问题,句子边界识别是识别作为句子边界的句号,其实质是对自然语言文本中出现的句号根据前后文进行消歧[1]。对于无标点的古文,句子切分与标点符号自动标注是一个新颖而困难的问题,其难点主要体现在以下几个方面:
  a)古文具有严重的数据稀疏现象。相对于现代汉语的海量数据,古文数据的来源主要依靠于典藏和考古发掘,这使得可获取的古文总量较少。
  b)古文具有词、句简练,单字成词甚至成句现象普遍的特点,如“善曰:囅,敕忍切。,呼来切。”“子以四教:文、行、忠、信。”等。这也使得古文的语言数据量减少,同时预测古文句子切分位置及标点符号所依赖的局部前后文信息变少,增加了句子切分和标点符号标注的难度。
  c)古文分词界限模糊,词性标注歧义较多,很难进行词的切分,无法利用词一级的特征以及词性特征进行切分与标点符号位置的预测,只能利用有关单字或字串方面的信息来进行决策。
  d)古文文体迥异,年代跨度大。例如《老子》《水经注》《左传》《诗经》等,每一种文体都有自己独特的风格,且具有的文本数量少,很难获取训练语言模型所需要的足够样本,因此加剧了数据稀疏问题以及语言模型的复杂程度。
  目前,人们在英语和现代汉语句子边界识别方面进行了大量的研究工作,提出了一系列基于规则和基于统计的识别算法,达到了99%左右的准确率,但是针对古文的句子切分和标点符号标注的相关研究还不是太多。北京大学计算机语言学研究所的胡俊峰等人[12]针对古文诗词开展研究,开发了唐宋诗计算机辅助研究系统。该系统以全唐诗(481万字)和宋代部分名家诗(160万字)组成的语料库为基础,运用计算语言学方法对唐宋诗进行分析研究,提取了唐宋诗中的词汇,计5万余条目。在对诗文进行词语切分的基础上,建立了词汇的共现关系、对仗关系以及词汇的作者分布特征信息。系统除了提供面向诗文内容的全文检索功能外,还进一步开发了基于词汇的统计分析和诗句相似性检索等功能,实现了对全唐诗的自动注音。四川大学计算机学院的陈天莹等人[3]提出了一种基于前后文n-gram模型的古文句子切分方法,通过收集上下文信息,对切分位置进行比较准确的预测。该方法能够较好地处理小规模训练语料的情况,降低数据稀疏对切分准确率的影响。采用《论语》对提出的算法进行句子切分实验,达到了81%的召回率和52%的准确率。两者运用自然语言理解技术针对不同的目标,从不同的角度分别对古文进行研究。虽然研究中都涉及到古文的句子切分,但是并没有涉及句读标记的研究,而且还没有开发出功能全面的古文断句与句读自动标注的工具包。本研究的目的是研究新的古汉语断句与句读标记的算法,最终设计、开发一套功能全面的古文断句与句读标记工具集。
     2 CRF模型研究
  
  2.1 CRF的图结构
  CRF是无向图模型的一种形式。定义G=(V,E)是一个无向图,Y={Yv|v∈V},即V中的每个节点对应着一个随机变量所表示的标记序列的成分Yv。因而,整个图和与图相关的分布类别以X为条件,与G相关的联合分布的类别的形式是P(y1,…,yn|X)。这里y和X分别是类别序列和观测序列。如果每个随机变量Yv满足关于G的马尔可夫属性,给定X和Yv以外的所有随机变量Y(u|u≠v,{u,v}∈V),则随机变量Yv的概率式为:P(Yv|X,Yu,u≠v)=P(Yv|X,Yu,u~v)。其中:u~v表示u与 v在图G中相邻,那么(X,Y)就是一个条件随机场[4]。最简单的CRF图模型是线性链条件随机场(Linear-chain CRF),本文采取的就是这种模型结构,如图1所示。

[1] [2] [3] [4]  下一页

Tags:

作者:张 合 王晓东 杨建宇 周卫东
  • 好的评价 如果您觉得此文章好,就请您
      0%(0)
  • 差的评价 如果您觉得此文章差,就请您
      0%(0)

文章评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论