二次回溯中文分词方法

减小字体 增大字体 作者:健 张劲松 马 良  来源:www.zhonghualunwen.com  发布时间:2009-10-12 23:36:00

  0 引言
  
  中文信息处理的特有问题就是如何将汉语的字串分割为合理的词语序列。中文分词是句法分析等深层中文信息处理的基础,也是机器翻译、信息检索和信息抽取等智能化信息处理的关键所在[1,2]。而中文分词的主要困难在于切分歧义消解和未登录词语的识别,这也是世界上最令计算机感到棘手的语言现象之一[3~5]。中文分词方法中机械分词法主要包括正向最大匹配法(maximum matching method ,MM)、逆向最大匹配法(reverse direction maximum matching method ,RMM)和最少切分法。目前机械式分词占主流地位的是正向最大匹配法和逆向最大匹配法,这两种方法是利用一个分词词表进行模式匹配来切分,不依赖词法、句法和语义知识,切分速度快、简洁、易于实现,在各种中文信息处理上得到了广泛的应用;缺点是对于歧义字段无法有效地识别和切分。统计结果表明,单纯使用正向最大匹配的错误率为1/169;单纯使用逆向最大匹配的错误率为1/245[6],但这种精度还不能满足智能信息处理以及人机交互的要求,对词义消歧(word sense disambiguation,WSD)是计算语言学和自然语言处理领域一个重要的研究课题,也是近些年来该领域的热点研究问题之一[7]。本文在正向最大匹配法的基础上,提出二次回溯中文分词方法(简称二次回溯法),该方法对歧义字段能有效地识别和切分,大大提高分词的召回率和查准率。
  
  1 相关概念
  
  歧义字段分为交集型歧义字段和多义型歧义字段两类,为行文方便,结合文献[3,5,8]给出如下定义:
  定义1 令T1为词库,T2为字库,
  W=a1NA1ADaib1NA1ADbkc1NA1ADcj
  W1=a1NA1ADaib1NA1ADbk
  W2=b1NA1ADbkc1NA1ADcj
  Wa=a1NA1ADai,Wc=c1NA1ADcj
  其中:W,W1,W2,Wa,Wc∈T1以及ai′,bk′,cj′∈T2(i′∈[1,i],j′∈[1,j],k′∈[1,k]),则称字串W为由词W1和词W2形成的交集型歧义字段,n=i+j+k为歧义字段的长度, 字串b1NA1ADbk为交段,k为交段的长度,歧义字段中交段的个数称为链长。
  例如,为人民工作。其中“为人”“人民”“民工”“工作”均是词,交段长度均为1,链长为3。
  定义2 令T1为词库,
  W=a1NA1ADaib1NA1ADbk
  W1=a1NA1ADai,W2=b1NA1ADbk
  其中:W,W1,W2∈T1以及ai′,bk′∈T2(i′∈[1,i],k′∈[1,k]),而且存在语境〈α,β〉和〈λ,μ〉,使得αa1NA1ADaib1NA1ADbkβ中a1NA1ADaib1NA1ADbk为词W,λa1NA1ADaib1NA1ADbkμ中a1NA1ADaib1NA1ADbk为词序列W1W2,则称W为多义型歧义字段。
  例如:a)这个门把手坏了;b)请把手拿开。
  例1,“把手”为多义型歧义字段,a)中“把手”不应该切分,b)中“把手”应该切分为“把”和“手”两个独立的词。
  交集型歧义字段占全部歧义切分字段的85%以上[9],所以要提高中文分词质量最关键的是提高对交集型歧义字段的识别率和切分准确性。
  定义3 文本中相邻两个标点符号(含段首不可见符号)之间字串序列称为元句子。
  
  2 二次回溯法设计
  
  2.1 二次回溯法总体过程
  二次回溯中文分词算法,主要由如下几步组成:
  a)将文本转换成细粒度文本,即元句子;
  b)正向最大匹配;
  c)正向次大匹配(第一次回溯匹配);
  d)尾单字与后继单字结合成二字检测;
     e)循环步骤b)~d)至元句子切分结束;
  f)对元句子切分后的字串进行碎片检查(第二次回溯匹配);
  g)继续下一个元句子进行切分,循环步骤b)~f)直至文本切分结束。
  2.2 第一次回溯切分算法描述
  首先将待切文本中所有诸如:“,”“;”“!”等标点符号用标签隔开,如用“/,/”“/;/”“/!/”分别替换“,”“;”“!”。这样文本就被“/”分隔成一个个标点符号或者无标点符号的字串,这个字串称为元句子(定义3)。“/”符号之间的标点符号无须切分;针对长度小于等于2的元句子独立成词,无须切分。对文本的切分只要依次完成对文本中长度大于2的元句子的切分即可,以下过程就针对单一的元句子来进行切分。
  若分词词表中最长的词由n个字组成,在待切元句子str中按自左向右截取长度为n的字串str1,使之与词表中的词条依次匹配(如果元句子Str长度小于等于n,则取整个元句子来匹配):

[1] [2] [3]  下一页

Tags:

作者:健 张劲松 马 良
  • 好的评价 如果您觉得此文章好,就请您
      0%(0)
  • 差的评价 如果您觉得此文章差,就请您
      0%(0)

文章评论评论内容只代表网友观点,与本站立场无关!

   评论摘要(共 0 条,得分 0 分,平均 0 分) 查看完整评论