法律状态公告日
法律状态信息
法律状态
2023-09-22
未缴年费专利权终止 IPC(主分类):G06F17/27 专利号:ZL2012103448843 申请日:20120917 授权公告日:20160406
专利权的终止
2016-04-06
授权
授权
2014-04-23
实质审查的生效 IPC(主分类):G06F17/27 申请日:20120917
实质审查的生效
2014-03-26
公开
公开
技术领域
本发明涉及一种对汉语依存语法树库中未登录词的处理方法,通过树 库已知词实现对未登录词的理解,属于计算语言学中的自然语言处理 领域。
背景技术
句法分析是自然语言处理的核心问题之一,其性能的好坏,直接影响 到自然语言句子自动理解的正确性和有效性。依存句法分析比结构化 句法分析更容易处理,近年来受到了人们的广泛关注。目前许多国家 正建立和发展自己语言的树库,随着词汇本身强大的排歧能力渐渐被 挖掘出来,越来越多的依存句法分析统计模型趋于词汇化。
词汇是最有区别力的信息,语言在词汇层面几乎没有歧义。词汇以及 词汇之间的依存,包含着极丰富的表征信息,这使得越来越多的句法 分析器趋向于词汇化。但词汇化建模中存在的难点是词汇信息的数据 稀疏问题,目前主要采用词性信息进行平滑,如将词单元对<词,词> 回退为<词,词性>、<词性,词>、<词性,词性>。但由于词性标记的 数量少,信息粒度较粗,不可避免地会产生大量的句法歧义。
现有树库规模较小,实际应用中存在大量未在树库中出现的词汇,也 即未登录词。这使得依存句法分析无法利用这些词的词汇信息,从而 降低句法分析的精确度,严重阻碍了句法分析的发展。目前在英文方 面主要趋向两种方式解决未登录词问题:花费大量人力、物力扩大树 库规模;利用现有资源,实现同一类别词汇相互间的映射转换。在中 文方面主要采用词性信息平滑技术,但存在信息粒度粗,句法歧义大 的缺陷。因此,迫切地需要一种针对汉语特点的树库未登录词处理方 法,以解决树库中数据稀疏和信息粒度粗的问题,提高句法分析精确 度。
发明内容
为了解决依存句法分析中树库数据稀疏问题以及采用词性信息平滑带 来的信息粒度粗等问题,本发明提供了一种汉语依存树库中未登录词 的处理方法,实现树库未登录词与已知词的映射转换,在不扩大数据 规模的情况下,令单元对<词性,词性>可以回升到<词性,词>或<词, 词性>,以细化信息粒度,缓解数据稀疏问题,改进依存句法分析的性 能。
为了达到上述目的,本发明提供一种依存树库中未登录词的处理方法 ,具体步骤包括:
A、利用同义词词林,查找未登录词的所有同义词;
B、根据汉语字形特征,设计词语之间的字形相似度计算模型,计算未 登录词及其所有同义词之间的字形相似度;
C、对于未登录词存在多个同义词与之映射时,抽取所映射的词及其对 应词性的信息量,改进字形相似度计算模型;
D、根据字形相似度,抽取最优映射词。
其中,步骤A具体为:根据哈工大信息检索研究室《同义词词林》扩展 版的编码方式,抽取与未登录词5层编码均相等的所有词汇,作为同义 词。
步骤B,利用汉字是象形文字,其字形和字义的联系密切的特点。同时 ,汉字字库相对比较稳定,构词频率高的常用字约3,000字,总数也就 2万多个字,绝大多数的新词也是由现有的字库组成的。因此将全体汉 字用一个向量表示,向量的维数即为全体汉字数目,向量的值或者说 权重为某一特定单元中汉字出现的次数;
设n为全体汉字字数,sw表示单个汉字,则全体汉字的向量表示: ( sw1,sw2,…,swn)。
为此,词汇的字形相似度计算模型:
其中,uwi代表未登录词,wj代表与未登录词uwi在同义词词林中5层编 码均相等的词汇,n为全体汉字组成的向量的维数。Cik表示未登录词u wi中第k个汉字的频次,Cjk表示词wj中第k个汉字的频次。
步骤C,由于已知词在树库中出现的频度,是影响分析器学习该词句法 信息的一个重要因素,通常频度越高其句法信息越充分,而映射词与 已知词能发生映射的前提条件是词性相同,因此当某个未登录词与多 个已知词存在关系时,引入词的频度来调整字形相似度计算。对字形 相似度进行改进:
表示已知词wj的词性在树库中的频次,表示词wj在树库中的频次。 为避免频次为0的情况,对对数进行了数据加1平滑。
步骤D,根据字形相似度计算,进行最优化求解,获取最优映射词:
目前,大多数依存句法分析是基于词汇统计模型,但在现有资源有限 的前提下,随着网络新兴用于的涌现,会出现严重数据稀疏问题,给 句法分析带来严重阻碍。本发明借助扩展版的《同义词词林》,根据 汉字字形特征,设计字形相似度计算模型,将树库未登录词映射成已 知词,从而实现在不扩大数据规模的情况下,细化信息粒度,缓解树 库数据稀疏问题,改进依存句法分析性能。
附图说明
图1是本发明实例的依存树库中未登录词处理方法的流程示意图。
具体实施方式
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述 。以下实施例用于说明本发明,但不用来限制本发明的范围。
S10、利用同义词词林,查找未登录词的所有同义词。
查找依存树库中未登录词,根据《同义词词林》扩展板的5层编码方式 ,获取与未登录词5层编码均相同且第8位标记位为“=”号的所有词, 作为未登录词的同义词。
S20、根据汉字字形特征,计算未登录词与同义词的字形相似度。
全体汉字向量用(sw1,sw2,…,swn)表示,这样每一个词语都可以用由 0或所含字频次构成的汉字向量表示。将树库的未登录词用uw1,uw2,… ,uwt表示,已知词用w1,w2,…,wm表示,当uwi与wj在《同义词词林》 中是同义词时,则计算二者的字形相似度:
其中n为全体汉字组成的向量的维数,k为全体汉字向量的元素位置。 Cik表示未登录词uwi中第k个汉字的频次,Cjk表示词wj中第k个汉字的频 次。
S30、当未登录词与多个已知词的字形相似度值相同时,需要改进字形 相似度计算模型。
当某个未登录词与多个已知词的字形相似度相同时,无法确定哪个已 知词为最优的映射词,如“导体、半导体、超导体”是一组同义词, 如果“导体”是未登录词,其它两个是已知词,那么“导体”与两个 已知词的字形相似度均相同。为了选择更优的映射词,引入词的频次 来调整字形相似度计算模型。词性相同的情况下,已知词在树库中出 现的频次,是 影响分析器学习该词句法信息的一个重要因素,通常频度越高,分析 器学习其句法信息越充分。因此当未登录词存在多个已知词可作为映 射词时,需要进一步调整字形相似度计算:
表示已知词wj的词性在树库中的频次,表示词wj在树库中的频次。 为避免频次为0的情况,对对数进行了数据加1平滑。
S40、选取最优的已知词作为未登录词的映射词:
部分未登录词映射表如表1所示。
表1
以上技术方案详细介绍了汉语依存树库中未登录词处理方法,在资源 库的使用上,不限于使用扩展版《同义词词林》获取未登录词的同义 词,在应用范围上,可以用于所有汉语依存句法分析树库和可转化为 依存树库的所有汉语树库。依据本发明实施例的思想,在具体实施细 节、所采用资源库或应用范围上会有所改变,综上所述,本说明书内 容不应理解为对本发明的限制。
机译: 在数据库的导航树中执行导航的方法,包括将节点与级别相关联,并执行一组导航控件以选择树中的一个节点并显示与所选节点相关的信息
机译: 一种在数据库和相应系统中灵活地从数据库中存储/检索基于树的数据存储设备中存储的数据的方法
机译: 一种在数据库和相应系统中灵活地从数据库中存储/检索基于树的数据存储设备中存储的数据的方法