首页> 中国专利> 汉语依存树库中未登录词的处理方法

汉语依存树库中未登录词的处理方法

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明属于计算语言学的自然语言处理领域，公开了一种汉语依存树库中未登录词的处理方法，该方法包括步骤：A，利用同义词词林，查找未登录词的所有同义词；B，根据汉字字形特征，计算未登录词与其所有同义词之间的字形相似度；C，当未登录词与多个同义词的字形相似度相同时，抽取所映射的词及其对应的词性的信息量，改进字形相似度计算模型；D，抽取字形相似度最大的词为未登录词的最优映射词，作为树库中对未登录词的解释。本发明可以再不扩大树库规模的前提下，令依存句法分析中的单元对回升到或，从而达到细化信息粒度，缓解数据稀疏问题，改进依存句法分析性能。

著录项

公开/公告号CN103678272A

专利类型发明专利
公开/公告日2014-03-26

原文格式PDF
申请/专利权人北京信息科技大学;
展开▼

申请/专利号CN201210344884.3
发明设计人吕学强;郑略省;王玥;关晓炟;
展开▼

申请日2012-09-17
分类号G06F17/27;G06F17/30;
代理机构
代理人
地址 100192 北京市海淀区清河小营东路12号北京信息科技大学
入库时间 2023-12-17 01:00:24

法律信息

法律状态公告日

法律状态信息

法律状态
2023-09-22

未缴年费专利权终止 IPC(主分类):G06F17/27 专利号:ZL2012103448843 申请日:20120917 授权公告日:20160406

专利权的终止
2016-04-06

授权

授权
2014-04-23

实质审查的生效 IPC(主分类):G06F17/27 申请日:20120917

实质审查的生效
2014-03-26

公开

公开

说明书

技术领域

本发明涉及一种对汉语依存语法树库中未登录词的处理方法，通过树库已知词实现对未登录词的理解，属于计算语言学中的自然语言处理领域。

背景技术

句法分析是自然语言处理的核心问题之一，其性能的好坏，直接影响到自然语言句子自动理解的正确性和有效性。依存句法分析比结构化句法分析更容易处理，近年来受到了人们的广泛关注。目前许多国家正建立和发展自己语言的树库，随着词汇本身强大的排歧能力渐渐被挖掘出来，越来越多的依存句法分析统计模型趋于词汇化。

词汇是最有区别力的信息，语言在词汇层面几乎没有歧义。词汇以及词汇之间的依存，包含着极丰富的表征信息，这使得越来越多的句法分析器趋向于词汇化。但词汇化建模中存在的难点是词汇信息的数据稀疏问题，目前主要采用词性信息进行平滑，如将词单元对<词，词> 回退为<词，词性>、<词性，词>、<词性，词性>。但由于词性标记的数量少，信息粒度较粗，不可避免地会产生大量的句法歧义。

现有树库规模较小，实际应用中存在大量未在树库中出现的词汇，也即未登录词。这使得依存句法分析无法利用这些词的词汇信息，从而降低句法分析的精确度，严重阻碍了句法分析的发展。目前在英文方面主要趋向两种方式解决未登录词问题：花费大量人力、物力扩大树库规模；利用现有资源，实现同一类别词汇相互间的映射转换。在中文方面主要采用词性信息平滑技术，但存在信息粒度粗，句法歧义大的缺陷。因此，迫切地需要一种针对汉语特点的树库未登录词处理方法，以解决树库中数据稀疏和信息粒度粗的问题，提高句法分析精确度。

发明内容

为了解决依存句法分析中树库数据稀疏问题以及采用词性信息平滑带来的信息粒度粗等问题，本发明提供了一种汉语依存树库中未登录词的处理方法，实现树库未登录词与已知词的映射转换，在不扩大数据规模的情况下，令单元对<词性，词性>可以回升到<词性，词>或<词，词性>，以细化信息粒度，缓解数据稀疏问题，改进依存句法分析的性能。

为了达到上述目的，本发明提供一种依存树库中未登录词的处理方法，具体步骤包括：

A、利用同义词词林，查找未登录词的所有同义词；

B、根据汉语字形特征，设计词语之间的字形相似度计算模型，计算未登录词及其所有同义词之间的字形相似度；

C、对于未登录词存在多个同义词与之映射时，抽取所映射的词及其对应词性的信息量，改进字形相似度计算模型；

D、根据字形相似度，抽取最优映射词。

其中，步骤A具体为：根据哈工大信息检索研究室《同义词词林》扩展版的编码方式，抽取与未登录词5层编码均相等的所有词汇，作为同义词。

步骤B，利用汉字是象形文字，其字形和字义的联系密切的特点。同时，汉字字库相对比较稳定，构词频率高的常用字约3,000字，总数也就 2万多个字，绝大多数的新词也是由现有的字库组成的。因此将全体汉字用一个向量表示，向量的维数即为全体汉字数目，向量的值或者说权重为某一特定单元中汉字出现的次数；

设n为全体汉字字数，sw表示单个汉字，则全体汉字的向量表示： ( sw₁,sw₂,…,sw_n)。

为此，词汇的字形相似度计算模型：

$CoSim ({uw}_{i}, w_{j}) = g ({uw}_{i}, w_{j}) * \frac{Σ_{k = 1}^{n} C_{ik} * C_{jk}}{\sqrt{Σ_{k = 1}^{n} {C_{ik}}^{2} Σ_{k = 1}^{n} {C_{jk}}^{2}}}$

其中，uw_i代表未登录词，w_j代表与未登录词uw_i在同义词词林中5层编码均相等的词汇，n为全体汉字组成的向量的维数。C_ik表示未登录词u w_i中第k个汉字的频次，C_jk表示词w_j中第k个汉字的频次。

步骤C，由于已知词在树库中出现的频度，是影响分析器学习该词句法信息的一个重要因素，通常频度越高其句法信息越充分，而映射词与已知词能发生映射的前提条件是词性相同，因此当某个未登录词与多个已知词存在关系时，引入词的频度来调整字形相似度计算。对字形相似度进行改进：

$FinalSim ({uw}_{i}, w_{j}) = \log_{(C_{P_{j}} + 1)} (C_{w_{j}} + 1) * CoSim ({uw}_{i}, w_{j})$

表示已知词w_j的词性在树库中的频次，表示词wj在树库中的频次。为避免频次为0的情况，对对数进行了数据加1平滑。

步骤D，根据字形相似度计算，进行最优化求解，获取最优映射词：

$w_{j} = \arg_{w_{j}} \max FianlSim ({uw}_{i}, w_{j})$

目前，大多数依存句法分析是基于词汇统计模型，但在现有资源有限的前提下，随着网络新兴用于的涌现，会出现严重数据稀疏问题，给句法分析带来严重阻碍。本发明借助扩展版的《同义词词林》，根据汉字字形特征，设计字形相似度计算模型，将树库未登录词映射成已知词，从而实现在不扩大数据规模的情况下，细化信息粒度，缓解树库数据稀疏问题，改进依存句法分析性能。

附图说明

图1是本发明实例的依存树库中未登录词处理方法的流程示意图。

具体实施方式

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明，但不用来限制本发明的范围。

S10、利用同义词词林，查找未登录词的所有同义词。

查找依存树库中未登录词，根据《同义词词林》扩展板的5层编码方式，获取与未登录词5层编码均相同且第8位标记位为“=”号的所有词，作为未登录词的同义词。

S20、根据汉字字形特征，计算未登录词与同义词的字形相似度。

全体汉字向量用(sw₁,sw₂,…,sw_n)表示，这样每一个词语都可以用由 0或所含字频次构成的汉字向量表示。将树库的未登录词用uw₁,uw₂,… ,uw_t表示，已知词用w₁,w₂,…,w_m表示，当uw_i与w_j在《同义词词林》中是同义词时，则计算二者的字形相似度：

$CoSim ({uw}_{i}, w_{j}) = g ({uw}_{i}, w_{j}) * \frac{Σ_{k = 1}^{n} C_{ik} * C_{jk}}{\sqrt{Σ_{k = 1}^{n} {C_{ik}}^{2} Σ_{k = 1}^{n} {C_{jk}}^{2}}}$

其中n为全体汉字组成的向量的维数，k为全体汉字向量的元素位置。 C_ik表示未登录词uw_i中第k个汉字的频次，C_jk表示词w_j中第k个汉字的频次。

S30、当未登录词与多个已知词的字形相似度值相同时，需要改进字形相似度计算模型。

当某个未登录词与多个已知词的字形相似度相同时，无法确定哪个已知词为最优的映射词，如“导体、半导体、超导体”是一组同义词，如果“导体”是未登录词，其它两个是已知词，那么“导体”与两个已知词的字形相似度均相同。为了选择更优的映射词，引入词的频次来调整字形相似度计算模型。词性相同的情况下，已知词在树库中出现的频次，是影响分析器学习该词句法信息的一个重要因素，通常频度越高，分析器学习其句法信息越充分。因此当未登录词存在多个已知词可作为映射词时，需要进一步调整字形相似度计算：

$FinalSim ({uw}_{i}, w_{j}) = \log_{(C_{P_{j}} + 1)} (C_{w_{j}} + 1) * CoSim ({uw}_{i}, w_{j})$

表示已知词w_j的词性在树库中的频次，表示词wj在树库中的频次。为避免频次为0的情况，对对数进行了数据加1平滑。

S40、选取最优的已知词作为未登录词的映射词：

$w_{j} = \arg_{(w_{j})} \max FianlSim ({uw}_{i}, w_{j}) .$

部分未登录词映射表如表1所示。

表1

未登录词已知词暗 AD 暗中 AD 保险金 NN 保证金 NN 报表 NN 表格 NN 巴西人 NN 西班牙人 NN 拨发 VV 签发 VV … …

以上技术方案详细介绍了汉语依存树库中未登录词处理方法，在资源库的使用上，不限于使用扩展版《同义词词林》获取未登录词的同义词，在应用范围上，可以用于所有汉语依存句法分析树库和可转化为依存树库的所有汉语树库。依据本发明实施例的思想，在具体实施细节、所采用资源库或应用范围上会有所改变，综上所述，本说明书内容不应理解为对本发明的限制。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 汉语依存树库中未登录词的处理方法 [P] . 中国专利： CN103678272B . 2016.04.06
2. 汉语依存树库中未登录词的处理方法 [P] . 中国专利： CN103678272A . 2014-03-26
3. Method for performing navigation in navigation tree in database, involves associating nodes with level, and executing set of navigation controls to select one node in tree and display information associated with selected node [P] . 法国专利： FR2995421A1 . 2014-03-14

机译：在数据库的导航树中执行导航的方法，包括将节点与级别相关联，并执行一组导航控件以选择树中的一个节点并显示与所选节点相关的信息
4. A method for flexibly storing/retrieving data stored in a tree-based data storing device in/from a database and corresponding system [P] . 欧洲知识产权局专利： EP2355406B1 . 2017-03-08

机译：一种在数据库和相应系统中灵活地从数据库中存储/检索基于树的数据存储设备中存储的数据的方法
5. A method for flexibly storing/retrieving data stored in a tree-based data storing device in/from a database and corresponding system [P] . 欧洲知识产权局专利： EP2355406A1 . 2011-08-10

机译：一种在数据库和相应系统中灵活地从数据库中存储/检索基于树的数据存储设备中存储的数据的方法