首页> 中国专利> 一种基于规则的自动汉语句法分析方法

一种基于规则的自动汉语句法分析方法

摘要

本发明公开了一种基于规则的自动汉语句法分析方法,提出汉语句子由句首界域、句中过程和句末认知结果三部分构成的句子成分三分算法,并据此设定句子结构规则、短语结构规则、词典以及处理流程来实现自动句法分析的目标。具体为:首先设定语法体系、词典数据库以及自动处理所需的结构层次;然后标注词性;再依次判断句末、句中、句首短语,并根据句法成分对应短语范畴的关系配置每个短语的句法功能;最后调整分析结果并输出。本发明可以直接运用于汉语语料库的语法标注、搭配词典的编纂、文本信息的自动抽取等任务,更为重要的是为汉英机器翻译提供一个经过语法分析的源文件。

著录项

  • 公开/公告号CN105320644A

    专利类型发明专利

  • 公开/公告日2016-02-10

    原文格式PDF

  • 申请/专利权人 陕西中医药大学;闻永毅;

    申请/专利号CN201510613102.5

  • 发明设计人 闻永毅;

    申请日2015-09-23

  • 分类号G06F17/27;

  • 代理机构西安弘理专利事务所;

  • 代理人罗笛

  • 地址 710048 陕西省咸阳市秦都区世纪大道

  • 入库时间 2023-12-18 14:21:19

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-02

    未缴年费专利权终止 IPC(主分类):G06F17/27 专利号:ZL2015106131025 申请日:20150923 授权公告日:20180102

    专利权的终止

  • 2018-01-02

    授权

    授权

  • 2016-03-09

    实质审查的生效 IPC(主分类):G06F17/27 申请日:20150923

    实质审查的生效

  • 2016-02-10

    公开

    公开

说明书

技术领域

本发明属于汉语自动处理技术领域,涉及一种基于规则的自动汉语句法 分析方法。

背景技术

自动句法分析是一种由语法体系和分析控制机制构成的自然语言自动 处理技术。从语法体系的角度考察,基于二分法建立起来的印欧语法体系在 英语句法自动分析中取得了可喜的成就,特别是基于语料库的英语分析技术, 已经成为很多分析系统效仿的模范。然而,按照二分原则建立起来的汉语句 法体系却遭遇到词性与句法功能多对多、句法结构与短语结构相互重叠、子 句边界判断困难等问题而难以应用于汉语句法自动分析之中。

发明内容

本发明的目的是提供一种基于规则的自动汉语句法分析方法,解决了现 有汉语句法分析中词性与句法功能多对多、句子结构与短语结构相互重叠、 子句边界判断困难的问题。

本发明所采用的技术方案是,一种基于规则的自动汉语句法分析方法, 具体按以下步骤实施:

步骤1,设计控制器,建立数据库,设置句法分析的层次属性:

控制器包括词性控制器、短语结构控制器、搭配控制器、句子结构控制 器四种类型,用来分析短语和句子的结构、控制句法分析的流程以及调用各 种词典;

词性控制器,负责定义词性标注的标准;

短语结构控制器,负责定义短语结构、分析短语成分;

句子结构控制器,负责定义句子结构、确定子句范围、配置子句成分;

搭配控制器,负责处理双核和三核短语,并进行搭配识别;

数据库包括标准词典、分类词典、搭配词典、末端词典以及感知词典;

句法分析的层次属性包括语序、原文、词性、短语层、短语功能、搭配 层、子句层、子句功能、修饰语层、处理状态、源词性;

步骤2,标注词性:

计算机读入句子,以经过分词系统加工过的分词文件为源文件,按照词 性控制器设定的词性标注标准,访问标准词典和分类词典,判断并标记句中 词汇的词性;

步骤3,句末短语识别和句末句法功能分析:

短语控制器访问搭配词典和末端词典,按照短语控制器设定的处理规则, 识别短语;随后按照句子结构控制器设定的步骤,判断句末成分zhi及其范 围并确定下一步处理的起点;

步骤4,句中短语识别和句中句法功能分析:

从步骤3设定的起点开始,按照短语控制器设定的处理规则,继续处理 句中短语,再次访问搭配词典、末端词典和感知词典,并通过短语控制器和 搭配控制器相配合,完成句中短语分析任务;伴随每一次短语识别操作,同 时配置句中成分vmid,并把句中成分vmid的修饰语记录在短语功能属性中; 按照流程继续处理,最后一个被识别的vmid就是句首处理的起点,而句中 成分的范围就是首个vmid跟最后一个vmid之间的跨距;

步骤5,句首短语识别和句首句法功能分析:

从步骤4设定的起点开始,判断句首句法功能和范围,然后按照句首短 语结构和处理流程,完成句首成分sj的识别;

步骤6,系统数据结构调整,并输出文本:

根据用户对于所需分析句子内容的需求,输出相对应的数据文本。

本发明的特点还在于,

词性控制器中词性分为六个大类,分别为:体词、动词、形容词、语气 词、介词、连词,还包括特殊类,词性标注的具体标准如下表:

短语结构控制器主要设定了四种短语结构,分别为单核短语SP、双核 短语DP、三核短语TP和特殊短语,具体结构形式描写如下:

A.单核短语SP:SP→前置部分head+核心词+后置部分xsuf;

xsuf中的“x”指不同词性的后置词或短语,“+”指相邻关系;

处理单核短语的关键点是识别核心词,处理的基本原则是:围绕核心词, 先根据右侧词性判断,再根据左侧词性判断,具体处理方法如下:

a.核心词右侧:

①访问搭配词典,把查找到的两个词w1和w2分别在短语词标记为跟 其词性相同的核心词;如果w1和w2右侧的词符合xsuf的条件,把该词在 短语层记录为xsuf;

②设两个连续的词w1和w2,如果w2符合xsuf的条件,那么,把w1 在短语层记录为跟其词性相同的核心词、w2在短语层记录为xsuf;

以上①和②所指的符合xsuf的条件是:跟末端词典匹配的词、跟xsuf 词性匹配的后置词、跟方位词词性匹配的词;

③设定具体规则识别核心词和xsuf,具体规则有:v/a+得+xsuf、v/a+不 +a、动词重叠式以及语法书中载有的宾补短语或中补短语规则;

b.核心词左侧:

设三个连续项目,词w1、w2和参照点xend,如果w1是w2的head, 而w2不可能是xend的head,那么,把w2在短语层记录为跟其词性相同的 核心词、w1在短语层记录为head;参照点xend是标点符号、特殊词类、连 词、介词、代词、前一个处理流程的终点;对于体词性短语而言,head类 型词有数量词、指示词、形容词、“的”字;对于动词和形容词而言,head 类型词有句末语气词、情态类词、否定词、“地”字短语;

B.双核短语DP:DP→SP+SP:

双核结构中的第一个SP为动词、介词,第二个SP为体词,或者动词、 形容词;

C.三核短语TP:TP→SP+SP+SP:

三核短语的主要类别有:①vc+n+v;②vc+nr+nc;③have+n+v;

D.特殊短语,主要包括以下几种类型:

a.的字短语De1P:De1P→w+de1,其中w表示词,处理方式为:

①以“de1+是”为条件,把de1认定为De1P的核心词;

②以“de1+情态类词vh”为条件,把de1认定为De1P的核心词;

b.地字短语De2P:De2P→w+de2,其中w表示词,处理方式为:

①以“de2+v/a/顿号”为起点,如果其左侧出现的词性为adv/a/v,那么, 把从起点开始到逆序不符合条件的词性为止,在短语层标记为isyu,在短语 功能层标记为修饰语;

②以“标点/n+adv/bu”为起点,顺序查找,如果出现“de2+动词短语” 为终点,并且从起点到终点的跨距小于5,且词均为单字词,把起点至de2 的连续体在短语层标记为isyu,在短语功能层标记为修饰语;;

c.仿四字语短语IP:IP→v/a+n+v/a+n,处理方式为:以标点符号、“的” 字、“地”字、“是”字、介词、情态类词为起点,逆序查找符合规则条件的 连续单字词,把符合四字语规则条件的序列在短语层标记为IP。

句子结构控制器中对于句子结构的定义为:

一个完整的汉语句子S按照自然语言的语序依次由句首界域sj、句中过 程vmid和句末认知结果zhi三部分构成,即句首成分、句中成分和句末成分, 句子结构分析的总体流程为:

zhi识别→vmid识别→sj识别。

搭配控制器是一种按照特定条件启动的双核心词查找器;首次使用时, 以标点符号为启动条件,此后在处理过程中随具体流程使用,具体处理方式 如下:

设startp为句中的一个特定点,w1和w2为两个核心词,程序从startp 开始逆序查找距离最近的w1,再找到距离w1最近的w2,把w1和w2认定 为一个搭配项目并在搭配层、短语层给予记录;查找过程不能跨越zhi和标 点符号逗号;当w1为体词时,w2必须是动词或者介词;当w1为动词时, w2必须是情态类词;

startp指词性为shi、vj、prep、de1、adv/bu、vh的词以及逆序处理zhi 完成后处理状态层第一个为空的词项。

步骤3具体为:

3.1句末短语识别:

依照短语控制器设定的单核短语处理规则,进行单核短语识别;依照搭 配控制器设定的方式,进行双核短语识别;

3.2句末句法功能分析:

句子末端成分的判断及其范围确定,具体流程如下:

3.2.1zhi处理

流程1:以标点符号为起点逆序查找:

参与处理的标点符号为句号、问号、感叹号、分号、冒号、逗号,以及 句末语气词,具体处理方法为:

把紧邻上述符号或语气词的动词短语、形容词短语在子句层标记为zhi;

流程2:自然句子中间的zhi:

按照逆序原则依次将以下项目在子句层标记为zhi:

1)句中的“是”类词,词性标记为shi;

2)句中序列“n+de3+v/a”中的“v/a”;

流程3:以时间词为起点逆序识别:

把紧邻时间词的动/形短语在子句层给予标记;

流程4:以“的”字为起点逆序识别:

把“动词短语/形容词短语+的+非标点”在修饰语层给予标记;

3.2.2双核短语v+n结构作为zhi处理

此步骤主要针对步骤3.2.1的流程1-4中未能处理的以v+n结构结束的 句子,这些句子以句号、问号、感叹号、分号、冒号、逗号以及句末语气词 结束:

流程5:句末为v+n结构

以逆序中紧邻以上标点符号或语气词的第一个体词为起点,通过查找搭 配词典,把匹配项目在搭配层、子句层给予标记;

流程6:按照词性识别v+n结构

按照搭配控制器设定的方法查找搭配项目并在搭配层、短语层标记,在 子句层标记为zhi;

流程7:以流程6的处理结果为起点,如果起点词为介词而紧邻的词为 动词,把该动词识别为v+n结构中的v,并在搭配层、子句层给予标记;

流程8:当流程5-7处理失败时,以逆序中紧邻以上标点符号或语气词 的第一个体词为起点,逆序寻找出现的第一个词性为adv或者词性为vh的 词,并把体词与该词自动判断为v+n结构,然后在搭配层、子句层给予标记;

3.2.3:zhi的修饰语处理

以步骤3.2.1和3.2.2处理的结果为起点,逆序处理zhi的各种修饰语;

流程9:按照词性识别

把词性为bu、adv的词和短语层为isyu的词识别为修饰语,并在子句层、 修饰语层、短语功能属性中给予标记;

流程10:按照情态词识别

把存在的情态词短语识别为修饰语,并在子句层、子句功能、短语功能 属性中标记;

3.2.4:混合处理,以步骤3.2.3的处理结果为起点,继续逆序处理与zhi 相关的介词短语和使动词短语:

流程11:识别句子的过程vmid:

以步骤3.2.3的处理结果为起点,再次使用搭配词典,逆序查询v+n搭 配,在搭配层标记、在子句层标记为过程vmid;

流程12:重复步骤3.2.3进行处理;

流程13:再次识别句中的zhi:

以子句层第一个不为空的标记为起点,通过查找感知词典,把跟词典中 匹配的词判断为句中的zhi并在子句层标记;

流程14:介词短语处理

逆序处理中,以子句层第一个不为空的标记为起点,如果该词性层为体 词,逆序查找介词,把找到的介词与起点体词在搭配层、短语功能属性标记, 在子句层标记为zhi;

流程15:连续性介词短语处理

重复使用流程14,解决多个介词短语问题;

流程16:使役动词处理

在子句层中,逆序处理时,紧邻已经处理的词项为体词时,如果查找到 使役动词,把体词与使役动词在短语层标记、在子句层标记为zhi;

流程17:使动短语的修饰语的处理,依照步骤3.2.3进行;

流程18:使动短语的介词短语,依照流程14进行;

流程19:使动短语的介词短语的修饰语,依照步骤3.2.3进行。

步骤4具体为:

4.1多个连续动词分界

对经步骤3处理后的句子继续逆序处理,把未处理的第一个动词或形容 词作为起点,把语序上相连的多个动词在子句层标记为vmid,同时在短语 功能层给予标记;

4.2并列连词跨越

继续逆序处理,把未被处理的第一个动词或形容词作为起点,如果发现 并列连词而且其紧邻词性为动词或形容词,在子句层把起点至此词项标记为 zhi;否则,把并列连词标记为zhi的修饰语;

4.3v+n用作vmid

1)以未被处理的第一个词为起点,逆序检索动词搭配词典,把查到的 项目在搭配层中标记,并在子句层标记为vmid;

2)以未被处理的第一个词为起点,逆序寻找第一个出现的核心动词, 并把找到项目跟起点词在搭配中标记,同时在子句层中标记为vmid;

4.4“把”字结构处理

设pba为查找的起点,w1为体词,w2为核心动词,在不跨越zhi和标 点符号的条件下,如果顺序找到w1,再找到w2,那么把pba和w1在搭配 层标记,把w2在子句层标记为vmid;然后重复该步骤对句末未处理部分进 行再次识别处理。

步骤5具体为:

5.1连词识别

逆序处理,把子句层的zhi或者vmid作为起点,把紧邻的未处理的第一 个连词识别为vmid或者zhi,并在子句层标记,同时在短语层标记;

5.2代词识别

逆序处理,把子句层的zhi或者vmid作为起点,把紧邻的未处理的第一 个代词识别为sj,并在子句层标记,同时在短语层标记为代词用作sj;

5.3数量词识别

逆序处理,把子句层的zhi或者vmid作为起点,把紧邻的未处理的连续 数量词识别为sj,并在子句层标记,同时在短语层标记为代词用作sj;

5.4其他体词识别

逆序处理,把子句层的zhi或者vmid作为起点,把紧邻的未处理的动物 词识别为sj,并在子句层标记,同时在短语层标记为动物词用作sj;按照先 后次序,以同样的方式处理空间词、时间词、普通体词;

5.5复杂界域的处理

以子句层的标记sj为范围,逆序在短语层中查找,把核心词为nt、nd 的短语在短语功能层标记为sjnt、sjnd,把核心词为nr的短语在短语功能层 标记为sjnr,把核心词为pron的短语在短语功能层标记为sjpron;

5.6句子逻辑关系识别

以步骤5.5处理的结果为起点,把sj之前的副词标记为特殊连词。

步骤6中输出的数据文本类型为:

1.输出搭配层记录的信息,形成一个搭配词库,即在搭配层不为空的条 件下,输出原文;

2.输出子句层、修饰语层,搭配层、词性、原文五个层次信息,为机器 翻译提供源文件,即在子句层不为空的条件下,输出以上列举的五个层次的 数据;

3.输出所有数据,为语言研究、标注语料库服务;

4.输出句子主干部分,形成一个没有修饰语的简洁文件,具体为:

第一、在搭配层为空的条件下,把词性vj和ve复制到搭配层,把紧邻 vmid的sj复制到搭配层,把紧邻句末标点的一个zhi复制到搭配层;

第二、在搭配层不为空的条件下,输出原文、词性、搭配层。

本发明的有益效果是,一种基于规则的自动汉语句法分析方法,采用了 一种句子成分三分法的分析框架,提出一个完整的汉语句子由三个部分构成, 即:界域+过程+认知结果,语义上理解为“界域中存在的过程或状态的感知”。 这种方法成功地克服了主谓语二分法所引发的各种弊端,厘清了字词与短语、 句子成分与短语范畴之间的关系,为自动识别句子(子句)边界、自动分析 句子(子句)内部结构扫清了障碍。本发明可以直接运用于汉语语料库的词 性和语法标注、搭配词典的编纂、文本主要信息的抽取等任务,但本发明的 主要目的是为汉英机器翻译提供一个经过语法分析的源文件。

附图说明

图1是本发明汉语句法分析方法流程图;

图2是本发明中句法基本成分与短语范畴对应关系示意图;

图3是本发明句子结构控制器配置句子成分的原理示意图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供了一种基于规则的自动汉语句法分析方法,其流程如图1所 示,具体按以下步骤实施:

步骤1,设计控制器,建立数据库:

控制器包括词性控制器、短语结构控制器、句末识别器、搭配控制器、 句子结构控制器五种类型,用来分析短语和句子的结构、控制句法分析的流 程以及调用各种词典。

数据库包括标准词典、分类词典、搭配词典、末端词典以及感知词典。 其中标准词典和分类词典接受词性控制器调用,对句子中的词汇进行词性标 注;搭配词典、末端词典和感知词典接受短语控制器调用,按照设定的短语 规则识别并记录短语核心词,为判断短语范围提供基于语言知识方面的支持。 感知词典也受到句子结构控制器的调用。

标准词典收录体词、介词、连词和语气词并记录细类词性标记符号;分 类词典收录动词和形容词并记录细类词性标记符号;搭配词典收录典型性动 词、介词跟体词的搭配;末端词典收录语法书中所阐明的中补结构中的高频 率补语动词和形容词;感知词典收录能够引出子句的动词和形容词。

1.词性控制器,负责定义词性标注的标准:

本发明将词汇分为六个大类,分别为:体词、动词、形容词、语气词、 介词、连词,还包括一个特殊类。除了语气词之外,其它词类继承了一般汉 语词类划分的标准。每个大类之下再细分小类,小类的判断标准以语义为主, 兼顾句法功能,其中有些小类具有鲜明的本技术特点。词性标注的具体标准 如下:

细类中几个重要词类的分类标准如下:

空间词(nd):语义上具有立体特征且难以被移动的体词,如:山、河、 学校、村庄、天空、沟、洞、北京等;

区别词(nb):分词系统标记的区别词以及姓氏;

感知言语类(vj):具有言语、感觉、认知等语义特征的动词,其后跟子 句,如:相信、以为、觉得、希望、愿、祝、说、骂、赞扬、声称、宣布等;

使役类(vc):具有使动、强制语义特征的动词,用法上形成三核短语, 如:致使、逼迫、命令、要求,使、让、叫等;

事件类(event):由动词和体词紧缩成的凝固式、可扩展的双核动词短 语以及部分成语。一般情况下很难再次形成动词性双核短语,如:游泳、地 震、帮忙、狐假虎威等;

情态类(vh):指能够形成vh+v结构并具有情态语义特征的词,语法书 中有人称之为谓宾动词,如:可以、必须、值得、适宜、得到、计划、打算, 想、要、怕等;

是类(shi):语义上具有等值特质的词,如:是,像,意味着,等于;

然类(ynd):然、似的、般,等;如(豁)然、(火)似的。

2.短语结构控制器,负责定义短语结构、分析短语成分:

短语是语义上不可分割的、句法上充当句子成分的最大语言单位。短语 都有核心词,按照核心词的数量分类,短语可以分为单核短语(SP)、双核 短语(DP)、三核短语(TP)和特殊短语四个大类。分别描写如下:

A.单核SP→前置部分+核心词+后置部分

单核短语左侧的前置部分简称为head,右侧的后置部分简称为xsuf,xsuf 中的“x”指不同词性的后置词或短语,“+”号指相邻关系。前置部分和后 置部分两者可能只出现一侧,也可能都不出现。如果head与xsuf都没有出 现,那么,单核短语的最简略结构就为:

SP→核心词

单核短语的范畴由核心词决定,因此,主要的单核短语有动词短语、形 容词短语、体词性短语、语气词短语、介词短语、情态词短语。能够直接承 担短语前置部分的高频词类列举如下:

体词短语:数量词、区别词、指示词、形容词;

动词、形容词短语:副词、情态类词、否定词;

处理单核短语的关键点是识别核心词,处理方式是围绕核心词,先右侧 后左侧,具体处理方式描写如下:

①访问搭配词典,把查找到的两个词w1和w2分别在短语词标记为跟 其词性相同的核心词;如果w1和w2右侧的词符合xsuf的条件,把该词在 短语层记录为xsuf。

②设两个连续的词w1和w2,如果w2符合xsuf的条件,那么,把w1 在短语层记录为跟其词性相同的核心词、w2在短语层记录为xsuf;

以上①和②所指的符合xsuf的条件是:跟末端词典匹配的词、跟xsuf 词性匹配的后置词、跟方位词词性匹配的词。

③设定具体规则识别核心词和xsuf,具体规则有:v/a+得+xsuf、v/a+不 +a、动词重叠式以及语法书中载有的宾补短语或中补短语规则;

上述处理方式是以核心词右侧的w2为条件。以下处理方式则是以核心 词左侧的w1为条件进行处理:

④设三个连续项目,词w1、w2和参照点xend,如果w1是w2的head, 而w2不可能是xend的head,那么,把w2在短语层记录为跟其词性相同的 核心词、w1在短语层记录为head。参照点xend可以是标点符号、特殊词类、 连词、介词、代词、前一个处理流程的终点等等。对于体词性短语而言,典 型的head类型词有数量词、指示词、形容词、“的”字;对于动词和形容词 短语而言,典型的head类型词有语气词、情态类词、否定词、“地”字短语。

B.双核短语DP:DP→SP+SP

双核短语指由两个相互制约的单核结构构成的短语结构。当两个相互制 约的单核核短语同时只有核心词时,就构成了最为简约的动-名(v+n)短语 如“吃饭”、“游泳”、“怕死”等凝固式词汇。双核结构中的第一个SP为动 词、介词,第二个SP经常为体词,偶尔为动词或形容词;

双核短语处理的方式为:按照搭配控制器设定的方式进行处理。

C.三核短语TP:TP→SP+SP+SP

三核短语是由使役动词诱发的短语结构,主要有三种类型类别:① vc+n+v;②核心词依序为vc+nr+nc;③核心词依序为have+n+v。处理方式 分为简单式和复杂式。

简单式处理:以处理流程中的使役动词为起点,逆序匹配符合①-③规 则条件的连续词的序列,把符合条件的序列在短语层标记。

复杂式:以处理流程中的zhi为起点,按照搭配控制器设定的处理方式 进行处理。

D.特殊短语,主要包括以下几种类型:

a.的字短语De1P:De1P→w+de1,其中w表示词,处理方式为:

①以“de1+是”为条件,把de1认定为De1P的核心词;

②以“de1+情态类词vh”为条件,把de1认定为De1P的核心词;

b.地字短语De2P:De2P→w+de2,处理方式为:

①以“de2+v/a/顿号”为起点,如果其左侧出现的词性为adv/a/v,那么, 把从起点开始到逆序不符合条件的词性为止,在短语层标记为isyu,在短语 功能层标记为修饰语。

②以“标点//n+adv/bu”为起点,顺序查找,如果出现“de2+动词短语” 为终点,并且从起点到终点的跨距小于5,且词均为单子词,把起点至de2 的连续体在短语层标记为isyu,在短语功能层标记为修饰语。

c.仿四字语短语IP:IP→v/a+n+v/a+n

仿四字语短语IP指汉语中独特的由四个单音节汉字构成的短语,其语 法功能类似于动词、形容词或者副词,词典中收录的四字成语就是这种短语 的特例。能够用于判断仿四字语的规则很多,只举几例说明问题,如:上+v+ 下+v,上蹿下跳;V+来+v+去,呼来唤去;n+a+n+a,风平浪静。

基本处理方式为:以特定点为起点,逆序查找符合四字语规则条件的连 续单字词,把符合条件的序列在短语层标记为IP。特定点指标点符号、“的” 字、“地”字、“是”字、介词、情态类词。

短语控制器并不能彻底完成短语分析的任务,但是为后续步骤奠定坚实 的基础。剩余问题会在处理流程中按照设定的短语结构规则继续处理。

3.句子结构控制器,负责定义句子结构、配置句子成分:确定子句范围

一个完整的汉语句子(S)由三个基本成分构成,按照自然语言的语序 依次为:句首界域(简称为sj)、句中过程(简称为vmid)和句末认知结果 (简称为zhi),即句首成分、句中成分和句末成分。

可用公式表示为:S→sj+vmid+zhi;

句子的三个成分与短语具有对应关系,如图2所示,界域主要由各种体 词性短语承担;过程主要由动词+体词性短语(即双核短语v+n)承担,一 个句子中可能存在多个v+n结构;认知结果主要由单核性质的动词短语、形 容词短语、数量词短语承担,当一个v+n结构位于句子末端时,该结构被理 解为zhi。每个基本成分都可能带有修饰语,介词短语、语气词短语、情态 词短语主要充当zhi或者vmid的修饰语,而形容词短语、体词短语充当sj 的修饰语。为了便于描写,下文中会继续使用这些简称符号,但是换用符号 并不影响它们所指的实质内容。

句子可能以某种省略或简单化的方式出现,此时句子可能呈现为以下公 式所表达的情况:

S→sj+zh;(读作“句子由sj、zhi构成”);

S→vmid+zh;(读作“句子由vmid、zhi构成”);

S→zhi;(如对话语境中的“是,行,可以”)

典型例证如下:

例1:你明天||去银行||也来得及。(sj||vmid||zhi);

例2:你||是主任||就可以乱搞吗?(sj||vmid||zhi);

例3:屋里||挺干净。(sj||zhi);

例4:走||也行。(vmid||zhi);

当一个自然句子(指由分隔句子的标点符号分隔出来的线性语言符号) 中存在多个S的时候,句中的每一个如此结构都是子句。叙述的时候,如果 着眼点在于句子的内部结构,则使用“子句”一词。每一个句子中必须有zhi 这个成分,如果没有zhi时,则判断为特殊短语(可能为标题、句法错误等 等)。

根据句子的构成部件和语序上的组合序列,句子结构分析的总体流程可 以概括如下:

zhi识别→vmid识别→sj识别

句子(子句)成分的配置方式描述如下:逆序处理过程中,把符合短语 范畴与句子成分对应关系的短语判定为zhi、vmid或者sj,其中包括各自的 修饰语。句子结构控制器配置句子成分的原理,如图3所示。

5.搭配控制器,负责处理双核短语:

搭配指语义上密切相关的两个特定词项所构成的一种较为稳定的共现 关系。两个特定词语指两个单核短语中的核心词。搭配控制器是一种按照特 定条件启动的双核心词查找器。首次使用时,标点符号为启动条件且跨距限 定在6个词之内,此后在处理流程中随具体进程使用。具体处理方式如下:

设startp为句中的一个特定点,w1和w2为两个核心词,程序从startp 开始逆序查找距离最近的w1,再找到距离w1最近的w2,把w1和w2认定 为一个搭配项目并在搭配层、短语层给予记录;查找过程不能跨越zhi和标 点符号逗号。当w1为体词时,w2必须是动词或者介词;当w1为动词时, w2必须是情态词。startp指词性为shi、vj、prep、de1、adv/bu、vh的词以 及逆序处理zhi完成后第一个处理状态为空的词项。

步骤2,设置句法分析的层次属性,系统初始化。

句法自动分析是一个数据结构化的加工过程,短语结构和句子结构都具 有层次性。当计算机读入一个自然句子时,需要为每一个词同时分配所需的 语序和层次属性。本发明用来记录句法结构层次的属性有语序、原文、词性、 短语层、短语功能、搭配层、子句层、子句功能、修饰语层、处理状态、源 词性等11个种类。系统读入一个自然句子时的初始状态应该与下图保持一 致:

语序 原文 词性 搭配层 子句层 .... 1 0 0 0 0 0 2 0 0 0 0 0 3 0 0 0 0 0 0 0 0 0

进入句法分析阶段的时候,根据当时分析的任务在各个对应的属性上进 行标记。“处理状态”是一个默认的被标记的属性,随子句成分的确定而标 记。一旦在此被标记,除非特殊需要,否则不能被后续流程重复处理,因而 处理状态是否为空也就成为每个处理流程是否结束的识别点。分析结果的输 出部分可以根据具体需要选择一个或多个属性进行输出,例如搭配层属性, 如果不加调整,单独输出时就可以形成一个独立的搭配词典。

步骤3,标注词性:

计算机读入句子,以经过分词系统(中国科学院的ICTCLAS分词系统) 加工过的分词文件为源文件,按照词性控制器设定的词性标注标准和分析方 法,访问标准词典和分类词典,判断并标记句中词汇的词性。

1.访问标准词典,把标准词典中的词性标记在对应的词性属性中。标准 词典是一个基于统计的高频体词、介词、连词词典。

2.访问分类词典,在词性属性为空的条件下,把分类词典中的词性按类 型分步骤标记在对应的词性属性中。首先标记语气词,完成之后再标记动词, 最后为形容词。

3.词性属性中的词性跟源词性进行比较,在不一致的情况下,采用源词 性,具体有:数量词、介词、连词。

4.再次访问分类词典,使用相邻原则如v+ve、adv+v、vh+v、bu+v等等 修改词性中的标注符号。

5.对于词性属性依然为空的词,按照词性控制器的标准修改源词性,再 引入词性属性。修改源词性的原则是,大类性质不变,小类调整。

目前,汉语词性分析技术已经相当成熟,本发明对词性标注没有特别要 求。事实上,本发明可以把任何一个符合词性控制器要求的标注文件当作源 文件。

步骤4,句末短语识别和句末句法功能分析:

短语控制器访问搭配词典和末端词典,按照短语控制器设定的处理规则, 识别句末短语;随后按照句法控制器设定的步骤,判断句末成分(zhi)及其 范围并确定下一步处理的起点。

4.1句末短语识别:

依照短语控制器设定的单核短语处理规则,进行单核短语识别;依照搭 配控制器设定的方式,进行双核短语识别。

4.2句末句法功能分析:

句子末端成分的判断及其范围确定,具体流程如下:

4.2.1zhi处理

流程1:以标点符号为起点逆序处理

参与此次处理的标点符号有句号、问号、感叹号、分号、冒号、逗号 以及句末语气词如“吗、呢,了,的”等。具体处理方法为:

把紧邻上述符号或语气词的动词短语、形容词短语在句法层标记为zhi;

流程2:自然句子中间的zhi

把以下列举项目依次在句法层标记为zhi:

1)句中的“是”类词,词性标记为shi;

2)逆序处理时“n+de3+v/a”序列中的“v/a”;

流程3:以时间词为起点逆序识别

把紧邻下列时间词的动/形短语在子句层给予标记,时间词包括:的时候, 时,以前,以后,前,后,之前,之后;

流程4:以“的”字为起点逆序识别

把“动词短语/形容词短语+的+非标点”在修饰语层给予标记;

4.2.2双核短语(v+n)作为zhi处理

此步骤主要针对步骤4.2.1的流程1-4中未能处理的以v+n结构结束的 句子。这些句子仍然以句号、问号、感叹号、分号、冒号、逗号以及句末语 气词如“吗、呢,了,的”等结束。

流程5:句末为v+n结构

以逆序中紧邻以上标点符号或语气词的第一个体词为起点,通过查找搭 配词典,把匹配项目在搭配层、子句层给予标记。

流程6:按照词性识别v+n结构

按照搭配控制器设定的方法查找搭配项目并在搭配层、短语层标记,在 子句层标记为zhi。

流程7:以流程6的处理结果为起点,如果紧邻该起点的词为动词,把 该动词识别为v+n结构中的v,并在搭配层、子句层给予标记。

流程8:当流程5-7处理失败时,以逆序中紧邻以上标点符号的第一个 体词为起点,逆序寻找出现的第一个词性为adv或者词性为vh的词,并把 体词与该词自动判断为v+n结构,然后在搭配层、子句层给予标记。

4.2.3:zhi的状语处理

以步骤4.2.2和4.2.3处理的结果为起点,逆序处理zhi的各种修饰语。

流程9:按照词性识别

把词性为bu、adv的词和短语层为isyu的词识别为修饰语,并在子句层、 修饰语层、短语功能属性中给予标记。

流程10:按照情态词识别

紧邻流程9,把存在的情态类词(词性标记为vh)识别为修饰语,并在 子句、子句功能、短语功能属性中给予标记。

4.2.4:混合处理

以步骤4.2.3的处理结果为起点,继续逆序处理介词短语和使役动词短 语等跟zhi密切相关的项目。语义上介词短语为句子中的zhi提供方式、方 法、对象、时间、地点等背景信息,而使役动词短语会构成复杂zhi。

流程11:首次识别句子的过程(vmid)

以步骤4.2.3的处理结果为起点,再次使用搭配词典,逆序查询v+n搭 配,在搭配层标记、在子句层标记为过程(vmid)。

流程12:重复步骤4.2.3进行处理;

流程13:再次识别句中遗漏的zhi;

逆序处理过程中,已经处理的项目在子句层和处理状态层的记录均不为 空,此时,以子句层第一个为空的节点为起点,通过查找感知词典,把跟词 典中匹配且词性为vj的词判断为句中的zhi。

流程13是自然句子被分隔为子句的重要环节,此时词性为vj的词获得 了zhi的句法成分。经过以上自动处理之后,符合条件的句子、特别是长句, 就会被分割成为一个个子句。设句中的词为w,i为自然语序,句末标点为 punc,词间空格为+号,那么此阶段处理后的结果表现为以下几种情况:

a)w1+w2+…wi+zhi+punc;(单句)

b)w1+w2+…+zhi+wi+…+zhi+…+wi+i+zhi+punc;(复句)

由于已经被处理的项目在处理状态中均进行标记,因此后续处理的起点 就是逆序中处理状态层第一个为空标记的项目。

流程14:介词短语处理

句子zhi之前存在介词短语的概率极高,此时句子末端在词性层的状态 为:prep+n或者prep+n+prep+n,逆序处理时,该流程的起点应该是一 个体词。

逆序处理中,以子句层第一个不为空的节点为起点,如果该词为体词, 把找到的介词与起点体词在搭配层、短语功能属性标记,在子句层标记为zhi。

流程15:连续性介词短语处理

重复使用流程14,解决多个介词短语问题。

流程16:使役动词处理

在子句层中,逆序处理时,紧邻已经处理的词项为体词时,如果检索到 使役动词,把体词与使役动词在搭配层中标记为使动短语,并在子句层、短 语范围层作相应标记。

流程17:使动短语的修饰语

重复步骤4.2.3。

流程18:使动短语的介词短语

重复流程14和流程15。

流程19:使动短语的介词短语的修饰语

重复步骤4.2.3。

步骤5,句中短语识别和句中句法功能分析:

从步骤4设定的起点开始,按照短语控制器设定的处理项目和方法,继 续处理句中短语,再次访问搭配词典、末端词典和感知词典,并通过短语控 制器和搭配控制器相配合,完成句中短语分析任务,伴随每一次短语识别操 作,同时配置该短语为句中成分(即vmid),并把句中成分(vmid)的修饰 语记录在相应的属性中。按照流程继续处理,最后一个被识别的vmid就是 句首处理的起点,而句中成分的范围就是首个vmid跟最后一个vmid之间的 跨距。具体步骤为:

5.1多个连续动词分界

对经步骤4处理后的句子继续逆序处理,把未处理的第一个动词或形容 词作为起点,把语序上相连的多个动词在子句层标记为vmid,同时在短语 功能层给予标记;

5.2并列连词跨越

继续逆序处理,把未被处理的第一个动词或形容词作为起点,如果发现 并列连词而且其紧邻词性为动词或形容词,在子句层把起点至此词项标记为 zhi;否则,把并列连词标记为zhi的修饰语。

5.3v+n用作vmid

1)以未被处理的第一个词为起点,逆序检索动词搭配词典,把查到的 项目在搭配层中标记,并在子句层标记为vmid。

2)以未被处理的第一个词为起点,逆序寻找第一个出现的核心动词, 并把找到项目跟起点词在搭配中标记,同时在子句层中给予标记。

5.4“把”字结构处理

这是一个自由处理流程,在尚未被处理的任意位置上,按照顺序处理原 则,把“把”字作为处理的起点,顺序寻找未被处理的核心动词。整个被识 别部分会呈现为“把+…+体词+…动词”的形式,具体为:

设pba为查找的起点,w1为体词,w2为核心动词,在不跨越zhi和标 点符号的条件下,如果顺序找到w1,再找到w2,那么把pba和w1在搭配 层标记,把w2在子句层标记为vmid;然后重复该步骤对句末未处理部分进 行再次识别处理。该流程主要用于中断连续的逆序处理过程,预防过长句子 处理的错误。

5.5重复步骤4,对句末未处理部分进行再次识别处理。

步骤6,句首短语识别和句首句法功能分析:

从步骤5设定的起点开始,判断句首句法功能和范围,然后按照句首短 语规则和处理流程,完成句首成分识别,即界域处理。

理论上,界域主要由体词性短语构成,语义上为句子的过程部分提供必 要的时间、空间、物、人等背景信息。界域的结构可能很简单,也可能很复 杂。一个完整界域的结构可以用下列公式表示:

界域(sj)→时间(nt)+空间(nd)+人或者普通体词(nr/nc)

界域构成成分之间的逻辑语义关系可以理解为背景与焦点之间的关系。 界域的构成成分可以在位置上前后调整,当然也可以缺省。当一个句子的zhi 或者vmid之前没有界域成分的时候,情况可能非常复杂。其中之一为界域 被省略,其二为被远隔在句首,其三是有一个介词短语充当sj。

界域的处理依然坚持逆序原则,界域处理的起点是逆序处理时未被处理 的第一个体词。

6.1连词识别

逆序处理,把子句层的zhi或者vmid作为起点,把紧邻的未处理的第一 个连词识别为vmid或者zhi,并在子句层标记,同时在短语层标记。

6.2代词识别

逆序处理,把子句层的zhi或者vmid作为起点,把紧邻的未处理的第一 个代词识别为sj,并在子句层标记,同时在短语层标记为代词用作sj。

6.3数量词识别

逆序处理,把子句层的zhi或者vmid作为起点,把紧邻的未处理的连续 数量词识别为sj,并在子句层标记,同时在短语层标记为代词用作sj。

6.4其他体词识别

逆序处理,把子句层的zhi或者vmid作为起点,把紧邻的未处理的第一 个动物词以及相邻的体词识别为sj,并在子句层标记,同时在短语层标记为 动物词用作sj。按照先后次序,以同样的方式处理空间词、时间词、普通体 词。

6.5复杂界域的处理

以子句层的标记sj为范围,逆序在短语层中查找,把核心词为nt、nd 的短语在短语功能层标记为sjnt、sjnd,把核心词为nr的短语在短语功能层 标记为sjnr,把核心词为pron的短语在短语功能层标记为sjpron。

6.6句子逻辑关系识别

以步骤5.5处理的结果为起点,把sj之前的句末语气词标记为特殊连词。

步骤7,系统数据结构调整,并输出文本:

系统数据结构调整是输出结构性数据之前的准备工作,用来满足用户的 不同需求。能够输出的结构性数据有以下几种:

1.仅仅输出搭配层记录的信息,可以形成一个搭配词库。具体方法是: 在搭配层不为空的条件下,输出原文。

2.输出子句层、修饰语层,搭配层、词性、原文五个层次信息,为机器 翻译提供源文件。具体方法是:在子句层不为空的条件下,输出以上列举的 五个层次的数据。

3.输出所有数据,为语法研究、语料库标注服务。

4.输出句子主干部分,形成一个没有修饰语的简洁文件,具体方法是:

第一、在搭配层为空的条件下,把词性vj和vbe复制到搭配层,把紧邻 vmid的sj复制到搭配层,把紧邻句末标点的一个zhi复制到搭配层。

第二、在搭配层不为空的条件下,输出原文、词性、搭配层。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号