首页> 中国专利> 一种谚文数据库、构建方法及谚文数据库检索系统

一种谚文数据库、构建方法及谚文数据库检索系统

摘要

本发明公开了一种谚文数据库、构建方法及谚文数据库检索系统,谚文数据库的建立方法包括步骤:S1、按照谚文类别构建数据表,具体包括书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数据表;S2、根据各类别谚文的属性在相应数据表中设置谚文属性字段,并选取字段为数据表之间建立索引;S3、将谚文源文档转换为谚文电子数据;S4、将谚文电子数据按照类别分别导入相应的数据表中,由此生成谚文数据库。实施本发明可检索到谚文电子数据中句子、汉字、谚文注音、谚文注释、音韵地位、声调标点等详细信息,进而利用这些成果对近代汉语或韩语的语音系统进行历时和共时的分析和讨论。

著录项

  • 公开/公告号CN103605755A

    专利类型发明专利

  • 公开/公告日2014-02-26

    原文格式PDF

  • 申请/专利权人 华中科技大学;

    申请/专利号CN201310597535.7

  • 发明设计人 朱炜;尉迟治平;高天俊;尉迟明;

    申请日2013-11-23

  • 分类号G06F17/30(20060101);

  • 代理机构42201 华中科技大学专利中心;

  • 代理人朱仁玲

  • 地址 430074 湖北省武汉市洪山区珞喻路1037号

  • 入库时间 2024-02-19 22:23:04

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-07-29

    授权

    授权

  • 2014-03-26

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20131123

    实质审查的生效

  • 2014-02-26

    公开

    公开

说明书

技术领域

本发明属于汉语及韩语资讯处理技术领域,更具体地,涉及一种谚文 数据库、构建方法及谚文数据库检索系统。

背景技术

韩字是由朝鲜王朝第四代君主世宗大王于1443年通过《训民正音》创 制而成,用韩字写成的文章称为“谚文”。在此之前,韩语只以口语形式 存在,朝廷、文武两班等统治阶级书写使用汉字。为了方便本国人学习汉 语,在朝鲜产生了用韩字对汉字注音和翻译的各种对音韵书、辞书及汉语 教科书,如:《东国正韵》、《四声通解》、《译语类解》、《老乞大》、《朴通事》 等。这些对音文献为研究同时代汉语语言系统及韩语语言系统提供了非常 重要的资料。

目前,对音韵书、辞书及汉语教科书的研究主要是通过对纸本进行统 计查阅。由于上述书目前后跨越近三百年,其中的句子、汉字、谚文注音、 声调标点及谚文注释均随当时汉语的变化而发生变化,很难进行全面系统 的比较研究。因此开发一套能够涵盖句子、汉字、谚文注音、声调标点、 谚文注释的谚文数据库及使用该数据库进行谚文检索的检索系统,可为综 合研究16世纪-18世纪近代汉语的语音、声调、词汇、语法乃至同时代韩 语的发展变化提供一种方便、快捷、有效的工具。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种谚文数据库、 构建方法及谚文数据库检索系统,其目的在于将谚文源文档转化为可进行 文本查找的谚文电子数据,使得用户可以检索到谚文电子数据中句子、汉 字、谚文注音、谚文注释、音韵地位、声调标点等详细信息,利用这些成 果对近代汉语或韩语的语音系统进行历时和共时的分析和讨论,由此解决 目前难以对谚文音韵书、辞书及汉语教科书进行全面系统研究的技术问题。

本发明解决其技术问题所采用的技术方案是,提供一种建立谚文数据 库的方法,所述方法包括以下步骤:

S1、按照谚文类别构建数据表,具体包括书库数据表、卷次库数据表、 句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字 库数据表、单字库数据表;

S2、根据各类别谚文的属性在相应数据表中设置谚文属性字段,并选 取字段为数据表之间建立索引;

S3、将谚文源文档转换为谚文电子数据;

S4、将所述谚文电子数据按照类别分别导入相应的数据表中,由此生 成谚文数据库。

在本发明所述的建立谚文数据库的方法中,所述数据库数据表包含所 述谚文电子数据的书名号、书名、作者、成书年代、所据底本、收录源字 段信息,所述卷次库数据表包含所述谚文电子数据的卷号、书名号、卷次 字段信息,所述句子库数据表包含所述谚文电子数据的句号、卷号、页码、 正文带页码及颜色标记、正文、中文句子、谚文注释、句子备注字段信息, 所述被释词库数据表包含所述谚文电子数据的被释词号、句号、汉字号、

被释词号、汉字备注、谚文左音、谚文左音备注、谚文左点、谚文左点备 注、谚文左音标号、谚文右音、谚文右音备注、谚文右点、谚文右点备注、 谚文右音标号、汉字左点、汉字左点备注、汉字右点、汉字右点备注字段 信息,所述左音音库数据表包含所述谚文电子数据的左音标号、谚文左音、 谚文左音转写、左音声母、左音韵母、左音尾音字段信息,所述右音音库 数据表包含所述谚文电子数据的右音标号、谚文右音、谚文右音转写、右 音声母、右音韵母、右音尾音字段信息,所述字库数据表包含所述谚文电 子数据的汉字号、字Unicode、被释汉字字段信息,所述单字库数据表包含 所述谚文电子数据的单字号、字Unicode、字字段信息,所述音韵地位库数 据表包含所述谚文电子数据的字Unicode、字音号、字、音书、反切上字、 反切下字、摄、韵、呼、等、调、纽字段信息。

在本发明所述的建立谚文数据库的方法中,所述书库数据表与所述卷 次库数据表之间通过“书名号”建立索引;所述卷次库数据表与所述句子 库数据表之间通过“卷号”建立索引;所述句子库数据表与所述被释词库 数据表之间通过“句号”建立索引;所述被释词库数据表与所述左音音库 数据表之间通过“谚文左音标号”建立索引;所述被释词库数据表与所述 右音音库数据表之间通过“谚文右音标号”建立索引;所述被释词库数据 表与所述字库数据表之间通过“汉字号”建立索引;所述字库数据表与所 述单字库数据表之间通过“字Unicode”建立索引;所述单字库数据表与所 述音韵地位库数据表之间通过“字Unicode”建立索引。

相应地,本发明还提供一种由所述建立谚文数据库的方法构建的谚文 数据库。

相应地,本发明还提供一种谚文数据库检索系统,所述系统包括:

输入模块,用于输入检索命令;

与所述输入模块相连的检索模块,用于接受所述检索命令并根据所述 检索命令进行检索以获取谚文数据库中的谚文电子数据信息,并控制输出 模块输出查询检索结果;

与所述检索模块相连的,用于存储谚文电子数据的谚文数据库,所述 谚文数据库由按照谚文类别构建的数据表生成,具体包括书库数据表、卷 次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音音 库数据表、字库数据表、单字库数据表,根据各类别谚文的属性在相应数 据表中设置谚文属性字段,并选取字段为数据表之间建立索引;

与所述检索模块相连的,用于输出检索结果的输出模块。

在本发明所述的谚文数据库检索系统中,所述系统还包括与所述谚文 数据库相连的用于将谚文源文档转换为所述谚文电子数据的数据转换模 块,与所述数据转换模块相连的用于在所述谚文源文档发生变化时更新所 述谚文数据库中的谚文电子数据的数据更新模块。

在本发明所述的谚文数据库检索系统中,所述书库数据表包含所述谚 文电子数据的书名号、书名、作者、成书年代、所据底本、收录源字段信 息,所述卷次库数据表包含所述谚文电子数据的卷号、书名号、卷次字段 信息,所述句子库数据表包含所述谚文电子数据的句号、卷号、页码、正 文带页码及颜色标记、正文、中文句子、谚文注释、句子备注字段信息, 所述被释词库数据表包含所述谚文电子数据的被释词号、句号、汉字号、 被释词号、汉字备注、谚文左音、谚文左音备注、谚文左点、谚文左点备 注、谚文左音标号、谚文右音、谚文右音备注、谚文右点、谚文右点备注、 谚文右音标号、汉字左点、汉字左点备注、汉字右点、汉字右点备注字段 信息,所述左音音库数据表包含所述谚文电子数据的左音标号、谚文左音、 谚文左音转写、左音声母、左音韵母、左音尾音字段信息,所述右音音库 数据表包含所述谚文电子数据的右音标号、谚文右音、谚文右音转写、右 音声母、右音韵母、右音尾音字段信息,所述字库数据表包含所述谚文电 子数据的汉字号、字Unicode、被释汉字字段信息,所述单字库数据表包含 所述谚文电子数据的单字号、字Unicode、字字段信息,所述音韵地位库数 据表包含所述谚文电子数据的字Unicode、字音号、字、音书、反切上字、 反切下字、摄、韵、呼、等、调、纽字段信息。

在本发明所述的谚文数据库检索系统中,所述书库数据表与所述卷次 库数据表之间通过“书名号”建立索引;所述卷次库数据表与所述句子库 数据表之间通过“卷号”建立索引;所述句子库数据表与所述被释词库数 据表之间通过“句号”建立索引;所述被释词库数据表与所述左音音库数 据表之间通过“谚文左音标号”建立索引;所述被释词库数据表与所述右 音音库数据表之间通过“谚文右音标号”建立索引;所述被释词库数据表 与所述字库数据表之间通过“汉字号”建立索引;所述字库数据表与所述 单字库数据表之间通过“字Unicode”建立索引;所述单字库数据表与所述 音韵地位库数据表之间通过“字Unicode”建立索引。

因此,本发明可以获得以下的有益效果:将谚文源文档进行数字化处 理转换为谚文电子数据,方便进行输入、查找和更新;将谚文源文档中的 声母、韵母、尾音按照国际音标转写表转写,方便了谚文数据库的建立以 及谚文电子数据的查询;将谚文电子数据按照类别分别导入到书库数据表、 卷次库数据表、句子库数据表、被释词库数据表、左音音库数据表、右音 音库数据表、字库数据表、单字库数据表中,便于分类查询;为每一个数 据表建立多个用于描述该数据表的字段,通过查询检索命令可检索到谚文 电子数据中的句子、词语、汉字、汉字谚文注音左音、汉字谚文注音右音、 左音国际音标、右音国际音标、汉字音韵地位等详细信息。

附图说明

下面将结合附图及实施例对本发明作进一步说明,附图中:

图1是本发明一个实施例的建立谚文数据库的方法流程图;

图2是本发明图1所述实施例的数据库结构框图;

图3是本发明图1所述实施例的数据库可视关系图;

图4是本发明一个实施例的谚文数据库检索系统的结构框图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图 及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体 实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的 本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可 以相互组合。

图1是本发明一个实施例的建立谚文数据库的方法流程图。如图1所 示,本发明建立谚文数据的方法包括以下步骤:

S1、按照谚文类别构建数据表,具体包括书库数据表、卷次库数据表、 句子库数据表、被释词库数据表、左音音库数据表、右音音库数据表、字 库数据表、单字库数据表;

S2、根据各类别谚文的属性在相应数据表中设置谚文属性字段,并选 取字段为数据表之间建立索引;

S3、将谚文源文档转换为谚文电子数据;

S4、将谚文电子数据按照类别分别导入相应的数据表中,由此生成谚 文数据库。

在本实施例中,以《翻译老乞大》、《翻译朴通事》、《老乞大谚解》、《朴 通事谚解》、《老乞大新释谚解》、《朴通事新释谚解》及《重刊老乞大谚解》 七本书(以下简称谚译《老朴》)作为本实施例中进行数据库构建的源文档。

图2是图1所述实施例的数据库结构框图。如图2所示,数据库包括 书库数据表、卷次库数据表、句子库数据表、被释词库数据表、左音音库 数据表、右音音库数据表、字库数据表、单字库数据表。步骤S1中,数据 表的建立依据语言学结构,按照谚文类别进行构建,便于进行分类查询。

步骤S2中,根据各类别谚文的属性在相应数据表中设置谚文属性字段, 其中,书库数据表包含上述七本书的基本信息,具体为包含谚文电子数据 的书名号、书名、作者、成书年代、所据底本、收录源字段信息;

卷次库数据表包含七本书的所有卷次信息,具体为包含谚文电子数据 的卷号、书名号、卷次字段信息;

句子库数据表包含七本书的所有句子信息,具体为包含谚文电子数据 的句号、卷号、页码、正文带页码及颜色标记、正文、中文句子、谚文注 释、句子备注字段信息;

被释词库数据表包含句子库里每句话中所含每个汉字的信息(重复汉 字需反复记录),具体为包含谚文电子数据的被释词号、句号、汉字号、被 释词号、汉字备注、谚文左音、谚文左音备注、谚文左点、谚文左点备注、 谚文左音标号、谚文右音、谚文右音备注、谚文右点、谚文右点备注、谚 文右音标号、汉字左点、汉字左点备注、汉字右点、汉字右点备注字段信 息;

左音音库数据表包含七本书的所有汉字左音谚文注音信息,具体为包 含谚文电子数据的左音标号、谚文左音、谚文左音转写、左音声母、左音 韵母、左音尾音字段信息;

右音音库数据表包含七本书的所有汉字右音谚文注音信息,具体为包 含谚文电子数据的右音标号、谚文右音、谚文右音转写、右音声母、右音 韵母、右音尾音字段信息;

字库数据表包含七本书中所有汉字的信息(重复汉字只记录一次,但 同字异书、难写字分别记录),具体为包含谚文电子数据的汉字号、字 Unicode、被释汉字字段信息;

单字库数据表包含七本书中所有汉字的信息(重复汉字只记录一次), 具体为包含谚文电子数据的单字号、字Unicode、字字段信息;

音韵地位库数据表包含单字库里所有汉字的音韵地位信息,具体为包 含谚文电子数据的字Unicode、字音号、字、音书、反切上字、反切下字、 摄、韵、呼、等、调、纽字段信息。

图3是图1所述实施例的数据库可视关系图。本实施所述方法的步骤 S2中,选择字段名称为数据表之间建立索引。如图3所示,书库数据表与 卷次库数据表之间通过“书名号”建立索引;卷次库数据表与句子库数据 表之间通过“卷号”建立索引;句子库数据表与被释词库数据表之间通过 “句号”建立索引;被释词库数据表与左音音库数据表之间通过“谚文左 音标号”建立索引;被释词库数据表与右音音库数据表之间通过“谚文右 音标号”建立索引;被释词库数据表与字库数据表之间通过“汉字号”建 立索引;字库数据表与单字库数据表之间通过“字Unicode”建立索引;单 字库数据表与音韵地位库数据表之间通过“字Unicode”建立索引。

本实施所述方法的步骤S3中,将上述谚译《老朴》源文档共计75万5 千余字完整数字化即全部转换为可进行文本查找的谚文电子数据。在源文 档数字化的过程中,对谚译《老朴》的声母、韵母及韵尾国际音标转写采 用如下方式:

1)送气音的转写标志,根据最新版的国际音标,本实施例中使用“h” 表示送气音。

2)由于谚译《老朴》的组和组字母区分不严谨,即不分左右腿长 短,为了能够比较客观地地反映组和组字母注音的原始信息, 本实施例中把左右腿不分长短的注成以作区別。与腭介音的二等、三等、四等结合时,注 成。

3)谚文字母不同而韵尾相同的国际音标后面,采用阿拉伯数字加以区 别,这样的做法是为了方便数据库各种关系的建立,能够通过一种 国际音标转写迅速找到对应的谚文。 比如:和这两个字是同字异书,区别在于尾音,一个 尾音是,另一个尾音是,两个尾音的国际音标都是,为了方便将来查找,把的国际音标用表示以作 区别。

4)“一、”用“~”标注,“丨”用“~”标注。

本实施例中将谚文源文档(谚译《老朴》)中的声母、韵母、尾音的 谚文读音按照相应的转写表转写为谚文数据库中的声母、韵母、尾音的国 际音标读音,所述转写表如下:

本实施例在文字体格式处理上采用了以下方法:

1)如果在韵书字书中没有找到的原文汉字,用圆括弧的方式注明,如: 筆(茟),圆括弧里的是原文出现的汉字,圆括弧前的是韵书字书 里能够找到的汉字。

2)如果在计算机字库里找不到相应的汉字时,就采用“拼字”的方法, 拼出来的汉字用尖括号表示。如:竄<馬*竄>,竄在原文中的写 法是“馬”字旁加“竄”。

3)谚文属于古韩语(),很多韩字在韩语软件 “Hangul”可以正常显示,但是转到“MC Word”就变成成重叠字, 给编程带来很多麻烦,为了避免重叠字的出现,本文将这类字拆写 成几个部分,并用“+”连接,如:

4)谚文注释中,()部分是书中出现的内容,根据上下文意思校对的内 容写在括弧前面,如:

在步骤S3中,若谚文源文档发生变化,则按照以上声母、韵母及韵尾 国际音标转写方式、文字体格式处理方式更新谚文电子数据。

采用本实施例的方法建立的数据库平台开放且易于扩展,可采用同样 的方式可将现存的其它韩字注音并注释的韵书、辞书数字化,如《东国正 韵》(1447)、《洪武正韵译训》(1455)、《四声通考》(1455)、《四声通解》 (1517)、《译语类解》(1690)、《译语类解补》(1775)、《汉清文鉴》(1776)、 《古今释林》(1789)等,建立统一的数据库,便于进行不同朝汉对音书籍 之间的对比研究;同时,建立完成的数据库接口开放,可与已有的汉语语 料数据库实现无缝对接,这样,即能获得同一汉字同时代及不同时代韵书 及辞书中的信息,又能有效分析其在共时及历时的演变;其次,采用本实 施的方法建立的数据库兼容性良好,由于将古籍完全数字化,数据库中只 包含文本,结构简单,在安装了相关字库文件后,可在Access,Oracle,My SQL,MS SQL等数据库软件中使用。

图4是本发明一个实施例的谚文数据库检索系统的结构框图。如图4 所示,该系统包括用于输入检索命令的输入模块;与输入模块相连的用于 接收检索命令并根据该检索命令进行检索的检索模块;与检索模块相连的, 用于存储谚文电子数据的谚文数据库,谚文数据库由按照谚文类别构建的 数据表生成,具体包括书库数据表、卷次库数据表、句子库数据表、被释 词库数据表、左音音库数据表、右音音库数据表、字库数据表、单字库数 据表,根据各类别谚文的属性在相应数据表中设置谚文属性字段,并选取 字段为数据表之间建立索引;与检索模块相连的用于输出检索结果的输出 模块。其中,检索模块根据检索命令获取谚文数据库中的谚文电子数据信 息,并控制输出模块输出查询检索结果。

在输入模块中,可使用[被释汉字]+"  "+[谚文左音]+" "+"["+[谚文左音 转写]+"]"+" "+[谚文右音]+" "+"["+[谚文右音转写]+"]"+"  "+[音书]+[反切 上字]+[反切下字]+"切"+"  "+[纽]+[呼]+[等]+[调]检索命令进行数据库检 索,即通过上述任意一个关键词,可检索到包含该关键词的谚文数据信息。

在图4所示实施例的谚文数据库检索系统中,该系统还包括与谚文数 据库相连的数据转换模块,与数据转换模块相连的数据更新模块。数据转 换模块用于将谚文纸质源文档进行数字化处理,转换为谚文电子数据;数 据更新模块用于在谚文源文档发生变化时,对谚文电子数据进行更新。

通过本实施例的谚文数据库检索系统,可以根据用户实际需要,检索 出任一本书中的句子、汉字、谚文注音、谚文注释、音韵地位、声调标点 等详细信息,利用这些成果对近代汉语或韩语的语音系统进行历时和共时 的分析和讨论。

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等 同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号