公开/公告号CN106095754A
专利类型发明专利
公开/公告日2016-11-09
原文格式PDF
申请/专利权人 广州同构医疗科技有限公司;
申请/专利号CN201610405125.1
申请日2016-06-08
分类号G06F17/27(20060101);G06F17/30(20060101);
代理机构
代理人
地址 510063 广东省广州市天河区思成路15号206房
入库时间 2023-06-19 00:49:26
法律状态公告日
法律状态信息
法律状态
2023-06-02
专利权质押合同登记的生效 IPC(主分类):G06F17/27 专利号:ZL2016104051251 登记号:Y2023980040874 登记生效日:20230516 出质人:广州同构科技有限公司 质权人:中国银行股份有限公司广州天河支行 发明名称:一种医学术语词库词性标注方法 申请日:20160608 授权公告日:20180619
专利权质押合同登记的生效、变更及注销
2018-06-19
授权
授权
2017-08-01
著录事项变更 IPC(主分类):G06F17/27 变更前: 变更后: 申请日:20160608
著录事项变更
2016-12-07
实质审查的生效 IPC(主分类):G06F17/27 申请日:20160608
实质审查的生效
2016-11-09
公开
公开
技术领域
本发明涉及一种自然语言词库的建立方法,尤其涉及一种医学术语词库词性标注方法。
背景技术
自然语言处理(NLP,Natural Language Process)是计算机科学领域与人工智能领域中的一个重要方向,相关研究的目的是实现人与计算机之间用自然语言进行有效通信。
计算机理解自然语言的第一步是分词。只有确定如何将句子断为词语(Term),才能确定词语间的修饰关系,进而“理解”句子要表达的意思。因此,词库是建立自然语言处理的基石。
在医学相关文本(例如电子病历、医学书籍)的计算机数据挖掘处理中,需要涉及医学术语的词性标注。例如:发热、咳嗽、头痛描述的是疾病的症状;肩周炎、骨质疏松描述的是疾病名称;磁共振、病理切片描述的是检查项目;鼻窦,颅底描述的是解剖部位。这就需要对医学词汇进行词性标注,使词汇与词性类别一一对应。传统的词性标注往往由一个团队手工完成,过程枯燥费时。后续如果要增加词汇量,只能重复这一过程。
发明内容
为解决背景技术中存在的技术问题,本发明提出一种便捷、准确的建立医学术语词库的方法,该方法将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作。
为此,本发明提供了一种医学术语词库词性标注方法,包括以下步骤:
S1、收集待标注词条:通过人工或算法收集待标注的词语,将这些词语保存到数据库或一个文件;
S2、合成词性标注验证码图像:将收集的每个词条均转换为图像,并加入随机干扰线,形成验证码图像;
S3、建立词性标注验证码数据库:以全球唯一识别号为主键,将每个词条与验证码图像对应起来,存入数据库;
S4、验证码获取请求配发:开放词性标注验证码图像数据库访问接口,为有验证码需求的网站页面免费提供验证码,需求方发送验证码获取请求后,本地系统将随机从数据库抽取一幅图像,图像名与UUID相同,并返回至需求方,需求方在验证码输入页面配置若干个词性标注框,以便用户在指定词性的标注框内输入验证码图像中的肉眼识别内容;
S5、验证码校验请求响应:远端网页用户输入验证内容并提交后,网页后台将用户输入内容、用户词性标注结果、验证图像UUID一并以特定格式封装,发送至本地系统,本地系统根据词性标注验证码数据库比对UUID与用户输入内容的一致性,并刷新用户对该词的词性标注结果及词性标注次数;
S6、词性标注结果确认:当某个词条被用户标注的次数达到一定阈值后,选取概率最高的用户标注结果作为该词条对应的词性,同时,系统会删除该词条,不再对该词条进行标注。
本发明提出的一种便捷、准确的建立医学术语词库的方法,该方法将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作,将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作。
附图说明
图1为词条收集过程流程图;
图2为词条标注过程流程图;
图3为本地数据库表结构示例图;
图4为词性标注验证码图像数据库建立流程图;
图5为词性标注验证码图像分发与检验流程图;
图6为用户注册页面下利用验证码进行词性标注的页面示例图。
具体实施方式
下面,通过具体实施例对本发明的技术方案进行详细说明。
实施例:
参照图1至图6,本发明提出了一种便捷、准确的建立医学术语词库的方法,分别从词性标注验证码图像数据库的建立及应用两方面进行说明。
词性标注验证码图像数据库的建立过程如下:
1)收集待标注词条
通过人工或算法收集待标注的词语,将这些词语保存到数据库或一个文件,形成一个待标注词条的数据集。过程参考图1.
2)合成词性标注验证码图像
从数据库或文件中逐条读取待标注词条,将其转换为验证码图像。转换过程参考图4.其中,需要在程序中新建画板,将词条中的字逐字进行如下处理:a)旋转任意角度;b)绘制在画板上;c)添加干扰线。
3)建立词性标注验证码数据库
将词条及对应的验证码图像存储到数据库,并以全球唯一识别号(Universally Unique Identifier,UUID)为主键。数据库表结构设计可参考图3及图中注释。
词性标注验证码图像数据库的应用
词性标注的过程实际上是本地系统和远程web应用的交互过程,过程参考图2.为了更详细的表述词性标注的过程,可将词性标注验证码图像的应用分为三大步骤(系统流程示意图见图5):
1)获取词性标注图像验证码
获取验证码的流程由用户端发起,某网站在需要验证码图像的网站页面(例如:网页注册页面。页面设计可参考图6)添加词性标注验证码图像数据库访问接口。网站用户刷新页面时,网页会向系统发送验证码获取请求,本地系统将随机从数据库抽取一幅图像(图像名与UUID相同)并返回至需求方。需求方在验证码输入页面配置若干个词性标注框,以便用户在指定词性的标注框内输入验证码图像中的肉眼识别内容。
2)校验词性标注图像验证码
远端网页用户输入验证内容并提交后,网页后台将用户输入内容、用户词性标注结果(在哪个文本框输入的验证内容)、验证图像UUID一并以指定格式封装,发送至本地系统,本地系统根据词性标注验证码数据库比对UUID与用户输入内容的一致性,并刷新用户对该词的词性标注结果及词性标注次数。
3)确认词性标注结果
当用户对某个词条的标注次数没有达到指定阈值时,本地系统将刷新数据库中用户对该词的词性标注结果及词性标注次数记录;一旦某个词条被用户标注的次数达到一定阈值,系统将选取概率最高的用户标注结果作为该词条对应的词性,同时,系统会从词性标注验证码数据库中删除该词条,不再对该词条进行标注。
传统的词性标注往往由一个团队手工完成,过程枯燥费时,后续如果要增加词汇量,只能重复这一过程。本发明将医学术语词性的标注工作分散到互联网验证码中,大大降低了医学术语词库建设的人工成本,使词库词汇量的扩充成为一个可持续的工作。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
机译: 用于生成术语列表和同义词库的方法和装置
机译: 医学信息管理方法和系统,医学术语及医学信息管理程序
机译: 可选的客观术语,例如街道名称,一种用于导航系统的光学显示方法,涉及确定优先的客观术语,其中术语输入到系统中与直接的地理区域相关