首页> 中国专利> 基于预训练语言模型与多重词信息嵌入的字向量生成方法

基于预训练语言模型与多重词信息嵌入的字向量生成方法

页面导航

摘要
著录项
法律信息
相似文献

摘要

本发明提供了一种基于预训练语言模型与多重词信息嵌入的字向量生成方法，根据已标注数据主题，爬取相关无标注数据；构建预训练语言模型，对已标注数据与未标注数据进行预训练，基于预训练语言模型对输入句子进行处理，获得字向量；对已标注数据提取多重词信息特征；将得到的字向量与多重词信息特征进行融合，得到最终字向量。本发明通过预训练语言模型来表征字向量，可以更好的引入多义性信息；构建多重词信息特征并将其添加到字向量中，为字向量带来了词信息与单词分割信息，提高自然语言处理效果。

著录项

公开/公告号CN113128199A

专利类型发明专利
公开/公告日2021-07-16

原文格式PDF
申请/专利权人济南大学;山东思正信息科技有限公司;
展开▼

申请/专利号CN202110511388.1
发明设计人陈贞翔;徐翰琛;杨倩;黄鹤林;姜晓庆;尚铭悦;
展开▼

申请日2021-05-11
分类号G06F40/205(20200101);G06F40/284(20200101);G06F16/951(20190101);
代理机构37221 济南圣达知识产权代理有限公司;
代理人李琳
地址 250022 山东省济南市市中区南辛庄西路336号
入库时间 2023-06-19 11:52:33

法律信息

法律状态公告日

法律状态信息

法律状态
2022-06-21

授权

发明专利权授予

相似文献

专利
中文文献
外文文献

1. 基于预训练语言模型与多重词信息嵌入的字向量生成方法 [P] . 中国专利： CN113128199A . 2021-07-16
2. 一种基于条件嵌入预训练语言模型的图像标题生成方法 [P] . 中国专利： CN113139575A . 2021-07-20
3. METHOD AND APPARATUS FOR TRAINING LANGUAGE MODEL BASED ON VARIOUS WORD VECTORS DEVICE AND RECORDING MEDIUM [P] . KR20210148872A . 2021-12-08

机译：基于各种字向量设备和记录介质的语言模型的方法和装置
4. Search device includes associative memory, search data generating unit for generating search information based on hit information and a search key generating unit generating search keys based on search information and the search data [P] . 美国专利： US10191839B2 . 2019-01-29

机译：搜索设备包括关联存储器，用于基于命中信息生成搜索信息的搜索数据生成单元以及基于搜索信息和搜索数据生成搜索关键字的搜索关键字生成单元。
5. SYSTEM FOR GENERATING A PERSONALIZED EPG BASED ON KEY WORD INFORMATION CAPABLE OF OFFERING PERSONALIZED INFORMATION WITHOUT THE RESTRICTION OF TIME AND LOCATION AND A METHOD THEREOF [P] . 韩国专利： KR20120047579A . 2012-05-14

机译：基于关键词信息的个性化EPG生成系统及其方法，该关键词信息能够在不受时间和地点限制的情况下提供个性化信息。