您现在的位置：首页> 研究主题> 词向量

词向量

词向量的相关文献在2007年到2022年内共计1165篇，主要集中在自动化技术、计算机技术、科学、科学研究、无线电电子学、电信技术等领域，其中期刊论文642篇、会议论文20篇、专利文献7861篇；相关期刊227种，包括现代图书情报技术、计算机工程、计算机工程与设计等；相关会议10种，包括中国中文信息学会2015学术年会（CIPS2015）暨第十四届全国计算语言学学术会议（CCL2015）、第三届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD2015）、第十三届全国人机语音通讯学术会议、第十三届海峡两岸图书资讯学学术研讨会等；词向量的相关文献由2759位作者贡献，包括曹绍升、周俊、李健铨等。

词向量—发文量

期刊论文>

论文：642篇占比：7.53%

会议论文>

论文：20篇占比：0.23%

专利文献>

论文：7861篇占比：92.23%

总计：8523篇

词向量—发文趋势图

词向量
-研究学者

曹绍升
周俊
李健铨
张雷
杨凯程
林鸿飞
谢俊元
郭剑毅
余正涛
吐尔根·依布拉音
张杰
李小龙
蒋宏飞
严馨
孙茂松
席耀一
彭浩
李建欣
王波
田生伟
禹龙
刘垚鹏
刘志煌
宋彦
庄越挺
张云华
张日崇
彭敏
杨光
袁华
黄名选
黄沛杰
周枫
张鹏
殷复莲
潘嵘
王健
王磊
胡刚
艾山·吾买尔
陈鹏
马晓军
刘冲
刘超
卡哈尔江·阿比的热西提
唐驰
孙宇
尹正
帕特里克·N·伦德奎斯克
张刚

词向量
-相关主题

词向量
-相关期刊

词向量
-相关会议

期刊论文
会议论文
专利文献

搜索

排序：

专利类型

专利分类

学科

年份

2022
(141)
2021
(149)
2020
(125)
2019
(142)
2018
(107)
2017
(77)
2016
(52)
2015
(15)
2014
(1)
2013
(1)
2009
(1)
2007
(1)

期刊

收录数据库

作者

曹绍升
(31)
周俊
(23)
李健铨
(14)
张雷
(10)
杨凯程
(10)
林鸿飞
(10)
谢俊元
(10)
郭剑毅
(10)
余正涛
(8)
吐尔根·依布拉音
(8)
张杰
(8)
李小龙
(8)
蒋宏飞
(8)
严馨
(7)
孙茂松
(7)
席耀一
(7)
彭浩
(7)
李建欣
(7)
王波
(7)
田生伟
(7)
禹龙
(7)
刘垚鹏
(6)
刘志煌
(6)
宋彦
(6)
庄越挺
(6)
张云华
(6)
张日崇
(6)
彭敏
(6)
杨光
(6)
袁华
(6)
黄名选
(6)
黄沛杰
(6)
周枫
(5)
张鹏
(5)
殷复莲
(5)
潘嵘
(5)
王健
(5)
王磊
(5)
胡刚
(5)
艾山·吾买尔
(5)
陈鹏
(5)
马晓军
(5)
刘冲
(4)
刘超
(4)
卡哈尔江·阿比的热西提
(4)
唐驰
(4)
孙宇
(4)
尹正
(4)
帕特里克·N·伦德奎斯克
(4)
张刚
(4)

关键词

申请/权力人

;

1. 一种面向药物-靶点相互作用预测的不平衡数据处理方法
- 叶志威；张晓龙；林晓丽
- 摘要：为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法.通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用Borderline-SMOTE技术合成少数类样本,以改善数据集的样本分布;最后将处理好的数据输入到梯度提升决策树(GBDT)分类器中进行分类预测.实验结果表明,本文方法不仅能有效提取药物-靶点相互作用的特征,加快特征提取和特征选择的过程,还能缓解数据集的不平衡性对预测结果的不利影响,提高了预测模型的性能.
2. 融合笔画特征的胶囊网络文本分类
- 李冉冉；刘大明；刘正；常高祥
- 摘要：目前多数文本分类方法无法有效反映句子中不同单词的重要程度,且在神经网络训练过程中获得的词向量忽略了汉字本身的结构信息。构建一种GRU-ATT-Capsule混合模型,并结合CW2Vec模型训练中文词向量。对文本数据进行预处理,使用传统的词向量方法训练的词向量作为模型的第1种输入,通过CW2Vec模型训练得到的包含汉字笔画特征的中文词向量作为第2种输入,完成文本表示。利用门控循环单元分别提取2种不同输入的上下文特征并结合注意力机制学习文本中单词的重要性,将2种不同输入提取出的上下文特征进行融合,通过胶囊网络学习文本局部与全局之间的关系特征实现文本分类。在搜狗新闻数据集上的实验结果表明,GRU-ATT-Capsule混合模型相比TextCNN、BiGRU-ATT模型在测试集分类准确率上分别提高2.35和4.70个百分点,融合笔画特征的双通道输入混合模型相比单通道输入混合模型在测试集分类准确率上提高0.45个百分点,证明了GRU-ATTCapsule混合模型能有效提取包括汉字结构在内的更多文本特征,提升文本分类效果。
3. 零样本图学习综述
- 支瑞聪；万菲；张德政
- 摘要：深度学习方法的提出使得机器学习研究领域得到了巨大突破,但是却需要大量的人工标注数据来辅助完成.在实际问题中,受限于人力成本,许多应用需要对从未见过的实例类别进行推理判断.为此,零样本学习(zeroshot learning, ZSL)应运而生.图作为一种表示事物之间联系的自然数据结构,目前在零样本学习中受到了越来越多的关注.本文对零样本图学习方法进行了系统综述.首先概述了零样本学习和图学习的定义,并总结了零样本学习现有的解决方案思想.然后依据图的不同利用方式对目前零样本图学习的方法体系进行了分类.接下来讨论了零样本图学习所涉及到的评估准则和数据集.最后指明了零样本图学习进一步研究中需要解决的问题以及未来可能的发展方向.
4. 直播网站在线弹幕情感分析
- 陈朝明
- 摘要：视频直播是近年来最火的新型产业。由于弹幕独特的在线实时、语言简略与互联网化特征,现有方法难以直接用于弹幕情感分析。为解决弹幕文本分析精度问题,针对弹幕语料库缺乏以及语言简略与互联网化特征,构建弹幕专属情感词典。针对直播弹幕语言的特性,提出一种基于改进SVM的情感分析模型。通过引入分类处理因子与梯度下降因子,降低了预测器的泛化误差。在此基础上,提出词向量、情感词、否定词和标点符号等多种融合特征的方法,将融合结果映射到向量空间上,再通过分类器进行情感分类。实验结果表明,改进的SVM分类器模型比未改进模型在精确率、召回率、F1值上分别提高3.8%、2.3%、1.1%。
5. 多特征融合的越南语关键词生成方法
- 陈瑞清；高盛祥；余正涛；张迎晨；张磊；杨舰
- 摘要：越南语属于低资源语种,高质量关键词新闻数据稀缺,为了解决样本不足条件下生成越南语新闻关键词准确性不高的问题,提出了一种多特征融合的越南语关键词生成模型,拟提升生成的越南语关键词与越南语新闻文档的相关性.首先,将越南语新闻实体、词性、词汇位置特征与词向量拼接,使输入模型的词向量包含更多维度的语义信息;其次,利用双向注意力机制捕获上下文与新闻标题的依赖关系,增强标题在关键词生成中的指导作用;最后,结合复制机制生成越南语关键词,从而提高关键词的语义相关性.在构建的越南语新闻关键词数据集上进行实验,结果表明融合多特征的关键词生成模型能在越南语训练样本有限的条件下生成高质量关键词,F1@10、R@50分数比TG-Net分别提升了13.2%和17.1%.
6. 基于共同子空间分类学习的跨媒体检索研究
- 韩红旗；冉亚鑫；张运良；桂婕；高雄；易梦琳
- 摘要：不同媒体数据间由于存在严重的异构鸿沟和语义鸿沟,而不能直接计算它们之间的语义相似度,从而影响了跨媒体检索的实现和效果。当前提出的共同子空间学习虽能实现跨媒体语义关联和检索,但多采用一般的特征提取技术,且在语义匹配时的分类效果较差,不能有效实现跨媒体数据的高层语义关联计算,影响了检索效果。对此,提出Stacking-DSCM-WR跨媒体关联方法,用于文档和图像之间的跨媒体检索。该方法基于词向量技术形成文档的特征表示向量,通过残差网络技术抽取图像的特征表示向量,采用深度典型相关性分析技术将不同模态的数据投影到共同子空间下,然后采用Stacking集成学习算法获取文本和图像在同一高层概念语义空间上的分布,使得两种不同模态的数据可以进行语义匹配、相似性计算。在Wikipedia和Pascal Sentence两个小型跨媒体数据集和一个较大规模跨媒体数据集INRIA-Websearch上分别开展跨媒体检索实验,证实了所提方法能够有效地抽取文本和图像的特征,实现跨媒体数据在高层语义空间上的关联和匹配,与相近跨媒体检索方法在MAP指标上的对比显示,该方法能够取得较好的检索效果。
7. 基于ALBERT-BGRU-CRF的中文命名实体识别方法
- 李军怀；陈苗苗；王怀军；崔颖安；张爱华
- 摘要：命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。
8. 基于二分类模型的电子档案管理技术研究
- 许秀霓
- 摘要：随着互联网的飞速发展,电子公文的数量日益增多,以往纸质档案整编方式已经在工作中变得力不从心。鉴于此,研究对基于二分类模型的电子档案管理技术进行了优化设计。首先提出了训练数据的清洗与词向量的构建,其次是二分类模型构建及模型调参,最后对本次研究提出的设计进行了测试分析。测试结果表明,提出的二分类模型将语义特征与数据统计特征进行了有机融合,可以更优的评价关键词语的权重,使得关键词的获取更加可靠,并且测试过程中受到数据影响波动非常小。
9. 基于ERNIE-RCNN模型的中文短文本分类
- 王浩畅；孙铭泽
- 摘要：由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短文本分类。模型运用ERNIE模型作为词向量,对实体和词语义单元掩码,后连接Transformer的编码层,对ERNIE层输出的词嵌入向量进行编码,优化模型过拟合问题,增强泛化能力,RCNN模型对ERNIE输入的词向量进行特征提取,卷积层利用大小不同的卷积核提取大小不同的特征值,池化层进行映射处理,最后通过softmax进行分类。将该模型与七种深度学习文本分类模型在中文新闻数据集上进行训练实验,得到了模型在准确率、精准率、召回率、F1值、迭代次数、运行时间上的对比结果,表明ERNIE-RCNN模型能够很好地提取文本中的特征信息,减少了训练时间,有效解决了中文短文本分类的难点,具有很好的分类效果。
10. 基于Word2Vec的编程领域词语拼写错误检测算法
- 刘峻松；唐明靖；薛岗；杨成荣
- 摘要： Stack Overflow是一个计算机编程领域的问答社区,其中的文本蕴含大量有价值的信息可供挖掘,但由于其本身存在大量的错误词汇,给文本的分析造成影响。对此,提出一种词语自动检测纠错算法,通过词向量的技术以语义相似度为核心,对错误词汇进行分析,结合改进的编辑距离算法对文本进行自动检测纠错。实验结果表明,该算法能够对诸如此类专业性较强的领域主题文本进行自动检测纠错,并且能够较好地还原标准文段用词。

1. 词向量矩阵压缩方法和装置、及获取词向量的方法和装置
- 华为技术有限公司
- 公开公告日期：2022.04.12
- 摘要：本申请公开了词向量矩阵压缩方法和装置、及获取词向量的方法和装置，涉及数据处理技术领域，有助于节省客户端设备的存储空间。词向量矩阵压缩方法包括：基于词向量模型生成用于表征待处理词汇的词向量矩阵，并将所生成的词向量矩阵作为待压缩词向量矩阵；待压缩词向量矩阵的一行或一列是一个词向量，待压缩词向量矩阵中的一个词向量用于表征待处理词汇中的一个词；根据待处理词汇的语义信息，对待压缩词向量矩阵所包括的词向量进行分类，得到至少两个类别；对该至少两个类别中至少一个类别进行压缩，并根据该至少一个类别压缩后得到的词向量，构建经压缩的词向量矩阵，并存储该经压缩的词向量矩阵。
2. 中文字词向量和方面词向量联合嵌入情感分析方法
- 东华大学
- 公开公告日期：2022.12.06
- 摘要：本发明公开一种中文字词向量和方面词向量联合嵌入CNN‑LSTM情感分析模型。包括：字词向量联合嵌入表示，词向量和方面词联合嵌入表示，卷积神经网络整合句子特征和方面词特征，句子特征和方面词特征联合输入LSTM神经网络，利用LSTM的时序记忆功能对文本特征进行排序，并且添加基于方面词的注意力机制，最后用全连接层与soft‑max函数判断情感类别。由于词语中的汉字对词语的意思具有一定的表征作用，中文字词向量结合嵌入可以使共享汉字的词语之间产生了联系。方面词和评论中的词向量组合输入神经网络训练，可以提高评论内容主题情感判断的准确度。卷积神经网络将二者特征融合，进一步提高情感分析模型的准确度。
3. 词向量生成模型训练方法及装置和词向量生成方法及装置
- 阿里巴巴集团控股有限公司
- 公开公告日期：2022-02-22
- 摘要：本申请公开了一种词向量生成模型训练方法及装置和词向量生成方法及装置，本申请实施例通过卷积神经网络中的卷积处理和池化处理，对上下文整体语义信息进行了刻画，提取了更多的上下文语义信息；而且，通过中文n元笔画信息的引入，增强了词语内部信息提取的能力。利用本申请实施例训练出来的词向量生成模型生成的词向量更加精准，也就是说，为提升词向量算法的准确度提供了保障。
4. 词向量获取模型生成方法、装置及词向量获取方法、装置
- 北京明略软件系统有限公司
- 公开公告日期：2020-06-19
- 摘要：一种词向量获取模型生成方法、装置及词向量获取方法、装置，包括：获取样本语料文本；将样本语料文本作为输入训练预先构建的生成对抗网络模型，得到用于获取词向量的词向量获取模型；其中，生成对抗网络模型包括：利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型。由于生成对抗网络模型包括利用周围词预测中心词的第一词向量预测模型和利用中心词预测周围词的第二词向量预测模型，因此用样本语料文本训练生成对抗网络模型获得的词向量获取模型能够兼顾中心词对周围词的语义关联性表示和周围词对中心词的语义关联性表示，从而实现后续自然语言向量化时语义的双向关联性表示。
5. 词向量对齐方法和词向量对齐模型训练方法
- 腾讯科技(深圳)有限公司
- 公开公告日期：2020-06-16
- 摘要：本申请涉及自然语言处理领域，提供一种词向量对齐方法和词向量对齐模型训练方法，其中词向量对齐方法包括：获取待处理词文本，将待处理词文本输入待对齐词向量模型，得到对应的待对齐词向量；获取待对齐词向量模型对应的已训练的词向量对齐模型；词向量对齐模型包括生成网络和判别网络；生成网络对原始词向量集合生成对抗样本，并通过对抗样本及对应的基准词向量集合与判别网络对抗训练得到词向量对齐模型；原始词向量集合为待对齐词向量模型对训练关键词集合生成的；基准词向量集合为基准词向量模型对训练关键词集合生成的；将待对齐词向量输入生成网络中，得到待对齐词向量对应的对齐词向量。采用本申请的方法可以实现词向量空间的对齐。
6. 词向量矩阵压缩方法和装置、及获取词向量的方法和装置
- 华为技术有限公司
- 公开公告日期：2019-08-06
- 摘要：本申请公开了词向量矩阵压缩方法和装置、及获取词向量的方法和装置，涉及数据处理技术领域，有助于节省客户端设备的存储空间。词向量矩阵压缩方法包括：基于词向量模型生成用于表征待处理词汇的词向量矩阵，并将所生成的词向量矩阵作为待压缩词向量矩阵；待压缩词向量矩阵的一行或一列是一个词向量，待压缩词向量矩阵中的一个词向量用于表征待处理词汇中的一个词；根据待处理词汇的语义信息，对待压缩词向量矩阵所包括的词向量进行分类，得到至少两个类别；对该至少两个类别中至少一个类别进行压缩，并根据该至少一个类别压缩后得到的词向量，构建经压缩的词向量矩阵，并存储该经压缩的词向量矩阵。
7. 中文字词向量和方面词向量联合嵌入情感分析方法
- 东华大学
- 公开公告日期：2019-08-02
- 摘要：本发明公开一种中文字词向量和方面词向量联合嵌入CNN‑LSTM情感分析模型。包括：字词向量联合嵌入表示，词向量和方面词联合嵌入表示，卷积神经网络整合句子特征和方面词特征，句子特征和方面词特征联合输入LSTM神经网络，利用LSTM的时序记忆功能对文本特征进行排序，并且添加基于方面词的注意力机制，最后用全连接层与soft‑max函数判断情感类别。由于词语中的汉字对词语的意思具有一定的表征作用，中文字词向量结合嵌入可以使共享汉字的词语之间产生了联系。方面词和评论中的词向量组合输入神经网络训练，可以提高评论内容主题情感判断的准确度。卷积神经网络将二者特征融合，进一步提高情感分析模型的准确度。
8. 一种词向量和句向量互信息最大化的句嵌入方法及系统
- 南京航空航天大学
- 公开公告日期：2022-02-11
- 摘要：本发明提供一种词向量和句向量互信息最大化的句嵌入方法及系统，其中方法包括编码第一待识别句子中的各词语；对第一待识别句子中目标词向量的多个维度进行置零操作；编码第二待识别句子中的各词语；将第一词向量矩阵中的每个词向量经过多头自注意力层计算；将第二词向量矩阵中的每个词向量经过多头自注意力层计算；对第三词向量矩阵进行平均池化操作；对第一整体句向量进行维度置零操作；计算第二整体句向量与第四词向量矩阵中对应的词向量的点积；计算第四词向量矩阵中词向量和第二整体句向量的互信息；将第四词向量矩阵中词向量和第二整体句向量的互信息最大化。本发明解决了现有的无监督句嵌入方法使用效果不佳的问题。
9. 基于词向量和字向量混合模型的文本情感分析方法
- 河南理工大学
- 公开公告日期：2020-09-11
- 摘要：本发明针对目前文本情感分析中情感信息表达不充分、只考虑词语本身而忽略其他文本特征的问题，提出基于词向量和字向量混合模型的文本情感分析方法，包括步骤：首先对中文数据集进行预处理，利用Word2Vec训练词向量和字向量矩阵；然后将词向量和字向量作为输入数据，分别送入卷积神经网络(CNN)和双向长短期记忆网络(BiLSTM)网络中进行特征提取；在其后引入两个注意力层，来学习重要的文本特征；最后将两个通道所提取的文本特征进行合并，使用分类层对输出进行分类。本发明所提方法在中文数据集上具有显著性和优越性。
10. 基于词向量加权、支持向量回归和用户点击偏好的搜索推荐方法
- 湖南大学
- 公开公告日期：2019-04-05
- 摘要：本发明涉及一种基于词向量加权平均、支持向量回归和用户点击偏好的搜索推荐方法。其发明内容主要包括(1)提出一种基于搜索前缀语义相关性和用户点击偏好的搜索推荐模型；(2)提出一种基于支持向量回归的搜索前缀文本嵌入和内容文本嵌入的语义相关性计算方法；(3)提出一种基于迁移学习和用户点击偏好和的权重修正方法。

词向量

词向量—发文量

词向量—发文趋势图

词向量-研究学者

词向量-相关主题

词向量-相关期刊

词向量-相关会议

词向量
-研究学者

词向量
-相关主题

词向量
-相关期刊

词向量
-相关会议