词向量
词向量的相关文献在2007年到2022年内共计1165篇,主要集中在自动化技术、计算机技术、科学、科学研究、无线电电子学、电信技术
等领域,其中期刊论文642篇、会议论文20篇、专利文献7861篇;相关期刊227种,包括现代图书情报技术、计算机工程、计算机工程与设计等;
相关会议10种,包括中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、第十三届全国人机语音通讯学术会议、第十三届海峡两岸图书资讯学学术研讨会 等;词向量的相关文献由2759位作者贡献,包括曹绍升、周俊、李健铨等。
词向量
-研究学者
- 曹绍升
- 周俊
- 李健铨
- 张雷
- 杨凯程
- 林鸿飞
- 谢俊元
- 郭剑毅
- 余正涛
- 吐尔根·依布拉音
- 张杰
- 李小龙
- 蒋宏飞
- 严馨
- 孙茂松
- 席耀一
- 彭浩
- 李建欣
- 王波
- 田生伟
- 禹龙
- 刘垚鹏
- 刘志煌
- 宋彦
- 庄越挺
- 张云华
- 张日崇
- 彭敏
- 杨光
- 袁华
- 黄名选
- 黄沛杰
- 周枫
- 张鹏
- 殷复莲
- 潘嵘
- 王健
- 王磊
- 胡刚
- 艾山·吾买尔
- 陈鹏
- 马晓军
- 刘冲
- 刘超
- 卡哈尔江·阿比的热西提
- 唐驰
- 孙宇
- 尹正
- 帕特里克·N·伦德奎斯克
- 张刚
-
-
叶志威;
张晓龙;
林晓丽
-
-
摘要:
为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法.通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用Borderline-SMOTE技术合成少数类样本,以改善数据集的样本分布;最后将处理好的数据输入到梯度提升决策树(GBDT)分类器中进行分类预测.实验结果表明,本文方法不仅能有效提取药物-靶点相互作用的特征,加快特征提取和特征选择的过程,还能缓解数据集的不平衡性对预测结果的不利影响,提高了预测模型的性能.
-
-
李冉冉;
刘大明;
刘正;
常高祥
-
-
摘要:
目前多数文本分类方法无法有效反映句子中不同单词的重要程度,且在神经网络训练过程中获得的词向量忽略了汉字本身的结构信息。构建一种GRU-ATT-Capsule混合模型,并结合CW2Vec模型训练中文词向量。对文本数据进行预处理,使用传统的词向量方法训练的词向量作为模型的第1种输入,通过CW2Vec模型训练得到的包含汉字笔画特征的中文词向量作为第2种输入,完成文本表示。利用门控循环单元分别提取2种不同输入的上下文特征并结合注意力机制学习文本中单词的重要性,将2种不同输入提取出的上下文特征进行融合,通过胶囊网络学习文本局部与全局之间的关系特征实现文本分类。在搜狗新闻数据集上的实验结果表明,GRU-ATT-Capsule混合模型相比TextCNN、BiGRU-ATT模型在测试集分类准确率上分别提高2.35和4.70个百分点,融合笔画特征的双通道输入混合模型相比单通道输入混合模型在测试集分类准确率上提高0.45个百分点,证明了GRU-ATTCapsule混合模型能有效提取包括汉字结构在内的更多文本特征,提升文本分类效果。
-
-
支瑞聪;
万菲;
张德政
-
-
摘要:
深度学习方法的提出使得机器学习研究领域得到了巨大突破,但是却需要大量的人工标注数据来辅助完成.在实际问题中,受限于人力成本,许多应用需要对从未见过的实例类别进行推理判断.为此,零样本学习(zeroshot learning, ZSL)应运而生.图作为一种表示事物之间联系的自然数据结构,目前在零样本学习中受到了越来越多的关注.本文对零样本图学习方法进行了系统综述.首先概述了零样本学习和图学习的定义,并总结了零样本学习现有的解决方案思想.然后依据图的不同利用方式对目前零样本图学习的方法体系进行了分类.接下来讨论了零样本图学习所涉及到的评估准则和数据集.最后指明了零样本图学习进一步研究中需要解决的问题以及未来可能的发展方向.
-
-
陈朝明
-
-
摘要:
视频直播是近年来最火的新型产业。由于弹幕独特的在线实时、语言简略与互联网化特征,现有方法难以直接用于弹幕情感分析。为解决弹幕文本分析精度问题,针对弹幕语料库缺乏以及语言简略与互联网化特征,构建弹幕专属情感词典。针对直播弹幕语言的特性,提出一种基于改进SVM的情感分析模型。通过引入分类处理因子与梯度下降因子,降低了预测器的泛化误差。在此基础上,提出词向量、情感词、否定词和标点符号等多种融合特征的方法,将融合结果映射到向量空间上,再通过分类器进行情感分类。实验结果表明,改进的SVM分类器模型比未改进模型在精确率、召回率、F1值上分别提高3.8%、2.3%、1.1%。
-
-
陈瑞清;
高盛祥;
余正涛;
张迎晨;
张磊;
杨舰
-
-
摘要:
越南语属于低资源语种,高质量关键词新闻数据稀缺,为了解决样本不足条件下生成越南语新闻关键词准确性不高的问题,提出了一种多特征融合的越南语关键词生成模型,拟提升生成的越南语关键词与越南语新闻文档的相关性.首先,将越南语新闻实体、词性、词汇位置特征与词向量拼接,使输入模型的词向量包含更多维度的语义信息;其次,利用双向注意力机制捕获上下文与新闻标题的依赖关系,增强标题在关键词生成中的指导作用;最后,结合复制机制生成越南语关键词,从而提高关键词的语义相关性.在构建的越南语新闻关键词数据集上进行实验,结果表明融合多特征的关键词生成模型能在越南语训练样本有限的条件下生成高质量关键词,F1@10、R@50分数比TG-Net分别提升了13.2%和17.1%.
-
-
韩红旗;
冉亚鑫;
张运良;
桂婕;
高雄;
易梦琳
-
-
摘要:
不同媒体数据间由于存在严重的异构鸿沟和语义鸿沟,而不能直接计算它们之间的语义相似度,从而影响了跨媒体检索的实现和效果。当前提出的共同子空间学习虽能实现跨媒体语义关联和检索,但多采用一般的特征提取技术,且在语义匹配时的分类效果较差,不能有效实现跨媒体数据的高层语义关联计算,影响了检索效果。对此,提出Stacking-DSCM-WR跨媒体关联方法,用于文档和图像之间的跨媒体检索。该方法基于词向量技术形成文档的特征表示向量,通过残差网络技术抽取图像的特征表示向量,采用深度典型相关性分析技术将不同模态的数据投影到共同子空间下,然后采用Stacking集成学习算法获取文本和图像在同一高层概念语义空间上的分布,使得两种不同模态的数据可以进行语义匹配、相似性计算。在Wikipedia和Pascal Sentence两个小型跨媒体数据集和一个较大规模跨媒体数据集INRIA-Websearch上分别开展跨媒体检索实验,证实了所提方法能够有效地抽取文本和图像的特征,实现跨媒体数据在高层语义空间上的关联和匹配,与相近跨媒体检索方法在MAP指标上的对比显示,该方法能够取得较好的检索效果。
-
-
李军怀;
陈苗苗;
王怀军;
崔颖安;
张爱华
-
-
摘要:
命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。
-
-
许秀霓
-
-
摘要:
随着互联网的飞速发展,电子公文的数量日益增多,以往纸质档案整编方式已经在工作中变得力不从心。鉴于此,研究对基于二分类模型的电子档案管理技术进行了优化设计。首先提出了训练数据的清洗与词向量的构建,其次是二分类模型构建及模型调参,最后对本次研究提出的设计进行了测试分析。测试结果表明,提出的二分类模型将语义特征与数据统计特征进行了有机融合,可以更优的评价关键词语的权重,使得关键词的获取更加可靠,并且测试过程中受到数据影响波动非常小。
-
-
王浩畅;
孙铭泽
-
-
摘要:
由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短文本分类。模型运用ERNIE模型作为词向量,对实体和词语义单元掩码,后连接Transformer的编码层,对ERNIE层输出的词嵌入向量进行编码,优化模型过拟合问题,增强泛化能力,RCNN模型对ERNIE输入的词向量进行特征提取,卷积层利用大小不同的卷积核提取大小不同的特征值,池化层进行映射处理,最后通过softmax进行分类。将该模型与七种深度学习文本分类模型在中文新闻数据集上进行训练实验,得到了模型在准确率、精准率、召回率、F1值、迭代次数、运行时间上的对比结果,表明ERNIE-RCNN模型能够很好地提取文本中的特征信息,减少了训练时间,有效解决了中文短文本分类的难点,具有很好的分类效果。
-
-
刘峻松;
唐明靖;
薛岗;
杨成荣
-
-
摘要:
Stack Overflow是一个计算机编程领域的问答社区,其中的文本蕴含大量有价值的信息可供挖掘,但由于其本身存在大量的错误词汇,给文本的分析造成影响。对此,提出一种词语自动检测纠错算法,通过词向量的技术以语义相似度为核心,对错误词汇进行分析,结合改进的编辑距离算法对文本进行自动检测纠错。实验结果表明,该算法能够对诸如此类专业性较强的领域主题文本进行自动检测纠错,并且能够较好地还原标准文段用词。
-
-
Congjun LONG;
龙从军;
Huidan LIU;
刘汇丹;
Maoke ZHOU;
周毛克
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
词向量在自然语言处理研究的各个领域发挥着重要作用.该文从语言学角度出发,讨论了词向量技术与语言学理论的关系;根据词向量的特征,提出利用藏文词向量构建语义相似词知识库.作者以哈尔滨工业大学的中文《词林》为基础,通过汉藏双语词典对译,在获取对译词的词向量的基础上,计算对译词的词向量与原子词群平均词向量的差值,利用不同的差值,自动筛选出与原子词群语义相似度较小的词.作者分别以藏文的词和音节为单位计算词向量,自动筛出不属于原子词群的词;自动筛选结果与人工筛选结果对比,发现两者具有较高的一致性,说明词向量计算结果与人的语言直觉具有较高的一致性.因此本文所采用的方法有助于提高藏文语义相似词知识库构建效率.
-
-
Feng Yubo;
冯煜博;
CAI Dongfeng;
蔡东风;
Yan Song;
宋彦
- 《第十八届中国计算语言学大会暨中国中文信息学会2019学术年会》
| 2018年
-
摘要:
词向量是词的低维稠密实数向量表示,在自然语言处理的各项任务中都扮演了重要角色.目前词向量大多都是通过构造神经网络模型,在大规模语料库上以无监督学习的方式训练得到,这样的模型存在着两个问题:低频词词向量的语义表示质量较差;忽视了知识库可以对该模型提供的帮助.该文提出了利用知网相关概念场来提升词向量语义表示质量的模型.实验结果表明,在词语相似度任务(ws297s)上该模型将GloVe词向量的斯皮尔曼相关性系数提高了10.29,在词语相关度任务(ws240r)上将SG词向量提高了3.39;在词语类比任务上将GloVe词向量的准确率提高了10.59个百分点.
-
-
李伟康;
李炜;
吴云芳
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
本文旨在探究深度学习中汉语字向量和词向量的有效结合方式.以词作为基础语义单元和以字作为基础语义单元这两个方向进行探究,实验了字、词信息多种浅层结合方式和深层结合方式.为了验证提出的结合方式的有效性,改进了一种compare-aggregate模型,并在基于文档的问答系统上进行了实验.实验结果表明,有效的汉语字向量和词向量的结合方式超越了单独的字向量和词向量,提升了基于文档的问答系统的性能,使其结果与目前最好的结果可媲美.
-
-
缪浩然;
黎塔;
粱宏
- 《第十四届全国人机语音通讯学术会议》
| 2017年
-
摘要:
本文将词向量和卷积神经网络应用到语句分类任务中,并且引入词语在特定语料中的信息量来表征语句.利用逆文档频率加权平均后的词向量值进行语句分类,在5分英文标准分类测试集和2份中文测试集上的实验表明,该方法可以使口语对话分类准确率提升2.5%以上.在卷积神经网络建模中,不同于以往提取连续词语的特征,本文提出通过改变网络输入层,实现提取语句中词对的特征,在相同的测试集上实验结果表明,利用词对特征可以使较长语句分类准确率提升0.61%-0.78%.
-
-
-
-
李丽双;
郭元凯
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
命名实体识别是自然语言处理任务的重要步骤.近年来,不依赖人工特征的神经网络在新闻等通用领域命名实体识别方面表现了很好的性能.然而在生物医学领域,许多实验表明基于领域知识的人工特征对于神经网络模型的结果影响很大.因此,如何在不依赖人工特征的情况下获得较好的生物医学命名实体识别性能是有待解决的问题.本文提出一种基于CNN-BLSTM-CRF的神经网络模型.首先利用卷积神经网络(CNN)训练出单词的具有形态特征的字符级向量,并从大规模背景语料训练得到具有语义特征信息的词向量,然后将二者进行组合作为输入,再构建适合生物医学命名实体识别的BLSTM-CRF深层神经网络模型.实验结果表明,不依赖任何人工特征,本文方法在BiocreativeⅡGM和JNLPBA2004生物医学语料上都达到了目前最好的结果,F-值分别为89.09%和74.40%.
-
-
买合木提·买买提;
卡哈尔江·阿比的热西提;
艾山·吾买尔;
吐尔根·依布拉音;
王路路
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法.根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、地名特征词、地名词缀等特征进行实验,结果表明这些特征对识别性能有较大的影响.通过对错误识别结果分析,提出了基于规则的后处理,进一步提高了识别性能,准确率达到94.68%,召回率达到89.52%,F值达到92.03%.
-
-
柯子烜;
黄沛杰;
曾真
- 《第十六届全国计算语言学学术会议暨第五届基于自然标注大数据的自然语言处理国际学术研讨会》
| 2017年
-
摘要:
“未定义”类话语在面向任务的对话语料之中广泛存在,具有成分复杂,与其余“已定义”类话语边界模糊的特点,影响着话语领域分类的总体正确率.而且,“未定义”类话语一旦错分,将使得用户对口语对话系统的功能有效性产生怀疑,大大降低用户体验.本文提出一种基于优化“未定义”类话语检测的领域分类方案,采用了两阶段法完成口语话语的领域分类任务.首先采用聚类方法,将“已定义”类话语聚为几个大类,简化众多的“已定义”类话语独立存在时和“未定义”类话语之间的边界.进而利用分类模型对聚类后的“已定义”类话语大类以及“未定义”类话语进行领域分类,优化目标是“未定义”类话语的检测效率.最后,将第一阶段分类为“已定义”类的话语,在去除了绝大部分“未定义”类话语干扰的基础上进行再次分类.本文的分类模型采用了长短期记忆网络(long short-term memory,LSTM),并利用无标签微博数据训练词向量用于话语特征表达.在SMP2017意图领域分类比赛的多任务语料上的评测结果表明,本文的方案在“未定义”类话语检测的F1值以及所有话语的领域分类总正确率上都有明显提升.
-