您现在的位置: 首页> 研究主题> 词向量

词向量

词向量的相关文献在2007年到2022年内共计1165篇,主要集中在自动化技术、计算机技术、科学、科学研究、无线电电子学、电信技术 等领域,其中期刊论文642篇、会议论文20篇、专利文献7861篇;相关期刊227种,包括现代图书情报技术、计算机工程、计算机工程与设计等; 相关会议10种,包括中国中文信息学会2015学术年会(CIPS2015)暨第十四届全国计算语言学学术会议(CCL2015)、第三届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD2015)、第十三届全国人机语音通讯学术会议、第十三届海峡两岸图书资讯学学术研讨会 等;词向量的相关文献由2759位作者贡献,包括曹绍升、周俊、李健铨等。

词向量—发文量

期刊论文>

论文:642 占比:7.53%

会议论文>

论文:20 占比:0.23%

专利文献>

论文:7861 占比:92.23%

总计:8523篇

词向量—发文趋势图

词向量

-研究学者

  • 曹绍升
  • 周俊
  • 李健铨
  • 张雷
  • 杨凯程
  • 林鸿飞
  • 谢俊元
  • 郭剑毅
  • 余正涛
  • 吐尔根·依布拉音
  • 期刊论文
  • 会议论文
  • 专利文献

搜索

排序:

年份

    • 叶志威; 张晓龙; 林晓丽
    • 摘要: 为了解决药物-靶点相互作用(DTI)预测中数据集样本分布不平衡的问题,提出了一种新的数据处理方法.通过词向量特征提取,将原始蛋白质序列信息和药物化学结构信息转换为低维向量特征,组合药物特征和靶点特征来表征药物-靶点相互作用;采用Borderline-SMOTE技术合成少数类样本,以改善数据集的样本分布;最后将处理好的数据输入到梯度提升决策树(GBDT)分类器中进行分类预测.实验结果表明,本文方法不仅能有效提取药物-靶点相互作用的特征,加快特征提取和特征选择的过程,还能缓解数据集的不平衡性对预测结果的不利影响,提高了预测模型的性能.
    • 李冉冉; 刘大明; 刘正; 常高祥
    • 摘要: 目前多数文本分类方法无法有效反映句子中不同单词的重要程度,且在神经网络训练过程中获得的词向量忽略了汉字本身的结构信息。构建一种GRU-ATT-Capsule混合模型,并结合CW2Vec模型训练中文词向量。对文本数据进行预处理,使用传统的词向量方法训练的词向量作为模型的第1种输入,通过CW2Vec模型训练得到的包含汉字笔画特征的中文词向量作为第2种输入,完成文本表示。利用门控循环单元分别提取2种不同输入的上下文特征并结合注意力机制学习文本中单词的重要性,将2种不同输入提取出的上下文特征进行融合,通过胶囊网络学习文本局部与全局之间的关系特征实现文本分类。在搜狗新闻数据集上的实验结果表明,GRU-ATT-Capsule混合模型相比TextCNN、BiGRU-ATT模型在测试集分类准确率上分别提高2.35和4.70个百分点,融合笔画特征的双通道输入混合模型相比单通道输入混合模型在测试集分类准确率上提高0.45个百分点,证明了GRU-ATTCapsule混合模型能有效提取包括汉字结构在内的更多文本特征,提升文本分类效果。
    • 支瑞聪; 万菲; 张德政
    • 摘要: 深度学习方法的提出使得机器学习研究领域得到了巨大突破,但是却需要大量的人工标注数据来辅助完成.在实际问题中,受限于人力成本,许多应用需要对从未见过的实例类别进行推理判断.为此,零样本学习(zeroshot learning, ZSL)应运而生.图作为一种表示事物之间联系的自然数据结构,目前在零样本学习中受到了越来越多的关注.本文对零样本图学习方法进行了系统综述.首先概述了零样本学习和图学习的定义,并总结了零样本学习现有的解决方案思想.然后依据图的不同利用方式对目前零样本图学习的方法体系进行了分类.接下来讨论了零样本图学习所涉及到的评估准则和数据集.最后指明了零样本图学习进一步研究中需要解决的问题以及未来可能的发展方向.
    • 陈朝明
    • 摘要: 视频直播是近年来最火的新型产业。由于弹幕独特的在线实时、语言简略与互联网化特征,现有方法难以直接用于弹幕情感分析。为解决弹幕文本分析精度问题,针对弹幕语料库缺乏以及语言简略与互联网化特征,构建弹幕专属情感词典。针对直播弹幕语言的特性,提出一种基于改进SVM的情感分析模型。通过引入分类处理因子与梯度下降因子,降低了预测器的泛化误差。在此基础上,提出词向量、情感词、否定词和标点符号等多种融合特征的方法,将融合结果映射到向量空间上,再通过分类器进行情感分类。实验结果表明,改进的SVM分类器模型比未改进模型在精确率、召回率、F1值上分别提高3.8%、2.3%、1.1%。
    • 陈瑞清; 高盛祥; 余正涛; 张迎晨; 张磊; 杨舰
    • 摘要: 越南语属于低资源语种,高质量关键词新闻数据稀缺,为了解决样本不足条件下生成越南语新闻关键词准确性不高的问题,提出了一种多特征融合的越南语关键词生成模型,拟提升生成的越南语关键词与越南语新闻文档的相关性.首先,将越南语新闻实体、词性、词汇位置特征与词向量拼接,使输入模型的词向量包含更多维度的语义信息;其次,利用双向注意力机制捕获上下文与新闻标题的依赖关系,增强标题在关键词生成中的指导作用;最后,结合复制机制生成越南语关键词,从而提高关键词的语义相关性.在构建的越南语新闻关键词数据集上进行实验,结果表明融合多特征的关键词生成模型能在越南语训练样本有限的条件下生成高质量关键词,F1@10、R@50分数比TG-Net分别提升了13.2%和17.1%.
    • 韩红旗; 冉亚鑫; 张运良; 桂婕; 高雄; 易梦琳
    • 摘要: 不同媒体数据间由于存在严重的异构鸿沟和语义鸿沟,而不能直接计算它们之间的语义相似度,从而影响了跨媒体检索的实现和效果。当前提出的共同子空间学习虽能实现跨媒体语义关联和检索,但多采用一般的特征提取技术,且在语义匹配时的分类效果较差,不能有效实现跨媒体数据的高层语义关联计算,影响了检索效果。对此,提出Stacking-DSCM-WR跨媒体关联方法,用于文档和图像之间的跨媒体检索。该方法基于词向量技术形成文档的特征表示向量,通过残差网络技术抽取图像的特征表示向量,采用深度典型相关性分析技术将不同模态的数据投影到共同子空间下,然后采用Stacking集成学习算法获取文本和图像在同一高层概念语义空间上的分布,使得两种不同模态的数据可以进行语义匹配、相似性计算。在Wikipedia和Pascal Sentence两个小型跨媒体数据集和一个较大规模跨媒体数据集INRIA-Websearch上分别开展跨媒体检索实验,证实了所提方法能够有效地抽取文本和图像的特征,实现跨媒体数据在高层语义空间上的关联和匹配,与相近跨媒体检索方法在MAP指标上的对比显示,该方法能够取得较好的检索效果。
    • 李军怀; 陈苗苗; 王怀军; 崔颖安; 张爱华
    • 摘要: 命名实体识别是知识图谱构建、搜索引擎、推荐系统等上层自然语言处理任务的重要基础,中文命名实体识别是对一段文本序列中的专有名词或特定命名实体进行标注分类。针对现有中文命名实体识别方法无法有效提取长距离语义信息及解决一词多义的问题,提出一种基于ALBERT-双向门控循环单元(BGRU)-条件随机场(CRF)模型的中文命名实体识别方法。使用ALBERT预训练语言模型对输入文本进行词嵌入获取动态词向量,有效解决了一词多义的问题。采用BGRU提取上下文语义特征进一步理解语义,获取长距离词之间的语义特征。将拼接后的向量输入至CRF层并利用维特比算法解码,降低错误标签输出概率。最终得到实体标注信息,实现中文命名实体识别。实验结果表明,ALBERT-BGRU-CRF模型在MSRA语料库上的中文命名实体识别准确率和召回率分别达到95.16%和94.58%,同时相比于片段神经网络模型和CNN-BiLSTM-CRF模型的F1值提升了4.43和3.78个百分点。
    • 许秀霓
    • 摘要: 随着互联网的飞速发展,电子公文的数量日益增多,以往纸质档案整编方式已经在工作中变得力不从心。鉴于此,研究对基于二分类模型的电子档案管理技术进行了优化设计。首先提出了训练数据的清洗与词向量的构建,其次是二分类模型构建及模型调参,最后对本次研究提出的设计进行了测试分析。测试结果表明,提出的二分类模型将语义特征与数据统计特征进行了有机融合,可以更优的评价关键词语的权重,使得关键词的获取更加可靠,并且测试过程中受到数据影响波动非常小。
    • 王浩畅; 孙铭泽
    • 摘要: 由于中文短文本存在特征词少、规范性差、数据规模量大等难点,ERNIE预训练模型占用内存大,进行短文本分类时会造成向量空间稀疏、文本预训练不准确、时间复杂度高等问题。针对以上短文本分类存在的问题,提出基于ERNIE-RCNN模型的中文短文本分类。模型运用ERNIE模型作为词向量,对实体和词语义单元掩码,后连接Transformer的编码层,对ERNIE层输出的词嵌入向量进行编码,优化模型过拟合问题,增强泛化能力,RCNN模型对ERNIE输入的词向量进行特征提取,卷积层利用大小不同的卷积核提取大小不同的特征值,池化层进行映射处理,最后通过softmax进行分类。将该模型与七种深度学习文本分类模型在中文新闻数据集上进行训练实验,得到了模型在准确率、精准率、召回率、F1值、迭代次数、运行时间上的对比结果,表明ERNIE-RCNN模型能够很好地提取文本中的特征信息,减少了训练时间,有效解决了中文短文本分类的难点,具有很好的分类效果。
    • 刘峻松; 唐明靖; 薛岗; 杨成荣
    • 摘要: Stack Overflow是一个计算机编程领域的问答社区,其中的文本蕴含大量有价值的信息可供挖掘,但由于其本身存在大量的错误词汇,给文本的分析造成影响。对此,提出一种词语自动检测纠错算法,通过词向量的技术以语义相似度为核心,对错误词汇进行分析,结合改进的编辑距离算法对文本进行自动检测纠错。实验结果表明,该算法能够对诸如此类专业性较强的领域主题文本进行自动检测纠错,并且能够较好地还原标准文段用词。
  • 查看更多

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号