基于汉字固有属性的中文字向量方法研究

胡浩; 李平; 陈凯琪

首页> 中文期刊> 《中文信息学报》 >基于汉字固有属性的中文字向量方法研究

基于汉字固有属性的中文字向量方法研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

中文短文本在如今高速发展的互联网应用中变得日趋重要,如何从海量短文本消息中挖掘出有价值的信息,已成为当前中文自然语言处理中非常重要且具有挑战性的课题.然而,采用传统的长文本处理方法进行分析往往得不到很好的效果,其根本原因在于中文短文本消息的语法及其语义的稀疏性.基于此,该文提出一种基于汉字笔画属性的中文字向量表示方法,并结合深度学习对短文本消息进行相似性计算.该方法结合中文汉字的构词和拼音属性,将中文汉字映射为一个仅32维的空间向量,最后使用卷积神经网络进行语义提取并进行相似性计算.实验结果表明,与现有的短文本相似性计算方法相比,该方法在算法性能及准确率上均有较大的提高.%With the rapid development of Internet,Chinese short text has become increasingly im-portant.How to mining valuable information from massive short text has become a very important and challenging task in Chinese natural language processing.However,using the traditional methods which analyze long text often get bad results due to the sparsity of syntax and semantic.This paper proposed a Chinese word embedding method based on stroke,combined with deep learning of short text similarity calculation.This method combined Chinese word-building and its Pin-Yin attributes.The Chinese characters were mapped to a 32-dimensional vector.Then we used convolution neural network to extract the semantic of each short text and calculate similarity.Experimental results show that compared with the existing short text similarity calculation method,the method has greatly improved on performance and accuracy.

著录项

来源
《中文信息学报》 |2017年第3期|32-40|共9页
作者
胡浩; 李平; 陈凯琪;
展开▼
作者单位

西南石油大学计算机科学学院智能与网络化系统研究中心,四川成都610500;

西南石油大学计算机科学学院智能与网络化系统研究中心,四川成都610500;

西南石油大学计算机科学学院智能与网络化系统研究中心,四川成都610500;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
短文本; 中文字向量; 深度学习;

相似文献

中文文献
外文文献
专利

1. 基于笔画中文字向量模型设计与研究 [J] . 赵浩新 ,俞敬松 ,林杰 . 中文信息学报 . 2019,第005期
2. 脱机手写体汉字识别的支持向量机方法研究 [J] . 王建平 ,张丽萍 . 计算机与数字工程 . 2008,第004期
3. 基于Premiere Pro CS3显示中文字体的方法研究 [J] . 张秀梅 ,彭新平 . 萍乡高等专科学校学报 . 2013,第003期
4. 基于支持向量机的汉字字库生成 [J] . QIAO Qi ,YUE Ji-guang ,WU Ji-wei . 新一代信息技术 . 2019,第001期
5. 基于支持向量机的汉字字库生成 [J] . 乔琪 ,岳继光 ,吴继伟 . 新一代信息技术 . 2019,第001期
6. 推动中韩汉字“书同文”的一个重要举措——韩国韩中文字交流协会选用的606个简体汉字评析 [C] . 邵文利 ,杜丽荣 . 第八届国际汉字研讨会 . 2007
7. 基于字词对齐的中文字词向量表示方法 [A] . 徐健 . 2017

基于汉字固有属性的中文字向量方法研究

摘要

著录项

相似文献

相关主题

期刊订阅