基于点关联测度矩阵分解的中英跨语言词嵌入方法

于东; 赵艳; 韦林煊; 荀恩东

首页> 中文期刊>中文信息学报 >基于点关联测度矩阵分解的中英跨语言词嵌入方法

基于点关联测度矩阵分解的中英跨语言词嵌入方法

开具论文收录证明 >>

期刊封面封底目录下载 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

研究基于矩阵分解的词嵌入方法,提出统一的描述模型,并应用于中英跨语言词嵌入问题.以双语对齐语料为知识源,提出跨语言关联词计算方法和两种点关联测度的计算方法:跨语言共现计数和跨语言点互信息.分别设计目标函数学习中英跨语言词嵌入.从目标函数、语料数据、向量维数等角度进行实验,结果表明,在中英跨语言文档分类中以前者作为点关联测度最高得到87.04％的准确率;在中英跨语言词义相似度计算中,后者作为点关联测度得到更好的性能,同时在英—英词义相似度计算中的性能略高于主流的英语词嵌入.%This paper presents a unified model for matrix factorization based word embeddings,and applies the model to Chinese-English cross-lingual word embeddings.It proposes a method to determine cross-lingual relevant word on parallel corpus.Both cross-lingual word co-occurrence and pointwise mutual information are served as pointwise relevant measurements to design objective function for learning cross-lingual word embeddings.Experiments are carried out from perspectives of different objective function,corpus,and vector dimension.For the task of cross-lingual document classification,the best performance model achieves 87.04％ in accuracy,as it adopts cross-lingual word co-occurrence as relevant measurement.In contrast,models adopt cross-lingual pointwise mutual information get better performance in cross-lingual word similarity calculation task.Meanwhile,for the problem of English word similarity calculation,experimental result shows that our methods get slightly higher performance than English word embeddings trained by state-of-the-art methods.

著录项

来源
《中文信息学报》|2017年第1期|58-65,74|共9页
作者
于东; 赵艳; 韦林煊; 荀恩东;
展开▼
作者单位

北京语言大学大数据与教育技术研究所,北京100083;

北京语言大学信息科学学院,北京100083;

北京语言大学信息科学学院,北京100083;

北京语言大学信息科学学院,北京100083;

北京语言大学大数据与教育技术研究所,北京100083;

北京语言大学信息科学学院,北京100083;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
点关联测度; 词嵌入; 跨语言; 矩阵分解;
入库时间 2022-08-18 06:08:17

相似文献

中文文献
外文文献
专利

1. 基于元嵌入的跨语言词嵌入方法研究 [J] . 韩越 ,艾山·吾买尔 . 现代计算机（专业版） . 2021,第020期
2. 基于低秩矩阵分解方法预测miRNA与疾病的关联 [J] . 汪一百 . 信息技术与信息化 . 2021,第011期
3. 基于SNA方法的区域间碳排放空间关联网络特征测度研究 [J] . 吴佳勉 ,赵巧芝 ,孙圣仪 . 统计与管理 . 2019,第010期
4. 产业关联测度方法的改进及应用——基于OECD非竞争型投入产出表的分析 [J] . 陈昌才 . 统计与信息论坛 . 2013,第003期
5. 基于测度区间灰关联的未知雷达信号判别方法 [J] . 龚亮亮 ,陈长春 ,裴迎军 . 现代防御技术 . 2009,第005期
6. 基于点关联测度矩阵分解的中英跨语言词嵌入 [C] . YU Dong ,于东 ,ZHAO Yan . 第十五届全国计算语言学学术会议（CCL2016）暨第四届基于自然标注大数据的自然语言处理国际学术研讨会（NLP-NABD-2016） . -1
7. 基于双语主题词嵌入模型的中朝跨语言文本分类方法的研究 [A] . 田明杰 . 2019

基于点关联测度矩阵分解的中英跨语言词嵌入方法

摘要

著录项

相似文献

相关主题

期刊订阅