基于Spark和DN-gram模型的定义抽取研究

于洁

首页> 中文期刊> 《北京信息科技大学学报（自然科学版）》 >基于Spark和DN-gram模型的定义抽取研究

基于Spark和DN-gram模型的定义抽取研究

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

从互联网海量文本中抽取出词语的定义对知识库的自动构建具有重要意义.针对定义抽取研究中N-gram语言模型携带的语义信息有限、容易产生大量稀疏数据的问题,提出了一种DN-gram语言模型.在N-gram基础上融入上下文词语间的语法依赖关系,能表达更为丰富的语言学特征;采用词形和词性的组合代替只用词形的特征选取方法来降低稀疏数据的影响;引入TF-IDF定义隶属度进行特征降维;在Spark大数据平台下采用并行定义抽取管道将互联网文本转换成特征向量,使用随机森林分类器进行学习和训练,在实验中取得了较好效果.

著录项

来源
《北京信息科技大学学报（自然科学版）》 |2017年第4期|64-6874|共6页
作者
于洁;
展开▼
作者单位

福建信息职业技术学院计算机工程系,福州350003;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
知识发现; 文本分类; 定义抽取; Spark; DN-gram;

相似文献

中文文献
外文文献
专利

1. 基于BiLSTM模型的定义抽取方法 [J] . 阳萍 ,谢志鹏 . 计算机工程 . 2020,第003期
2. 基于BERT的多层标签指针网络事件抽取模型——2020语言与智能技术竞赛事件抽取任务系统报告 [J] . 王炳乾 ,宿绍勋 ,梁天新 . 中文信息学报 . 2021,第007期
3. 基于句法分析的文本定义抽取方法 [J] . 张淑征 ,陈明锐 ,许斌 . 海南大学学报（自然科学版） . 2016,第002期
4. 基于预定义模式的Web网页结构化数据抽取 [J] . 王红卫 ,马红 ,张素智 . 郑州轻工业学院学报（自然科学版） . 2008,第006期
5. 基于逻辑定义的Web信息抽取与集成 [J] . 潘惠勇 ,高丽平 ,薛惠忠 . 中原工学院学报 . 2005,第002期
6. 基于实例距离分布的过采样方法的定义抽取研究 [C] . 潘湑 ,顾宏斌 ,赵芷晴 . 2010年全国模式识别学术会议（CCPR2010) . 2010
7. 定义抽取与定义扩展研究 [A] . 吴佳云 . 2017

基于Spark和DN-gram模型的定义抽取研究

摘要

著录项

相似文献

相关主题

期刊订阅