首页> 中文期刊> 《计算机技术与发展》 >基于功能结构元组的技术文档的特征提取研究

基于功能结构元组的技术文档的特征提取研究

         

摘要

词汇模型在表征工程技术知识文档特征时,将文档切分为一个个相互不关联的词,较难提取出文档的语义特征.如果考虑到一条语句中词之间的关联性,根据工程技术知识文档的语义结构信息,提取出功能结构元组作为文档特征,则可以进一步提高分类效果.文中从工程技术知识文档的特点出发,在归纳总结现有提取文本功能结构元组方法的基础上,探索将基于统计的方法和基于规则的方法相结合.首先通过统计方法提取文档特征词来过滤掉文档中的噪声和无意义的语句,再从过滤后的语句中按照语法分析树的层次,以递归方式提取文档中的功能结构元组.为更有效地提取语句中的功能结构元组,对语句的词法分析树中规律性的规则进行了总结.经验证,该方法可有效提升工程技术知识文档的特征提取效果.

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号