基于密度及文本特征的新闻标题抽取算法

彭圳生; 巩青歌; 高志强; 段妍羽; 曾子贤

首页> 中文期刊> 《中文信息学报》 >基于密度及文本特征的新闻标题抽取算法

基于密度及文本特征的新闻标题抽取算法

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

为从大量的复杂非规范网页结构中自动抽取出新闻标题,该文提出一种基于密度和文本特征的新闻标题抽取算法(title extraction with density and text-features,TEDT)。主要通过融合网页文本密度分布和语言特征的语料判定模型,将网页划分为语料区和标题候选区,选取语料后通过TextRank算法计算对应的key-value权重集合,最后采用改进的相似度计算方法从标题候选区抽取新闻标题。该算法能有效划分语料和标题区域,降低网页噪声干扰,准确抽取出新闻标题。实验结果表明,TEDT的准确率和召回率均优于传统的基于规则和相似度的新闻标题抽取算法,证明了TEDT不仅对主流新闻网站有效,而且对复杂非规范网页也广泛适用。

著录项

来源
《中文信息学报》 |2018年第10期|78-86|共9页
作者
彭圳生; 巩青歌; 高志强; 段妍羽; 曾子贤;
展开▼
作者单位

武警工程大学信息工程学院;

军队大数据与云计算重点实验室;

展开▼
原文格式 PDF
正文语种 chi
中图分类信息处理（信息加工）;
关键词
标题抽取; 密度分布; 文本特征; 信息检索;

相似文献

中文文献
外文文献
专利

1. 一种基于文本相似度的网页新闻标题自动抽取算法 [J] . 何春辉 . 湖南城市学院学报（自然科学版） . 2019,第001期
2. 基于标签路径覆盖率和多文本特征的正文抽取算法 [J] . 郑野 ,宋旭东 ,于林林 . 大连交通大学学报 . 2019,第005期
3. 基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取 [J] . 杜若鹏 ,鲜国建 ,寇远涛 . 数字图书馆论坛 . 2019,第008期
4. 文本特征抽取中基于基因集编码的遗传退火算法 [J] . 符保龙 . 广西科学院学报 . 2012,第001期
5. 基于短文本的独立语义特征抽取算法 [J] . 胡佳妮 ,郭军 ,邓伟洪 . 通信学报 . 2007,第012期
6. 文本特征抽取中基于基因集编码的遗传退火算法 [C] . 符保龙 . 广西计算机学会25周年纪念暨2011年学术年会 . 2011
7. 基于多特征抽取文本关键词算法的研究 [A] . 林书行 . 2020

基于密度及文本特征的新闻标题抽取算法

摘要

著录项

相似文献

相关主题

期刊订阅