基于PDFBox抽取学术论文信息的实现

牛永洁; 薛苏琴

首页> 中文期刊> 《计算机技术与发展》 >基于PDFBox抽取学术论文信息的实现

基于PDFBox抽取学术论文信息的实现

开具论文收录证明 >>

期刊封面封底目录下载 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

为了对学术动态、热点及学术发展趋势进行研究，需要对学术研究论文进行数据挖掘研究。首先需要从海量的学术论文中提取有兴趣的信息。针对目前学术论文大多采用PDF格式的现状，重点研究了PDF文件的格式以及对PDF格式操作的各种技术，采用开源函数库PDFBox对PDF格式的学术论文按照规则进行信息的提取，提取的信息主要包括学术论文的标题、作者、单位、关键词、发表时间、摘要等信息。最后对提取信息的正确率进行了统计，有助于针对学术研究的大数据研究。%In order to research the academic dynamics,hot topic and academic development trends,need to carry out the data mining re-search for academic research papers. First of all,extract interest information from the massive papers. For the situation that the current aca-demic papers are mostly used PDF format,mainly study the format of PDF files and a variety of technical operations for PDF operations, open-source library PDFBox is used to extract information for the academic papers with PDF format in accordance with the rules,the ex-tracted information is mainly including academic titles,authors,unit,keyword,publication time,abstract and other information. Finally, the correct rate of extraction of information has been statistical,which is helpful for big data for academic research.

著录项

来源
《计算机技术与发展》 |2014年第12期|61-6368|共4页
作者
牛永洁; 薛苏琴;
展开▼
作者单位

延安大学数学与计算机学院;

陕西延安 716000;

延安大学数学与计算机学院;

陕西延安 716000;

展开▼
原文格式 PDF
正文语种 chi
中图分类计算机的应用;
关键词
数据挖掘; 信息抽取; PDF格式; 学术论文;

相似文献

中文文献
外文文献
专利

1. 基于领域本体的Web信息抽取方法的设计与实现——以网易汽车资讯网页信息抽取为例 [J] . 吴恒亮 . 图书馆论坛 . 2010,第003期
2. 基于信息抽取技术的中大布市导购助手的设计与实现 [J] . 曾凡涛 . 广东轻工职业技术学院学报 . 2015,第003期
3. 基于XPath的新闻信息抽取系统设计与实现 [J] . 阮娟 . 智能计算机与应用 . 2015,第002期
4. 基于XPath的新闻信息抽取系统设计与实现 [J] . 阮娟 . 智能计算机与应用 . 2015,第002期
5. 基于 GATE 框架的地理事件信息抽取设计与实现 [J] . 张伟 ,陈晓慧 ,岳耀 . 现代测绘 . 2015,第004期
6. 基于Heritrix的web信息抽取优化与实现 [C] . 吴伟 ,陈建峡 . 湖北省机械工程学会机械设计与传动专委会暨武汉市机械设计与传动学会第20届学术年会 . 2012
7. 基于多策略的学术论文术语抽取方法研究 [A] . 蒋丹 . 2016

基于PDFBox抽取学术论文信息的实现

摘要

著录项

相似文献

相关主题

期刊订阅