首页> 中文期刊> 《情报工程》 >基于SciBERT模型的引文上下文识别系统优化

基于SciBERT模型的引文上下文识别系统优化

         

摘要

[目的/意义]本文介绍一个用于从英文学术文献中提取显性引文句和隐性引文上下文的系统。该系统基于SmartCiteCon(SCC)系统对识别模型进行了优化,本文称该系统为SmartCiteCon2.0(SCC2.0)。[方法/过程]该系统的识别模型部分通过Python语言编写,基于经过微调的SciBERT模型构建而成。该模型基于国际计算语言学协会(ACL)会议论文集中人工标注的27,832个引用上下文句子对进行训练,并以SCC系统使用的SVM模型作为对照组以验证效果。[结果/结论]实验结果表明,微调后的SciBERT模型的F1值为90%。相比仅使用句子对文本特征的SVM模型F1值提升了11%,相比于使用全部特征SVM模型的F1提升了3%。在该模型基础上,本文构建的SCC2.0系统开箱即用,支持PDF,以及符合特定标准的XML和JSON格式的学术文献。该API同时支持单文档处理和多文档并发处理,源代码发布于https://gitee.com/Lan_Tianchen/smart-cite-con。

著录项

相似文献

  • 中文文献
  • 外文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号