...
首页> 外文期刊>Language Resources and Evaluation >The KAS corpus of Slovenian academic writing
【24h】

The KAS corpus of Slovenian academic writing

机译:斯洛文尼亚学术写作的Kas语料库

获取原文
获取原文并翻译 | 示例
           

摘要

The paper presents the KAS corpus of Slovenian academic writing, which consists of almost 65,000 B.A./B.Sc., 16,000 M.A./M.Sc. and 1600 Ph.D. theses (5 million pages or 1.7 billion tokens) gathered from the digital libraries of Slovenian higher education institutions via the Slovenian Open Science portal. We discuss the compilation, meta-data, annotation, and distribution of the corpus, which is made freely available via on-line concordancers and is openly available for research through the CLARIN.SI research infrastructure. We also present the tools for mono- and bilingual term extraction and for thesis structure annotation that were developed in the scope of the project, including the manually annotated datasets used to train these tools. This specialised corpus, large by any standards, represents a substantial and highly useful language resource for the study of Slovenian academic writing and for terminology extraction.
机译:本文提出了斯洛文尼亚学术写作的KAS语料,其中包括近65,000 b.a./b.sc。,16,000 m.a./m.sc。 和1600 ph.d. 来自斯洛文尼亚公开科学门户网站,斯洛文尼亚高等教育机构的数字图书馆收集了斯洛文尼亚高等教育机构的数字图书馆。 我们讨论了语料库的编译,元数据,注释和分布,通过在线协调官自由提供,并通过Clarin.si研究基础设施公开可用于研究。 我们还提供了在项目范围内开发的单明和双语术语提取的工具,包括用于培训这些工具的手动注释的数据集。 这种专业的语料库,大规模的任何标准都代表了斯洛文尼亚学术写作和术语提取研究的大量和非常有用的语言资源。

著录项

  • 来源
    《Language Resources and Evaluation》 |2021年第2期|551-583|共33页
  • 作者单位

    Jozef Stefan Inst Dept Knowledge Technol Jamova Cesta 39 Ljubljana 1000 Slovenia;

    Jozef Stefan Inst Dept Knowledge Technol Jamova Cesta 39 Ljubljana 1000 Slovenia|Univ Ljubljana Fac Arts Dept Translat Askerceva Cesta 2 Ljubljana 1000 Slovenia;

    Jozef Stefan Inst Dept Knowledge Technol Jamova Cesta 39 Ljubljana 1000 Slovenia|Univ Ljubljana Fac Comp Sci & Informat Vecna Pot 113 Ljubljana 1000 Slovenia;

  • 收录信息
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类
  • 关键词

    Academic writing; Terminology; Slovenian; Corpus; TEI;

    机译:学术写作;术语;斯洛文尼亚语;语料库;TEI;

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号