首页> 外文OA文献 >Foundation, Implementation and Evaluation of the MorphoSaurus System : Subword Indexing, Lexical Learning and Word Sense Disambiguation for Medical Cross-Language Information Retrieval
【2h】

Foundation, Implementation and Evaluation of the MorphoSaurus System : Subword Indexing, Lexical Learning and Word Sense Disambiguation for Medical Cross-Language Information Retrieval

机译:MorphoSaurus系统的建立,实施和评估:医学跨语言信息检索的子词索引,词汇学习和词义消歧

摘要

Im medizinischen Alltag, zu welchem viel Dokumentations- und Recherchearbeit gehört, ist mittlerweile der überwiegende Teil textuell kodierter Information elektronisch verfügbar. Hiermit kommt der Entwicklung leistungsfähiger Methoden zur effizienten Recherche eine vorrangige Bedeutung zu. Bewertet man die Nützlichkeit gängiger Textretrievalsysteme aus dem Blickwinkel der medizinischen Fachsprache, dann mangelt es ihnen an morphologischer Funktionalität (Flexion, Derivation und Komposition), lexikalisch-semantischer Funktionalität und der Fähigkeit zu einer sprachübergreifenden Analyse großer Dokumentenbestände.In der vorliegenden Promotionsschrift werden die theoretischen Grundlagen des MorphoSaurus-Systems (ein Akronym für Morphem-Thesaurus) behandelt. Dessen methodischer Kern stellt ein um Morpheme der medizinischen Fach- und Laiensprache gruppierter Thesaurus dar, dessen Einträge mittels semantischer Relationen sprachübergreifend verknüpft sind. Darauf aufbauend wird ein Verfahren vorgestellt, welches (komplexe) Wörter in Morpheme segmentiert, die durch sprachunabhängige, konzeptklassenartige Symbole ersetzt werden. Die resultierende Repräsentation ist die Basis für das sprachübergreifende, morphemorientierte Textretrieval.Neben der Kerntechnologie wird eine Methode zur automatischen Akquise von Lexikoneinträgen vorgestellt, wodurch bestehende Morphemlexika um weitere Sprachen ergänzt werden. Die Berücksichtigung sprachübergreifender Phänomene führt im Anschluss zu einem neuartigen Verfahren zur Auflösung von semantischen Ambiguitäten. Die Leistungsfähigkeit des morphemorientierten Textretrievals wird im Rahmen umfangreicher, standardisierter Evaluationen empirisch getestet und gängigen Herangehensweisen gegenübergestellt.
机译:在包括大量文档和研究工作的日常医学实践中,绝大多数文本编码信息现在都可以通过电子方式获得。开发用于高效研究的有效方法至关重要。如果从医学术语的角度评估普通文本检索系统的有用性,那么它们将缺乏形态功能(词尾变化,推导和组合),词汇语义功能以及能够跨语言分析大量文档的能力MorphoSaurus系统的缩写(Morphem词库的缩写)。它的方法核心是围绕医学语言和业余语言的语素进行分组的词库,其词表使用语义关系跨语言链接。基于此,提出了一种程序,该程序将(复杂的)单词分段为语素,然后将其替换为与语言无关的概念类符号。结果表示法是跨语言,面向词素的文本检索的基础,除了核心技术之外,还提出了一种自动获取词典词条的方法,在此基础上,现有的词素词典还可以使用其他语言进行补充。跨语言现象的考虑导致了一种解决语义歧义的新方法。面向语素的文本检索的性能在广泛,标准化的评估环境下进行了经验测试,并与常规方法进行了对比。

著录项

  • 作者

    Markó Kornél Géza;

  • 作者单位
  • 年度 2009
  • 总页数
  • 原文格式 PDF
  • 正文语种 eng
  • 中图分类

相似文献

  • 外文文献
  • 中文文献
  • 专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号