首页> 外文会议>X Brazilian symposium in information and human language technology and collocated events >n-Gramas de Caractere como Técnica de Normalização Morfológica para Língua Portuguesa: Um Estudo em Categorização de Textos
【24h】

n-Gramas de Caractere como Técnica de Normalização Morfológica para Língua Portuguesa: Um Estudo em Categorização de Textos

机译:n字字符作为葡萄牙语的一种形态学归一化技术:文本分类研究

获取原文
获取原文并翻译 | 示例

摘要

This paper describes a study on text categorization using a character n-grams approach for the morphological normalization. In recent work, this approach has emerged as a way to simplify the normalization of terms. In our research, we compared this approach to the usual normalization methods of stemming and lemmatization. In our case study, we used a subset of the PLN-BR CATEG corpus and SMO classification algorithm from the Weka tool. The results show that the character n-gram approach is promising.%Este artigo descreve um estudo em categorização de textos que utiliza n-gramas de caractere como método de normalização morfológica. Em trabalhos recentes, essa abordagem tem surgido como umaforma de simplificar a normalização dos termos. Em nossa investigação, comparamos essa abordagem a métodos usuais de normalização como stemming e lematização. Em nossos casos de estudo, usamos um subconjunto do corpus em PLN-BR CATEG e o algoritmo de classificação SMO da ferramenta Weka. Os resultados obtidos mostram que a abordagem de n-grama por caractere é promissora.
机译:本文介绍了使用字符n元语法方法对文本进行形态归一化的文本分类研究。在最近的工作中,这种方法已经成为简化术语规范化的一种方法。在我们的研究中,我们将该方法与词干和词根化的常用归一化方法进行了比较。在我们的案例研究中,我们使用了来自Weka工具的PLN-BR CATEG语料库和SMO分类算法的子集。结果表明,字符n-gram方法是有前途的。%本文介绍了一种使用字符n-grams作为形态学归一化方法的文本分类研究。在最近的工作中,这种方法已经成为简化术语规范化的一种方法。在我们的调查中,我们将此方法与常用的归一化方法(例如词干和词干)进行了比较。在我们的案例研究中,我们使用了PLN-BR CATEG中的语料库子集和Weka工具的SMO分类算法。获得的结果表明,每字符n-gram方法很有希望。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号