n-Gramas de Caractere como Técnica de Normalização Morfológica para Língua Portuguesa: Um Estudo em Categorização de Textos

机译：n字字符作为葡萄牙语的一种形态学归一化技术：文本分类研究

获取原文

获取原文并翻译 | 示例

页面导航

摘要
著录项
相似文献
相关主题

摘要

This paper describes a study on text categorization using a character n-grams approach for the morphological normalization. In recent work, this approach has emerged as a way to simplify the normalization of terms. In our research, we compared this approach to the usual normalization methods of stemming and lemmatization. In our case study, we used a subset of the PLN-BR CATEG corpus and SMO classification algorithm from the Weka tool. The results show that the character n-gram approach is promising.%Este artigo descreve um estudo em categorização de textos que utiliza n-gramas de caractere como método de normalização morfológica. Em trabalhos recentes, essa abordagem tem surgido como umaforma de simplificar a normalização dos termos. Em nossa investigação, comparamos essa abordagem a métodos usuais de normalização como stemming e lematização. Em nossos casos de estudo, usamos um subconjunto do corpus em PLN-BR CATEG e o algoritmo de classificação SMO da ferramenta Weka. Os resultados obtidos mostram que a abordagem de n-grama por caractere é promissora.

机译：本文介绍了使用字符n元语法方法对文本进行形态归一化的文本分类研究。在最近的工作中，这种方法已经成为简化术语规范化的一种方法。在我们的研究中，我们将该方法与词干和词根化的常用归一化方法进行了比较。在我们的案例研究中，我们使用了来自Weka工具的PLN-BR CATEG语料库和SMO分类算法的子集。结果表明，字符n-gram方法是有前途的。％本文介绍了一种使用字符n-grams作为形态学归一化方法的文本分类研究。在最近的工作中，这种方法已经成为简化术语规范化的一种方法。在我们的调查中，我们将此方法与常用的归一化方法（例如词干和词干）进行了比较。在我们的案例研究中，我们使用了PLN-BR CATEG中的语料库子集和Weka工具的SMO分类算法。获得的结果表明，每字符n-gram方法很有希望。

著录项

来源
《X Brazilian symposium in information and human language technology and collocated events》|2015年|211-220|共10页
会议地点 Natal(BR)
作者
Guilherme T. Guimarães; Marcus V. Meirose; Sílvia M. W. Moraes;
展开▼
作者单位

Faculdade de Informática Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) Caixa Postal 1429- 90619-900 - Porto Alegre - RS - Brazil;

Faculdade de Informática Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) Caixa Postal 1429- 90619-900 - Porto Alegre - RS - Brazil;

Faculdade de Informática Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) Caixa Postal 1429- 90619-900 - Porto Alegre - RS - Brazil;

展开▼
会议组织
原文格式 PDF
正文语种 por
中图分类
关键词

相似文献

外文文献
中文文献
专利

1. A comunica??o dialógica como fator determinante para os processos de ensino-aprendizagem que ocorrem na capacita??o rural: um estudo de caso em um órg?o público de extens?o localizado no interior do Estado de S?o Paulo [J] . Luís Fernando Soares Zuin, Miguel Alejandro Díaz Manrique, Poliana Bruno Zuin Ciência Rural . 2011,第5期

机译：对话交流是农村培训中学习过程的决定因素：以圣保罗州内部的公共推广机构为例
2. Classifica??o da Organiza??o Mundial de Saúde para as neoplasias dos tecidos hematopoiético e linfóide: proposta de padroniza??o terminológica em língua portuguesa do grupo de hematopatologia da Sociedade Brasileira de Patologia [J] . Ant?nio Correia Alves, Fernando Soares, José C. Moraes, Jornal Brasileiro de Patologia e Medicina Laboratorial . 2002,第3期

机译：世界卫生组织对造血和淋巴组织肿瘤的分类：巴西病理学会血液病理学小组葡萄牙语术语标准化建议
3. El patrimonio cultural del área metropolitana de Mendoza (Argentina): Propuestas metodológicas para su evaluación como recurso en proyectos de desarrollo local↓O património cultural da regi?o metropolitana de Mendoza (Argentina): Propostas metodológicas para a avalia??o como um recurso em projetos de desenvolvimiento local [J] . Raffa Cecilia, Cirvini Silvia Augusta Apuntes: Revista de Estudios sobre Patrimonio Cultural - Journal of Cultural Heritage Studies . 2010,第2期

机译：门多萨（阿根廷）大都市区的文化遗产：在地方发展项目中作为资源评估的方法学建议↓门多萨（阿根廷）大都市区的文化遗产：阿瓦利亚的方法论建议？或作为资源在地方发展项目中
4. n-Gramas de Caractere como Técnica de Normaliza??o Morfológica para Língua Portuguesa: Um Estudo em Categoriza??o de Textos [C] . Guilherme T. Guimar?es, Marcus V. Meirose, Sílvia M. W. Moraes Brazilian Symposium in Information and Human Language Technology . 2015

机译：作为葡萄牙语的形态标准化技术的n-grams特征：文本分类研究
5. Contributos Para Uma reflex?o Sobre Manuais De português Como língua Estrangeira e a Sua adequa??o a Contextos Culturais específicos–Um Estudo Com Aprendentes Chineses =Contributions to a Reflection on Portuguese as a Foreign Language Textbooks and thei [D] . Silva Matos, Maria Isabel. 2020

机译：对葡萄牙手册作为外语反思的贡献及其对特定文化背景的适合性 - 中国学习者的研究=对葡萄牙语思考的贡献外语教科书和THI
6. Síndrome do Bloqueio de Ramo Esquerdo Doloroso em Paciente Encaminhada para Estudo Eletrofisiológico: Um Relato de Caso [O] . José Nunes de Alencar Neto, Marcel Henrique Sakai, Saulo Rodrigo Ramalho de Moraes, 2020

机译：患者疼痛的左分支综合征提及电生理学研究：案例报告
7. LITERATURAS AFRICANAS DE LÍNGUA PORTUGUESA NO ENSINO MÉDIO: UM RELATO DA RECEPÇÃO DO POEMA DO AUTOR CRAVEIRINHA, COMO SUBSÍDIO PARA O ESTUDO DA HISTÓRIA E DOS PROCESSOS IDENTITÁRIOS EM MOÇAMBIQUE [O] . Altair Sofientini Ciecoski, Amarildo Bertasso 2020

机译：高中葡萄牙语的非洲文献：讲述作者Cavaveirinha诗歌的陈述，作为莫桑比克历史和身份过程研究的补贴

n-Gramas de Caractere como Técnica de Normalização Morfológica para Língua Portuguesa: Um Estudo em Categorização de Textos

摘要

著录项

相似文献

相关主题

期刊订阅