【24h】

SegGen: a Genetic Algorithm for Linear Text Segmentation

机译:SegGen:用于线性文本分割的遗传算法

获取原文

摘要

This paper describes SegGen, a new algorithm for linear text segmentation on general corpuses. It aims to segment texts into thematic homogeneous parts. Several existing methods have been used for this purpose, based on a sequential creation of boundaries. Here, we propose to consider boundaries simultaneously thanks to a genetic algorithm. SegGen uses two criteria: maximization of the internal cohesion of the formed segments and minimization of the similarity of the adjacent segments. First experimental results are promising and SegGen appears to be very competitive compared with existing methods.
机译:本文介绍了SegGen,这是一种用于对通用语料库进行线性文本分割的新算法。它的目的是将文本分成主题相同的部分。基于边界的顺序创建,已将几种现有方法用于此目的。在这里,由于遗传算法,我们建议同时考虑边界。 SegGen使用两个标准:形成的片段的内部凝聚力最大化和相邻片段的相似性最小化。最初的实验结果令人鼓舞,与现有方法相比,SegGen似乎具有很高的竞争力。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号