Метод формализации нечетких коллокаций на основе фаззификации расстояний между термами в текстах

Д. В. ПОЛЯКОВ; А. И. ЕЛИСЕЕВ; С. А. ДУЗЬКРЯТЧЕНКО

摘要

Целью работы является создание и исследование методов учета коллокаций термов при формализации коллекций текстовых документов. Использование коллокаций в математических моделях текстов позволит повысить качество решения задач поиска и кластеризации на наборах текстовых документов. В работе предлагается модель коллокаций термов с учетом расстояния между ними. Под расстоянием понимается число слов, появившихся между термами, составляющими коллокацию, в текстовом документе. Методология исследования основывается на принципах теории нечетких множеств, теории информационного поиска и кластерного анализа. Результатом проведенных исследований стали: метод формализации коллокаций термов с учетом расстояния между ними, а также алгоритм их выявления в текстовых документах и оценки значимости. Предложенный метод заключается в формализации расстояния между термами в коллокаций посредством нечеткого числа и последующего построения коллокаций для документа с помощью математического аппарата теории нечетких множеств. В работе предложен алгоритм выявления значимых коллокаций в текстах на основе латентно-семантического анализа и теории нечетких множеств. Дополнительным достоинством предложенного алгоритма является получение естественной оценки значимости коллокации. Исследования, результаты которых представлены в статье, не касаются вопросов применения полученных коллокаций для поиска текстовых данных и кластеризации наборов текстовых документов.

机译：这项工作的目的是创建和研究在正式收集文本文档时考虑词语搭配的方法。在文本的数学模型中使用并置将提高解决文本文档集上的搜索和聚类问题的质量。本文提出了一种考虑词语之间的距离的词语搭配模型。距离是指文本文档中并置词之间出现的单词数。研究方法基于模糊集理论，信息检索理论和聚类分析的原理。研究的结果是：一种考虑术语之间的距离使术语搭配正式化的方法，以及一种在文本文档中识别它们并评估其重要性的算法。所提出的方法包括通过模糊数形式化搭配词项之间的距离，然后使用模糊集理论的数学装置为文档构造搭配词。提出了一种基于潜在语义分析和模糊集理论的文本重要搭配识别算法。所提出的算法的另一个优点是获得搭配重要性的自然估计。该研究的结果已在本文中介绍，与使用获得的搭配搜索文本数据和文本文档的聚类集无关。

Метод формализации нечетких коллокаций на основе фаззификации расстояний между термами в текстах

摘要

著录项

相似文献

相关主题

期刊订阅