Целью работы является создание и исследование методов учета коллокаций термов при формализации коллекций текстовых документов. Использование коллокаций в математических моделях текстов позволит повысить качество решения задач поиска и кластеризации на наборах текстовых документов. В работе предлагается модель коллокаций термов с учетом расстояния между ними. Под расстоянием понимается число слов, появившихся между термами, составляющими коллокацию, в текстовом документе. Методология исследования основывается на принципах теории нечетких множеств, теории информационного поиска и кластерного анализа. Результатом проведенных исследований стали: метод формализации коллокаций термов с учетом расстояния между ними, а также алгоритм их выявления в текстовых документах и оценки значимости. Предложенный метод заключается в формализации расстояния между термами в коллокаций посредством нечеткого числа и последующего построения коллокаций для документа с помощью математического аппарата теории нечетких множеств. В работе предложен алгоритм выявления значимых коллокаций в текстах на основе латентно-семантического анализа и теории нечетких множеств. Дополнительным достоинством предложенного алгоритма является получение естественной оценки значимости коллокации. Исследования, результаты которых представлены в статье, не касаются вопросов применения полученных коллокаций для поиска текстовых данных и кластеризации наборов текстовых документов.
展开▼