首页> 外文期刊>Optronics >高次元ベクトル空間モデルによるテキスト分類問題について: 分類性能と距離構造の漸近解析
【24h】

高次元ベクトル空間モデルによるテキスト分類問題について: 分類性能と距離構造の漸近解析

机译:基于高维向量空间模型的文本分类问题:分类性能及距离结构的渐近分析

获取原文
获取原文并翻译 | 示例
           

摘要

近年・インターネットの普及により膨大なテキストデータからの知識クモ見を扱うテキストマイニングの技法が注目されている・本研究では,テキストマイニングが取り扱う問題の中でも,特に文書分類の問題を取り上状形態素解析後の単語の出現分布としてある確率モデルのクラスを仮定し,文書分類の性能,並びに分類に用いられる距離について漸近rn的な分析を行う.一般に,文書分類に不必要な単語の混入を完全に排除することは難しく,様々な重要単語の重み付けrn法などが提案されている・本論文で扱う最初の問題は,このような分類に不必要な単語が混入することが,文書分類に与える性能劣化の程度を把握することである.さらには,単語の出現頻度に基づく文書分類においては,個々の単語の生起頻度は少なく,多くの単語の頻度がゼロとなってしまうというスパースネスの問題がある.すなわち,このベクトrnル空間上で一つの文書を表す点は,ゼロを多くの要素に持つベクトルで表現される.しかし,「このような状況で,文書同士の距離による分類がある程度の分類性能を示すのは何故か」という疑問については依然として経験的な解釈が与えrnられているのみである.その理論的根拠を与えるため,本稿では,各要素の出現頻度を有限に保ったまま,次元数を無限大とする新たな漸近論の概念を導入することにより,スパースな文書ベクトル間の拒離について解析的な性能を示す.%Problems associated with document classification, an important application of text mining of text data, are focused on in this paper. There have been many models and algorithms proposed for text classification; one of these is a technique using a vector space model. In these methods, a digital document is represented as a point in the vector space which is constructed by morphological analysis and counting the frequency of each word in the document. In the vector space model, the documents can be classified using the distance measure between documents. However, there are specific characteristics in the vector space model for document classification. Firstly, it is not easy to automatically remove unnecessary words completely. The existence of unnecessary words is one of the characteristics of the text mining problems. Secondly, the dimensions of the word vector space are usually huge in comparison to the number of words appearing in a document. Although the frequencies of words appearing in a document could be small in many cases, many kinds of such words with small frequency can usually be used to classify the documents. In this paper, we evaluate the performance of document classification in the case where unnecessary words are included in the word set. Moreover, the performance of the distance measure between documents in a large dimensional word vector space is analyzed. From the asymptotic results about the distance measure, we can provide an explanation of the fact given in many experiments that classification using the empirical distance between documents calculated via the cosine measure is not particularly bad. It is also suggested that the KL-divergence is not useful for text mining problems.
机译:近年来,由于互联网的普及,处理来自大量文本数据的知识蜘蛛的文本挖掘技术引起了人们的关注,在这项研究中,解决了文本挖掘所涉及的问题,尤其是处理文档分类问题并进行了形态形态分析。假设一类概率模型作为后继单词的出现分布,对文档分类的性能和分类距离进行渐近分析。通常,很难完全消除文档分类所不需要的单词,提出了针对重要单词的各种加权方法,本文提出的第一个问题是无法进行此类分类。包含必要的单词是为了了解影响文档分类的性能下降的程度。此外,在基于单词频率的文档分类中,存在稀疏性问题,其中单个单词的出现频率低并且许多单词的频率为零。即,在该向量空间中表示一个文档的点由具有多个零的向量表示。但是,问题“为什么基于这样的情况下显示出一定等级分类性能的文档之间的距离进行分类?”仅给出了经验解释。为了给出合理的解释,在本文中,我们引入了一种渐近理论的新概念,该概念使维数无限,同时保持每个元素的出现频率有限,从而稀疏文档向量之间的分离显示了的分析性能。本文重点研究与文本分类相关的问题,这是文本数据文本挖掘的重要应用,已经提出了许多用于文本分类的模型和算法;其中之一是使用向量空间模型的技术。方法是将数字文档表示为向量空间中的一个点,该点是通过形态分析并计算文档中每个单词的频率而构建的。在向量空间模型中,可以使用文档之间的距离度量对文档进行分类。向量空间模型具有用于文档分类的特定特征:首先,不容易完全自动删除不必要的单词,不必要单词的存在是文本挖掘问题的特征之一;其次,单词的维数向量空间通常比文档中出现的单词数量大,但是出现的频率在许多情况下,文档中的单词可能很小,通常可以使用许多此类频率不高的单词对文档进行分类。在本文中,我们评估了在单词中包含不必要单词的情况下文档分类的性能此外,还分析了在大维词向量空间中文档之间的距离度量的性能。从距离度量的渐近结果,我们可以解释许多实验中给出的事实,即使用之间的经验距离进行分类通过余弦测度计算出的文档并不是特别糟糕,也建议KL散度对于文本挖掘问题没有用。

著录项

相似文献

  • 外文文献
  • 中文文献
  • 专利
获取原文

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号