高次元ベクトル空間モデルによるテキスト分類問題について: 分類性能と距離構造の漸近解析

後藤　正幸; rn石田　崇; rn鈐木　誠; rn平澤　茂一

首页> 外文期刊>Optronics >高次元ベクトル空間モデルによるテキスト分類問題について: 分類性能と距離構造の漸近解析

【24h】

高次元ベクトル空間モデルによるテキスト分類問題について: 分類性能と距離構造の漸近解析

机译：基于高维向量空间模型的文本分类问题：分类性能及距离结构的渐近分析

获取原文

获取原文并翻译 | 示例

掌桥外文数据库（机构版） >>

开具论文收录证明 >>

文献代查 >>

页面导航

摘要
著录项
相似文献
相关主题

摘要

近年・インターネットの普及により膨大なテキストデータからの知識クモ見を扱うテキストマイニングの技法が注目されている・本研究では，テキストマイニングが取り扱う問題の中でも，特に文書分類の問題を取り上状形態素解析後の単語の出現分布としてある確率モデルのクラスを仮定し，文書分類の性能，並びに分類に用いられる距離について漸近rn的な分析を行う．一般に，文書分類に不必要な単語の混入を完全に排除することは難しく，様々な重要単語の重み付けrn法などが提案されている・本論文で扱う最初の問題は，このような分類に不必要な単語が混入することが，文書分類に与える性能劣化の程度を把握することである．さらには，単語の出現頻度に基づく文書分類においては，個々の単語の生起頻度は少なく，多くの単語の頻度がゼロとなってしまうというスパースネスの問題がある．すなわち，このベクトrnル空間上で一つの文書を表す点は，ゼロを多くの要素に持つベクトルで表現される．しかし，「このような状況で，文書同士の距離による分類がある程度の分類性能を示すのは何故か」という疑問については依然として経験的な解釈が与えrnられているのみである．その理論的根拠を与えるため，本稿では，各要素の出現頻度を有限に保ったまま，次元数を無限大とする新たな漸近論の概念を導入することにより，スパースな文書ベクトル間の拒離について解析的な性能を示す．%Problems associated with document classification, an important application of text mining of text data, are focused on in this paper. There have been many models and algorithms proposed for text classification; one of these is a technique using a vector space model. In these methods, a digital document is represented as a point in the vector space which is constructed by morphological analysis and counting the frequency of each word in the document. In the vector space model, the documents can be classified using the distance measure between documents. However, there are specific characteristics in the vector space model for document classification. Firstly, it is not easy to automatically remove unnecessary words completely. The existence of unnecessary words is one of the characteristics of the text mining problems. Secondly, the dimensions of the word vector space are usually huge in comparison to the number of words appearing in a document. Although the frequencies of words appearing in a document could be small in many cases, many kinds of such words with small frequency can usually be used to classify the documents. In this paper, we evaluate the performance of document classification in the case where unnecessary words are included in the word set. Moreover, the performance of the distance measure between documents in a large dimensional word vector space is analyzed. From the asymptotic results about the distance measure, we can provide an explanation of the fact given in many experiments that classification using the empirical distance between documents calculated via the cosine measure is not particularly bad. It is also suggested that the KL-divergence is not useful for text mining problems.

机译：近年来，由于互联网的普及，处理来自大量文本数据的知识蜘蛛的文本挖掘技术引起了人们的关注，在这项研究中，解决了文本挖掘所涉及的问题，尤其是处理文档分类问题并进行了形态形态分析。假设一类概率模型作为后继单词的出现分布，对文档分类的性能和分类距离进行渐近分析。通常，很难完全消除文档分类所不需要的单词，提出了针对重要单词的各种加权方法，本文提出的第一个问题是无法进行此类分类。包含必要的单词是为了了解影响文档分类的性能下降的程度。此外，在基于单词频率的文档分类中，存在稀疏性问题，其中单个单词的出现频率低并且许多单词的频率为零。即，在该向量空间中表示一个文档的点由具有多个零的向量表示。但是，问题“为什么基于这样的情况下显示出一定等级分类性能的文档之间的距离进行分类？”仅给出了经验解释。为了给出合理的解释，在本文中，我们引入了一种渐近理论的新概念，该概念使维数无限，同时保持每个元素的出现频率有限，从而稀疏文档向量之间的分离显示了的分析性能。本文重点研究与文本分类相关的问题，这是文本数据文本挖掘的重要应用，已经提出了许多用于文本分类的模型和算法;其中之一是使用向量空间模型的技术。方法是将数字文档表示为向量空间中的一个点，该点是通过形态分析并计算文档中每个单词的频率而构建的。在向量空间模型中，可以使用文档之间的距离度量对文档进行分类。向量空间模型具有用于文档分类的特定特征：首先，不容易完全自动删除不必要的单词，不必要单词的存在是文本挖掘问题的特征之一;其次，单词的维数向量空间通常比文档中出现的单词数量大，但是出现的频率在许多情况下，文档中的单词可能很小，通常可以使用许多此类频率不高的单词对文档进行分类。在本文中，我们评估了在单词中包含不必要单词的情况下文档分类的性能此外，还分析了在大维词向量空间中文档之间的距离度量的性能。从距离度量的渐近结果，我们可以解释许多实验中给出的事实，即使用之间的经验距离进行分类通过余弦测度计算出的文档并不是特别糟糕，也建议KL散度对于文本挖掘问题没有用。

著录项

来源
《Optronics》 |2010年第9期|p.97-106|共10页
作者
後藤　正幸; rn石田　崇; rn鈐木　誠; rn平澤　茂一;
展开▼
作者单位

早稲田大学　理工学術院;

rn早稲田大学　メディアネットワークセンター;

rn湘南工科大学　工学部;

rn早稲田大学理工学術院　サイバー大学IT総合学部;

展开▼
收录信息
原文格式 PDF
正文语种 jpn
中图分类
关键词
文書分類; テキストマイニング; 距離尺度; Term Frequency;

机译：文档分类;文本挖掘;距离度量;术语频率;

相似文献

外文文献
中文文献
专利

1. 高次元ベクトル空間モデルによるテキスト分類問題について:分類性能と距離構造の漸近解析 [J] . 後藤正幸, 石田崇, 鈴木誠, 日本経営工学会論文誌 . 2010,第3期

机译：基于高维向量空间模型的文本分类问题：分类性能及距离结构的渐近分析
2. 連載プログラミング未経験者のためのデータ解析·機械学習· 第6回k近傍法によるクラス分類とクラス分類モデルの推定性能の評価 [J] . 金子弘昌化学工学 . 2019,第12期

机译：序列化编程数据分析，为缺乏经验的个性，课程分类的机器学习，课程分类邻域和估计性能评估类别分类模型
3. 沖縄県宮古島市では、島嶼型スマートコミュニティ実証事業というプロジヱクト（以下：本プロジェクト）を進めている。本プロジェクトは、宮古島の気候や地形、地質などの自然的特性、本土や沖縄本島から遠く離れた離島に位置するという地理的特性、産業構造や市民性等の社会的特性などを前提に、エネルギーの使い方に着目し、島の特性における弱点を克服しながら、島ならではの優位性を最大限に活用して持続可能な社会システムの実現に挑戦する。IoTセキユリティガイドラインソver1.0 [J] . 渡邊　昇治総合電気雑誌 . 2017,第4期

机译：在冲绳县宫古岛市，我们正在推广一个名为智能岛社区示范项目的项目（以下简称该项目）。该项目基于宫古岛的自然特征，例如气候，地形和地质，位于远离大陆和冲绳本岛的偏远岛屿上的地理特征，以及工业结构和公民身份等社会特征。着眼于如何利用能源，克服岛屿特征上的弱点，我们将通过最大程度地提高岛屿的独特性来实现可持续的社会体系。物联网安全指南软件ver1.0
4. 難計測部をもつ空調設備 as-built 3 次元モデル構築のための最適スキャナ配置計画（第1報）不完全な SfM モデルに基づいた計測対象空間の空間占有状態分類手法 [C] . 脇坂英佑, 金井理, 伊達宏昭精密工学会大会学術講演会 . 2016

机译：空调零件建设的最佳扫描仪放置3D模型（第一报告）基于不完整SFM模型的测量目标空间的空间占用状态分类方法
5. スパイキングニューラルネットワークによる連想記憶モジュールとデジタルコンピュータ間のインターフェース利用統計は来月からご利用いただけます [D] . 豊島尚樹 2019

机译：下个月将提供使用尖峰神经网络的关联存储模块和数字计算机之间的接口使用情况统计信息。
6. リヤプノフベクトルによる多自由度カオスの解析(高次元位相空間の分布とダイナミクスの解析法,1998年度後期基礎物理学研究所研究会「モンテカルロ法の新展開」,研究会報告) [O] . 小西哲郎 2000

机译：用Lyapunov向量分析多自由度混沌（高维相空间的分布和动力学分析方法，1998年基础物理学研究组“蒙特卡洛方法的新发展”，研究报告）

高次元ベクトル空間モデルによるテキスト分類問題について: 分類性能と距離構造の漸近解析

摘要

著录项

相似文献

相关主题

期刊订阅