声明
致谢
1 引言
1.1 研究背景和意义
1.2 国内外研究现状
1.2.1 文本挖掘研究现状
1.2.2 铁路故障分析研究现状
1.3 研究内容以及研究框架
2 文本挖掘基础
2.1 文本分类
2.1.1 朴素贝叶斯分类模型
2.1.2 SVM 算法
2.1.3 KNN 算法
2.2 文本聚类
2.2.1 k-means 聚类
2.2.2 层次聚类
2.3 主题挖掘
2.4 本章小结
3 基于 MI-RFE 特征选择的铁路系统故障文本分类分析
3.1 总体框架
3.2 模型建立
3.2.1 数据预处理
3.2.2 特征提取方法
3.2.3 MI-RFE 特征选择方法
3.2.4 模型的评价指标
3.3 实验
3.3.1 数据来源
3.3.2 划分训练集和测试集
3.3.3 特征选择
3.3.4 实验结果
3.4 本章小结
4 基于 HCA+k-means聚类的铁路系统故障文本聚类分析
4.1 总体框架
4.2 模型建立
4.2.1 特征提取和特征选择
4.2.2 基于簇内误差平方和进行 k 值选取
4.2.3 基于层次聚类进行初始点选择
4.2.4 k-means 聚类
4.2.5 评价指标
4.3 实验
4.3.1 实验数据
4.3.2 实验结果
4.4 本章小结
5 基于 LDA主题模型的铁路系统故障文本主题挖掘与分析
5.1 总体框架
5.2 模型建立
5.2.1 基于困惑度进行 k 值选取
5.2.2 建立词频向量
5.2.3 LDA 主题模型的参数估计
5.2.4 热点主题选取
5.3 实验
5.3.1 基于困惑度进行 k 值选取
5.3.2 实验结果
5.4 本章小结
6 结论与展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
独创性声明
学位论文数据集
北京交通大学;