首页> 中文学位 >基于语言特征的中文微博自杀意念检测方法研究
【6h】

基于语言特征的中文微博自杀意念检测方法研究

代理获取

目录

声明

1 绪论

1.1 研究背景及意义

1.2 国内外现状

1.2.1 自杀诱因研究现状

1.2.2 自杀诱因中的语言特征的研究现状

1.2.3 自杀意念检测研究现状

1.3 研究工作及贡献

1.4 本章小结

2 相关知识

2.1 逻辑回归

2.1.1Logistic Distribution

2.1.2 逻辑回归模型

2.1.3 模型参数估计

2.1.4 逻辑回归算法的特性与优缺点

2.2 支持向量机

2.2.1 感知机模型

2.2.2 线性可分支持向量机

2.2.3 线性支持向量机与软间隔最大化

2.2.4 非线性支持向量机与核函数

2.2.5 支持向量机的优缺点

2.3 朴素贝叶斯

2.4 随机森林

2.4.1 Bagging

2.4.2 随机森林

2.4.3 随机森林优缺点

2.5 本章小结

3 自杀词典

3.1 自杀词典的构建

3.2 词汇特征的量化

3.2.1 TF-IDF模型

3.2.2 词汇特征的量化

3.3 本章小结

4 词性特征

4.1 词性特征的构建

4.2 词性特征的量化

4.3 本章小结

5 实验与结果

5.1 数据预处理

5.1.1 数据清洗

5.1.2 数据标注

5.2 n-gram特征

5.2.1 原理

5.2.2 应用

5.3 实验工具

5.2 Python库

5.3 参数配置

5.3.1 逻辑回归参数配置

5.3.2 SVM参数配置

5.3.3 朴素贝叶斯参数配置

5.3.4 随机森林参数配置

5.3.5 参数对模型性能的影响

5.4 实验

5.4.1 提出假设

5.4.2 实验设置

5.4.3 模型评估方法

5.4.4 实验过程

5.5 实验结果与分析

5.5.1 不同算法下的模型评估

5.5.2 组间模型评估

5.6 本章小结

6 总结与展望

6.1 总结

6.2 展望

附录

1.极大似然估计法

1.1极大似然原理及其数学表述

1.2极大似然估计法

2.梯度下降法

2.1原理

2.2问题描述

2.3过程描述

2.4数学原理描述

2.5算法描述

3. 牛顿法

3.1原理

3.2算法描述

4. 凸二次规划问题

4.1二次规划

4.2凸二次规划问题求解

参考文献

攻读硕士学位期间发表的论文及所取得的研究成果

致谢

展开▼

摘要

自杀是导致当近人类死亡的三大因素之一。因此,自杀意念识别已刻不容缓。而传统的自杀意念检测方法大都基于n-gram特征,此后为提升模型检测的准确率,在原输入特征中加入了基于训练数据的自杀词典,但其所得模型的准确率仍不理想。 针对自杀意念识别准确率不理想的状况,建立一个可迁移性强的自杀词典,以该自杀词典与词性特征组成的语言特征为新式特征加入模型,以期提高模型的识别准确率。采用对比试验与控制变量的形式,将n-gra m特征、语言特征作为模型输入,以随机森林、逻辑回归、支持向量机和朴素贝叶斯算法构建分类模型,重点研究语言特征对原模型性能的影响。通过比较发现:语言特征对原模型性能的提升是显著的,在随机森林算法下,这种提升达到了20%左右。贡献:(1)本论文提供了一个领域内的、且可迁移性强的自杀词典;(2)提出了语言特征,并证明了语言特征对基于n-gra m特征与基于n-gra m特征和词典模型的性能有所提高;(3)试验了不同分类算法在n-gra m特征、词典特征、语言特征下的模型性能,为特征与算法的选择提供了一定的依据。

著录项

  • 作者

    许立鹏;

  • 作者单位

    中北大学;

  • 授予单位 中北大学;
  • 学科 软件工程
  • 授予学位 硕士
  • 导师姓名 宋文爱;
  • 年度 2019
  • 页码
  • 总页数
  • 原文格式 PDF
  • 正文语种 中文
  • 中图分类
  • 关键词

    语言特征; 中文; 自杀意念; 检测;

相似文献

  • 中文文献
  • 外文文献
  • 专利
代理获取

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号