首页> 中国专利> 基于方面情感分析的公司员工评论分析系统与方法

基于方面情感分析的公司员工评论分析系统与方法

摘要

本发明公开了一种基于方面情感分析的公司员工评论分析系统,数据采集模块连接数据库,数据预处理模块用于对数据采集模块采集到的数据进行预处理,特征提取模块连接数据预处理模块,对预处理后的公司员工评论数据进行特征提取;算法处理模块连接特征提取模块,根据提取的特征计算评论数据中不同方面的相对权重,并根据员工对公司的总体评分,给出修正后的该公司每个方面评分,结果展示模块连接算法处理模块,用于结果的展示。本发明系统可以处理从职场社区网站上爬取的在线数据,具有实时性和可靠性,将员工评论的整体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重,从而根据总体评分,修正各个方面评分。

著录项

  • 公开/公告号CN112966070A

    专利类型发明专利

  • 公开/公告日2021-06-15

    原文格式PDF

  • 申请/专利权人 杭州师范大学;

    申请/专利号CN202110151221.9

  • 发明设计人 潘潇;任卓明;

    申请日2021-02-03

  • 分类号G06F16/33(20190101);G06F16/951(20190101);G06F16/9535(20190101);G06F40/284(20200101);G06F40/289(20200101);

  • 代理机构33240 杭州君度专利代理事务所(特殊普通合伙);

  • 代理人朱月芬

  • 地址 311121 浙江省杭州市余杭区仓前街道海曙路58号

  • 入库时间 2023-06-19 11:26:00

说明书

技术领域

本发明属于方面观点挖掘领域,具体涉及一种基于方面情感分析的公司员工评论分析系统与方法。

背景技术

随着Web2.0技术的出现和发展,越来越多的人可以自由地对产品和服务等各种实体发表意见,这些评论对于其他用户做出明智的决定以及对商家/公司进行自我改善、稳健发展都有着很重要的作用。为了更好的促进公司本身的发展,为公司生成基于方面情感的嵌入,构成来源于公司员工不同方面的意见,并且为公司明确自身的不足和优势,对公司进行自定义排名给求职者提供了数据参考。

员工对公司的评价数量每天以指数级的速度增长,以至于求职者越来越难以浏览众多员工对公司的评论以找到所需的有效信息。并且,面对着现有的无数公司,求职者对它们进行自定义排名并从中选择一个符合自己需求的企业是一项艰巨繁琐的任务。因此如何采用计算机来自动并准确地分析这些评论,成为了当今社会的研究热点。在现有的技术中,基于语言模式和深度学习是情感分析的前沿方法,而方面情感分析(ABSA)的主要挑战来自于识别方面以及其对应的情感。其中,方面情感分析:一般称作Aspect Based SentimentAnalysis。旨在识别一条句子中一个指定方面(Aspect)的情感极性。常见的有:在电商网站的一条评论中有涉及到关于价格、服务、售后等方面的评价,所以需要区分各自方面的情感倾向。

尽管围绕电影,音乐,酒店等主题进行的方面情感分析已经完成了相当数量的工作,然而这项工作(即通过研究可靠的员工评论——包含文本数据与数值数据,为公司生成基于方面情感的嵌入,构成公司员工不同方面的意见)还是比较少见。

发明内容

针对现有技术中存在的不足,本发明提供了一种基于方面情感分析的公司员工评论分析系统与方法,可以得到更加全面的公司员工评论分析结果,从而帮助公司自身更好的发展,以及求职者可对公司进行自定义排名选择公司。

本发明的技术方案如下:

一种基于方面情感分析的公司员工评论分析系统,包括数据库、数据采集模块、数据预处理模块、特征提取模块、算法处理模块和结果展示模块:

所述的数据采集模块连接数据库,所述的数据预处理模块用于对数据采集模块采集到的数据进行预处理,特征提取模块连接数据预处理模块,对预处理后的公司员工评论数据进行特征提取;算法处理模块连接特征提取模块,根据提取的特征计算评论数据中不同方面的相对权重,并根据员工对公司的总体评分,给出修正后的该公司每个方面评分,所述的结果展示模块连接算法处理模块,用于结果的展示。

数据采集模块,用于采集职场社区网站上不同公司员工的匿名评论数据,并且按公司分类分别存入数据库,所述评论数据包括公司名称、员工对公司的文本评论,员工对公司的总体评价等级以及员工对公司“各个方面的评价等级”。

所述的“各个方面”包括:“工作与生活平衡”、“文化与价值观”、“高级管理层”、“职业机会”和“薪酬与福利”。

数据预处理模块,用于对采集到的公司员工评论数据进行预处理:首先将收集到的数据集分为两类数据,第一类数据为:文本数据,包括公司名称和员工对公司的文本评论,第二类数据为:数值数据,包括员工对公司的总体评价等级和员工对公司“各个方面的评价等级”,然后对评论数据进行预处理操作。

所述的特征提取模块通过特征提取算法对预处理后的公司员工评论数据进行特征提取,为每个方面获取更多的相关词,得到字词特征向量和方面级向量,最终将文本数据转化为数字形式表述。

算法处理模块,内含算法模型,用于将给定员工评论的总体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重。

结果展示模块,用于向用户(含求职者、公司自身)展示最终的计算分析结果以及系统运行状况。

进一步的,所述的数据采集模块的数据获取的方式包括网络爬虫、API接口、数据源三种方式。由于本发明所选用的职场社区网站未提供API接口,故所述的数据采集模块采用爬虫相关技术来获取数据。由于采用直接请求的方式参数过多,比较难以伪造,所以该模块采用模拟浏览器来获取数据,并且浏览器方式比较通用。具体步骤如下:

(1)申请账号;

(2)模拟登录,得到Cookie;

(3)把Cookie放到模拟浏览器的请求头;

(4)模拟鼠标点击页面,然后将获取的数据存进数据库。

所述的数据预处理模块的预处理操作具体如下:

(1)将文本数据中的单词全转换为小写;

(2)删除文本数据中的标点符号,STOPWORDS中定义的停用词以及在语料库中出现少于5次的术语;

(3)用英文分词算法(即Porter Stemmer)从英语单词中抽取词的词干或词根形式,实现术语标准化。

(4)将数值数据中的非数值数据补为NaN值,接着将其统一填充为0。

所述的特征提取模块则是在文本数据完成数据预处理之后,根据公司员工对公司“各个方面的评价等级”,设定关键词对各个方面进行描述,接着采用特征提取算法将评论中的句子映射为与每个方面相对应的子集,以此来为每个方面获取更多的相关词。在完成特征提取之后,对于每个评论,都有一个词频矩阵,该矩阵给出每个方面的归一化词频;矩阵的每一行是一个词的词向量,每一列是一个方面级向量。

所述的算法处理模块中的算法模型可以为Attention机制、Bert、CNN、LRR(LatentRating Regression)、LSTM(Long Short-Term Memory)或RNN(Recurrent NeuralNetwork)。

考虑到数据集庞大,为了减少人工标注,以下采用的是LRR模型,给定评论中观察到的总体评分的概率公式为:

其中,r

通过结果展示模块显示用户选取公司的员工评论内容,并将当前的计算结果中的每个方面评分取平均值,然后将该公司的总体评分、各方面评分显示在Web页面上。

一种基于方面情感分析的公司员工评论分析方法,包括以下步骤:

步骤(1)、通过数据采集模块从职场社区网站采集不同公司员工评论数据并按公司分类分别存入数据库,采集的数据包括公司名称、员工对公司的文本评论,员工对公司的总体评价等级以及员工对公司“各个方面的评价等级”;

步骤(2)、数据预处理模块读取数据库中的数据进行预处理,首先将读取的数据分为文本数据和数值数据,文本数据,包括公司名称和员工对公司的文本评论;数值数据,包括员工对公司的总体评价等级和员工对公司“各个方面的评价等级”,然后对评论数据进行预处理操作。

所述的预处理操作包括数据单词转换为小写、去停用词、添加用户词典以及英文分词;

步骤(3)、通过特征提取模块对预处理后的数据用特征提取算法进行特征提取,为每个方面获取更多的相关词,并且得到字词特征向量和方面级向量;

步骤(4)、利用算法处理模块中的模型将给定员工评论的整体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重,并根据员工对公司的总体评分r

步骤(5)、通过结果展示模块将得到将当前的计算结果中的每个方面评分取平均值,然后将该公司的总体评分、各方面评分显示在Web页面上。

本发明有益效果如下:

本发明方面情感分析的公司员工评论分析系统,可以处理从职场社区网站上爬取的在线数据,具有实时性和可靠性,而且通过特征提取算法挖掘更多的方面种子词汇,通过模型将员工评论的整体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重,从而根据总体评分,修正各个方面评分。为了方便用户(含求职者、公司自身)的可读性,本发明还提供了友好的界面展现及交互平台,如此能够有效地提高用户之间有数据依据的交互。

附图说明

图1为本发明实施例的工作流程图;

图2为本发明实施例的模块结构图;

图3为本发明实施例中网络爬虫的流程示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。

如图1所示,是本发明公司员工评论分析系统较佳实施例的工作流程图。

步骤1,数据采集并且存储:

数据采集模块通过分布式无头浏览器网络的爬虫方式,从职场社区网站上采集不同公司员工的匿名评论数据,即公司员工评论数据;并按公司分类分别存入MongoDB数据库。所述的公司员工评论数据包括公司名称、员工对公司的文本评论,员工对公司的总体评价等级以及员工对公司“各个方面的评价等级”。

如图3所示,分布式无头浏览器网络爬虫利用IP代理池和无头浏览器集群实现爬取职场社区网站上不同公司员工的评论数据。IP代理池通过爬取多个网站免费代理存入Redis数据库,定期检测免费代理的可用性,将需要爬取的公司链接URL存入Redis。无头浏览器集群从Redis拉取请求,模拟浏览器点击翻页等操作,监听员工评论API请求获取评论数据存入数据库中。无头浏览器爬虫相对于传统爬虫减少逆向JS,破解网站加密等操作,更适用于新手操作,分布式相对于单节点加快了数据爬取速度。

步骤2,数据预处理:

数据预处理模块,通过读取MongoDB数据库中的数据,获取公司员工评论数据。首先将收集到的数据分为文本数据和数值数据;接着评论数据进行预处理操作:

首先将文本数据中的单词全转换为小写;然后删除文本数据中的标点符号,STOPWORDS中定义的停用词以及在语料库中出现少于5次的术语;再用英文分词算法(即Porter Stemmer)从英语单词中抽取词的词干或词根形式,实现术语标准化。最后将数值数据中的非数值数据补为NaN值,接着将其统一填充为0。

步骤3,特征提取:

通过特征提取模块对预处理后的数据进行特征提取。具体而言:根据公司员工对公司“各个方面的评价等级”,设定关键词来描述各个方面,接着采用特征提取算法将评论中的句子映射为与每个方面相对应的子集,以此来为每个方面获取更多的相关词。在完成特征提取之后,对于每个评论,都有一个词频矩阵,该矩阵给出每个方面的归一化词频;矩阵的每一行是一个词的词向量,每一列是一个方面级向量。

所述的特征提取算法采用自引导算法Boot-strapping。

步骤4,数据分析:

通过算法处理模块对上述特征提取后的数据利用LRR模型进行处理。具体而言:通过LRR模型,系统将员工评论的整体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重。

给定评论中观察到的总体评分的概率公式为:

其中,r

步骤5,Web数据展示:

通过结果展示模块将处理好的数据结果通过界面呈现。方便求职者和公司更为清楚的了解数据结果,通过ECharts实现图表的形式呈现在界面上。

如图2所示,本发明基于方面情感分析的公司员工评论分析系统一种基于方面情感分析的公司员工评论分析系统,包括数据库、数据采集模块、数据预处理模块、特征提取模块、算法处理模块和结果展示模块:

所述的数据采集模块连接数据库,所述的数据预处理模块用于对数据采集模块采集到的数据进行预处理,特征提取模块连接数据预处理模块,对预处理后的公司员工评论数据进行特征提取;算法处理模块连接特征提取模块,根据提取的特征计算评论数据中不同方面的相对权重,并根据员工对公司的总体评分,给出修正后的该公司每个方面评分,所述的结果展示模块连接算法处理模块,用于结果的展示。

数据采集模块,通过爬虫技术在职场社区网站上获取不同公司员工的在线评论数据。

数据预处理模块用于对收集到的数据集进行预处理。在预处理之前,首先将收集到的数据集分为两类数据,第一类数据为:文本数据,第二类数据为:数值数据;接着对文本数据执行文本分词,停用词过滤,句法分析等预处理操作。

特征提取模块用于对上述预处理后的数据进行特征提取以得到特征量。该模块采用自引导算法(即Boot-strapping)作为特征提取算法,具体操作如下:基于公司员工对公司“各个方面的评价等级”,设定关键词来描述各个方面。接着将所述文本数据以条为单位,采用特征提取算法将评论中的句子映射为与每个方面相对应的子集,如此对提出的种子词汇进行扩充。在完成特征提取之后,对于每个评论,都有一个词频矩阵,该矩阵给出每个方面的归一化词频;矩阵的每一行是一个词的词向量,每一列是一个方面级向量。

算法处理模块,内含算法模型,用于将给定员工评论的总体评分分解为不同方面的评分,并计算出员工对这些方面的相对权重。

算法处理模块中的算法模型可以为Attention机制、Bert、CNN、LRR(LatentRating Regression)、LSTM(Long Short-Term Memory)或RNN(Recurrent NeuralNetwork)。

结果展示模块用于用户(含求职者、公司自身)对结果的认识,通过不同的结果的展示,更全面的了解公司员工评论的分析结果内容。将处理好的数据结果通过图表的形式呈现在界面上,所述的图表包括公司员工对公司各方面情感分析折线图、词云图以及修正后的公司员工各方面评分统计图;从而方便用户(含求职者、公司自身)更清楚的了解数据结果。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号