首页> 中国专利> 基于社交网络分析的组织健康评估方法

基于社交网络分析的组织健康评估方法

摘要

本发明公开了基于社交网络分析的组织健康评估方法,利用组织之线上社群的社交网络大数据,建立基于社会网络分析的大数据指标体系,以定量数据的扎根真相作为标签,训练、建立、解释并修正组织健康预测模型,通过该预测模型的运用,用户可以了解到组织的健康情况,也能够通过该系统生成可视化网络结构图和评估数据实现更细化的组织健康管理。同时,用户的使用过程使得系统能够收集更加丰富的大数据,意味着更多的数据训练样本,使得模型能够不断更新迭代,实现更为精准、自动化的组织健康状况评估,极大地提升组织健康评估的效率和稳定性,有利于组织通过评估结果发现问题,实现可持续发展。

著录项

  • 公开/公告号CN112860973A

    专利类型发明专利

  • 公开/公告日2021-05-28

    原文格式PDF

  • 申请/专利权人 罗家德;

    申请/专利号CN202110092189.1

  • 发明设计人 罗家德;

    申请日2021-01-23

  • 分类号G06F16/953(20190101);G06Q50/00(20120101);

  • 代理机构32402 江苏海越律师事务所;

  • 代理人唐小红

  • 地址 100000 北京市海淀区清华东16楼1单元406

  • 入库时间 2023-06-19 11:08:20

说明书

技术领域

本发明属于信息技术领域中的社交网络数据计算与分析,将用户授权的社 交网络电子化印迹数据与其相关联的组织信息匹配,通过机器学习建立组织健 康的预测模型,具体技术有社会网络分析法、有监督机器学习以及预测模型的 解释与修正。

背景技术

纵观当前技术发展状况和各地已开展的实践,线上沟通软件(如微信、QQ、 钉钉等)已然是主流的社交方式和工作手段,正在人们的生活和工作情境发挥着 越来越重要的作用,大多数组织都会建立专属线上社群,实现线上的交流与互动, 尽管在虚拟环境下成员间的交流行为可能会与现实中的互动存在差异,但成员的 表达意愿和交流行为依然受到其在组织中的身份、与其他成员关系的影响,所以 在一定程度上,组织本身的网络结构与其线上社群的信息沟通网络是相匹配的。 但是,如何匹配,什么样类型的组织会有何种网络结构特征,目前还没有得到具 体的说明。

组织之间有着各异的结构特征,但在先前社交网络媒体不够发达时,无法很 好地观察到组织本身的结构。并且,组织在每一阶段都呈现出不同的发展形态, 传统研究中往往只能收集到某一阶段的资料,无法观察组织的演化过程,判断组 织的发展情况,组织的社交网络大数据能否为观察组织动态演化过程提供新的证 据有待进一步探索。

目前中国的组织评估对组织的健康问题关注不够,对于企业、工作团队、社 会组织、社区组织、楼组等类型的组织,多关注其产生的效能,缺乏以组织发展 本身为目的的评估方法。由于对组织健康的关注不够,当前对于形态不同、发展 程度不同的各类组织的评估标准和管理手段都较为单一,不同发展阶段的组织在 事实上需要不同的培育方式和激励机制,如果不能在适当的时点加以适当的措 施,则组织无法可持续发展。并且,当前对于组织的评估还以传统的评估方式为 主,依赖大量的人力、物力资源,尚未形成完整有效的基于大数据资料收集的组 织健康评估指标体系。当前的大数据分析中,大部分预测模型仅仅关注预测效果, 而没有综合考虑到领域知识对模型的修正和模型的可解释性,尤其在本发明应用 场景中,虽然可以建立相关预测模型,如果不对预测模型进行可解释性的分析,那就无法回答具有哪些特征的组织是健康的,怎样改善组织健康,也无法进一步 改进和提高预测模型的准确率。

因此,本发明将基于对用户相关联组织的社交网络大数据的收集,建立组织 健康评估的大数据指标体系,并发展组织健康评估的预测模型。实现对组织健康 状况的评估,并使得企业、工作团队、社会组织等各类组织能够据此进行组织的 健康管理。

本发明技术背景如下:

社会网络分析,社会网络分析自20世纪90年代以来得到了非常广泛的应用, 扩展到多个领域,从传统的小群体关系,如社会支持网,到企业的创新网络,甚 至扩展到对于大的世界体系格局的研究。社会网络分析中的整体网能较为明晰地 展现出组织、网络成员的整体关系结构。近年来,有大量的数据表明社会网络模 型应该是“小世界”模型,在小世界网络中,即使少量连接的变动也会引起网络 特征的剧变,因而考察小世界网络的相关指标也对社会网络研究有着重要意义。

有监督机器学习,有监督学习是机器学习中的一种方法,使用有标签的训练 数据来训练模型,并使用模型与新数据一起使用以验证模型的准确性。流行的有 监督学习方法有支持向量机(SVM)、概率分类器、决策树(Decision Tree)、 logistic回归、随机森林(Random Forest)算法和集成算法梯度提升树模型 (Gradient Boosting Classifier)和XGboost等,有监督机器学习能够生成精 度较高的预测模型。

预测模型的解释与修正,目前,SHAP或what if tool等为预测模型的可解 释性提供了良好的工具,该模型可以解决计算预测模型中特征重要性、回溯每个 样本的预测过程中的决策路径,同时可获取样本预测错误是由于哪些特征引起的, 样本中存在哪些异质性等,通过这些分析结果,结合分析人员的领域知识,可以 对于预测指标、算法等进行改进最终提高预测模型的准确率,同时得到的特征重 要性也可以为后续想要获得更高的健康评分的组织提供决策支持和建议。

发明内容

发明目的:本发明主要是利用组织的社交网络数据来评估组织的健康状况, 即对于不同类型的组织什么样的组织结构有利于其发展,建立在社会网络分析法 之上,将组织自身结构作为其评估依据;本发明旨在将当下丰富的社交网络大数 据转化为详尽、细致的评估指标,克服传统评估耗费资源的弊端,形成高效、便 捷的评估形式;力图使用SHAP对预测模型进行可解释性的分析,根据分析结果, 结合样本预测的混淆矩阵,对预测错误的样本继续进行分析,找到错误原因,对 于特征和算法等进行改进,结合领域知识,加入更多有意义的指标,最终对模型 进行修正,同时分析得到的特征重要性等结果也可用于组织后续提高自身健康评 分提供更多决策支持和建议;本发明将根据计算出的组织结构和相关指标,形成 对组织结构与健康程度的评估,从而使相关方能有的放矢地进行健康管理与培育,进而实现组织的可持续发展。

本发明是一套结合社交网络大数据、社会网分析方法与机器学习的组织健康 评估系统,旨在解决当前缺乏对组织健康评估的方法、尚未形成基于大数据资料 收集的组织健康评估指标、无法回答健康的组织有何特征等问题。

基于社交网络分析的组织健康评估方法,具体技术方案如下:

本发明主要分为三大模块,第一部分为数据收集模块,第二部分为数据分析 模块,第三部分为用户使用模块,三者之间的关系为数据收集模块为数据分析模 块提供数据与扎根真相,数据分析模块为用户使用模块提供大数据指标体系和可 推论的预测模型,用户使用模块通过用户上传后的社交网络数据来计算大数据指 标,将其输入训练好的预测模型中,得到对组织健康程度的预测,并形成指标计 算结果和组织网络可视化结构图。

其中,数据收集模块具体包括大数据与扎根真相匹配模块,数据分析模块具 体包括大数据指标计算模块、预测模型训练模块、预测模型可解释模块。用户使 用模块主要包括组织健康评估、组织健康管理应用模块。

数据收集模块是经过用户授权,一方面以问卷调查收集扎根真相,另一方面 与其在社交软件中的社交网络大数据进行匹配。最初的扎根真相来自于对组织的 培育方、资源提供方及其他相关方的定量调查,被访者需要将项目内所有组织在 问卷中针对组织的健康程度、人员状况、成立时间等相关问题进行填写,最终将 被访者所填写的实际组织与组织之线上社群唯一ID进行匹配。

数据分析模块中的大数据指标计算模块,主要负责大数据中的相关各类指标 以及最终形成大数据指标体系。其中指标主要分为活跃程度、成员分布、整体结 构、小团体、集权度共五类。

其中活跃程度通过社群人数、总发言数量、成员平均发言数量来表征;成员 分布以群内未与他人互动/与他人互动的成员数量,以及有发言的成员数量来表 征;整体结构以互动网络的密度、群体中心性、群体中介性、小世界聚集系数q、 小世界模型可调参数α来表征;小团体以发言数量排名在群内靠前的成员形成的 互动网络的密度、E-I index以及网络内部连通图数量来表征;集权度以发言数 量排名在群内靠前的成员形成的互动网络的群体中心性来表征。

以上五类指标除活跃程度外,后四类指标的计算均要通过计算成员之间的互 动程度来实现,互动程度有两种维度:(1)一成员@另一成员视为两个成员之间 的一次互动;(2)一成员在以15秒内回复另一成员视为一次互动。因此后四类 指标会在两种维度下计算出不同的结果。

后四类指标实际上就是社会网指标,社会网络通常分为个体网和整体网,个 体网可以分析个人社会连带的网络结构和关系强度,但无法分析一个团体社会网 络的整体结构;整体网则能较为明晰地展现出组织、网络成员的整体关系结构, 本发明的网络结构分析是建立在整体网上的,即社群成员的互动网络。

图形表达法是社会网分析中得到最广泛应用并能最直观表现网络结构的基 本方法,图形理论(Graph Theory)使用的点和线,能够清晰形象地展现出一 个网络或组织当中的行动者和他们之间的联结。图形理论有助于我们理解网络图 中体现的特定社会系统的割裂状况、组织的权力集中程度、组织的结构等方面。

密度(density)是图形理论中最为常用的概念,它描述了一个图中各个点之 间关联的紧密程度。一个图的密度定义为图中实际拥有的连线数与最多可能拥有 的线数之比,在组织中反映的是组织中关系的密集程度。集权度即网络的群体程 度中心性(groupcentrality),群体中心性是网络的整体结构指标,其数值越高, 表明在这一网络当中的权力过分集中。网络的群体中介性(group betweenness centrality)也是一个网络的整体结构指标,这一指标高表示此一团体分成数个 小团体,而数个小团体之间非常依靠某一个人的中间传话。E-I index衡量的主 要是一个大的网络中小团体现象是否严重,其计算方式就是一个小团体的密度除 以整个组织的密度。小世界网络考量的是网络结构对信息传递效果的影响,小世 界网络的q值和α值则可以反应网络内分散式搜索的效应和网络结构对产生新 连接的影响。在既往研究中,对于规模非常的大的网络,q值为2时分散式搜索 的效率最高,有最优的信息传递效果。根据对小世界网络模型公式的推导可知, 对于涉及人际交往的社交关系网,α值是一个不能太大也不能太小的值,由于本 发明涉及的是实体组织之线上社群的互动沟通网络,因此α值的区间也会在这一 特定范围内。

数据分析模块中的模型训练模块主要利用上述大数据指标作为输入值,使用 问卷获得的组织实际健康情况作为标签。使用有监督机器学习,从已知数据集中 选取80%数据作为建立模型的训练集,并把剩余的20%作为测试集,避免过拟合 和欠拟合。预测模型修正模块先基于初步训练的预测模型,分析预测错误样本的 错误原因,重新进行数据处理、指标计算、模型选择来干预和修正模型,修正后 继续结合基于python的模型解释工具SHAP来判断上述修正对模型准确率的提 升效果。

预测模型训练和修正模块,是结合数据收集模块和数据分析模块中的各模块 共同实现的,通过收集更多的大数据与扎根真相、通过预测模型的可解释以及理 论的对话形成新的大数据指标体系,最终对预测模型进行多轮修正,生成最优的 分类模型,最终完成预测模型的训练和修正。

用户使用模块的前端直接面向用户,首先需要用户授权数据收集和使用权限, 当系统获得用户指定社群社交网络数据的收集和使用权限,会自动进入社群收集 该社群内的社交网络数据,并依照大数据计算模块形成的指标体系来计算该用户 所在线上社群的大数据指标,然后在后端组织健康评估模块进行健康程度预测, 同时向用户输出组织网络结构图和指标数据计算结果。用户通过对组织网络结构 图的观察,能够对组织基本结构状况形成一定的判断,比如:图中的核心是否是 组织的领导者,图中不与别的点交互的点是否在日常工作中表现不佳,图中几个 点通过连线形成的连通图是否意味着组织中已经形成了非正式群体,等等。从而 进一步对组织进行健康管理。输出的数据指标能够实现跨时段、跨组织的对比, 若某些指标达到设定的异常值,则用户需对组织管理进行干预;用户由此能够在 后续阶段进行组织的能人挖掘、动态管理、是否优先投入资源支持等功能。

本发明的实施过程中,上述系统的应用则需经过如下步骤:

首先,数据匹配和大数据指标计算步骤,获取用户相关组织的线上社群社交 网络数据以及对应的相关组织的结构化数据并进行资料匹配,紧接着,根据初步 的大数据指标体系中的活跃程度、成员分布、整体结构、小团体、集权度计算相 关指标,输出用于预测模型训练和测试的数据集;

然后,进入预测模型的训练、筛选和修正步骤,划分80%为训练集,20%为测 试集,使用有监督模型对训练集进行训练,并用测试集进行测试,比较各分类模 型的准确率,输出准确率最高的模型;生成初步预测模型后,使用SHAP可解释 工具分析预测模型特征;通过大数据指标与算法的更新对模型进行修正;通过多 轮修正,生成修正的预测模型;

接下来,用户的使用步骤,用户请求使用组织健康管理功能,获取用户授权 的相关组织线上社群信息后,通过社群内的社交网络大数据,计算基于社交网络 数据的大数据指标,使用预测模型预测用户所在社群的组织健康程度,输出预测 结果,并输出组织结构的可视化图形和指标计算结果。

有益效果

这一发明将对组织健康的关注纳入了组织评估体系,区别于定时定点的资料 收集方式,变为即时、长时段又可以多方储存交互检查的资料收集,降低了资料 收集成本,可以使对组织的评估结果更为准确、更具针对性。通过对预测模型的 训练,能够通过大数据资料快速便捷地评估组织健康状况,呈现可视化网络结构 图,并生成详尽的评估数据,使得组织能对自身的健康状况有较为清晰的认识, 同时,不断动态更新的数据能够按照不同时间跨度进行分时段的预测评估,也使 用户及用户相关方能够在合适的时点对发展到不同程度的组织给予正向激励,促 进组织的可持续发展。

附图说明

图1系统的整体架构图。

图2数据匹配与大数据指标计算流程。

图3预测模型训练与筛选流程。

图4预测模型的解释流程。

图5预测模型的修正流程。

图6预测模型的重新修正流程。

图7用户使用流程。

图8组织结构可视化示例图。

具体实施方式

以下结合附图具体说明本发明的技术方案。一种基于社交网络分析的组织健 康评估系统,如图1所示,包块数据收集模块、数据分析模块和用户使用模块。

如图1,第一层的数据收集模块,包括了社交网络大数据,即用户所在组织 之线上社群的社交网络数据,包含社群中成员唯一ID、社群中成员发言;也包括 了通过问卷收集到的实际组织健康状况,所述健康状况包含组织的管理者、出资 方等对组织的健康程度做出的量化评价,包括组织成立的时长、组织的规模、组 织的类型、组织的健康程度等。

图中数据分析模块的的大数据指标计算模块,有两种计算维度:(1)一个 成员点对点@另一成员视为一次互动;(2)15秒内一个成员即时回复另一成员视 为一次互动,在本实施例中,在这两种维度下进行以下指标的测算。

表1

大数据指标包括:

1)活跃程度

即用户所在组织线上社群之群内成员的数量、群内所包含的总发言次数、群 内每位成员平均发言的次数,即总发言次数/群内成员数量;

2)成员分布

计算社群中孤点数及孤点所占比例,孤点表示某一节点没有在这个沟通网络 中以点对点@或15秒内即时回复的形式和其他点互动,而不代表该节点没有在社 群中做任何发言。计算与他人有互动的所有成员,即非孤点的数量及非孤点所占 比例。计算发言数量排名前10%,前20%的成员的数量;

3)整体网络的结构

分别为(1)网络密度:

其中L为社群中共有多少条互动关系,两个节点之间的互动不论次数多寡, 只要有互动就视为一条互动关系,g是此一网络中的人数;

(2)网络的群体中心性:

其中C

(3)网络的群体中介性:

其中C

(4)小世界模型的聚集系数q;

q为W-S小世界模型中解释随机边产生规律的参数。网络图中的每个节点的 k个随机边以到该点距离衰减的方式的生成,衰减的强度由q控制,因此网络中 两个节点i与q之间连接的概率和二者之间在网格的距离d(i,j)

(5)小世界模型的可调参数α;

其中R

4)小团体

计算发言数量排名前10%的成员的网络密度与E-I index,及这部分成员中 有多少连通图,计算发言数量排名前20%的成员的网络密度与E-I index,及这 部分成员中有多少连通图,此处的E-I index为发言数量排名前10%成员的网络 密度与整网密度之比、发言数量排名前20%成员的网络密度与整网密度之比;

同时,计算与发言数量排名前10%的成员及与其有连带的成员所构成网络的 网络密度、E-I index、这部分成员中有多少连通图,计算发言数量排名前20%的 成员及与其有连带成员所构成网络的网络密度、E-I index、这部分成员中有多 少连通图;

5)集权度

分别计算发言数量排名前5%,前10%,前20%的成员的群体程度中心性;

这些指标的所代表的含义说明如下:

密度(density)是图形理论中最为常用的概念,它描述了一个图中各个点之间 关联的紧密程度。一个图的密度定义为图中实际拥有的连线数与最多可能拥有的 线数之比,在组织中反映的是组织中关系的密集程度。一个组织的内部关系可能 是紧密的,也可能是疏离的。一般来说,关系紧密的组织,合作行为也较多,组 织内信息易于流通,能够有更好的工作绩效。需要注意的是,不同规模的组织无 法用各自的密度进行比较。规模在图中表现为点的数目,规模是体现组织结构关 系的重要变量,其大小会影响到行动者之间的关系,规模大的组织成员数量多, 自然会导致其关系结构的密度低于规模小的组织。

网络的群体程度中心性(group centrality),群体中心性是网络的整体结构指标,其数值越高,表明在这一网络当中的权力过分集中,即有一个人在社区社会 组织中特别重要,主导了组织的决策;网络的群体中介性(group betweenness centrality)也是一个网络的整体结构指标,这一指标高表示此一团体分成数个小 团体,而数个小团体之间非常依靠某一个人的中间传话,这个人也特别重要,这 意味着组织当中如果这个成员退出,整个组织就会变成一团散沙,并且这个成员 可能会利用此种重要性在组织中谋取一些个人利益。

小世界网络的q值和α值则可以反应网络内分散式搜索的效应和网络结构 对产生新连接的影响。在既往研究中,对于规模非常的大的网络,q值为2时分散 式搜索的效率最高,有最优的信息传递效果。根据对小世界网络模型公式的推导 可知,对于涉及人际交往的社交关系网,α值是一个不能太大也不能太小的值, 由于本发明涉及的是实体组织之线上社群的互动沟通网络,因此α值的区间也会 在这一特定范围内。

顾名思义,小团体(subgroup或称cliques)就是团体中的一小群人关系特 别紧密,以至于结合成一个次级团体。E-I index衡量的主要是一个大的网络中 小团体现象是否严重,其计算方式就是一个小团体的密度除以整个组织的密度。 E-I index在企业管理当中是一项重要的危机指标,当它太高时,就表示公司中 的小团体有可能结合紧密而开始图谋小团体私利,伤害整个公司的利益。在组织 当中,较为消极的情况可能是,整个组织较为散漫,但却存在着有高度内聚力的 核心小团体,这个小团体独裁领导,以小团体的意志代替整个组织的意志。

系统架构图中数据分析模块的预测模型训练模块中包括了使用训练集对有 监督模型进行预测模型的训练,其输入值为前述计算得到的大数据指标,使用问 卷获得的组织实际健康情况是其标签,选取已知数据集中80%的数据建立训练集, 以匹配标签中的组织健康程度;同时,已知数据集中20%的数据作为训练集,测 试训练集中获得的预测模型的准确率,即预测模型中对测试集中组织健康情况的 评价是否与问卷实际收集到的对组织的评价相符。本实施例中,具体使用有监督 模型例如SVM、决策树、随机森林以及集成算法XGBoost、GBDT等作为训练模型, 最终得到XGBoost准确率高于其他分类器。训练过程中,使用python语言中 xgboost.sklearn库中的XGBClassifier方法,以五折交叉验证的预测准确率作 为评价指标,对XGBoost基本参数进行调节,得到{每一次提升的学习率的列表(learning_rate):0.05,树的深度(max_depth):4,树的个数 (n_estimators):350}参数组合下,模型准确率最高,其他参数为默认值。

进一步,在预测模型修正模块中,计算预测模型中各特征的SHAP值,并对 各个特征的显著性进行检验,来了解哪些指标对组织健康更为重要,以及这些特 征交互对于预测准确率的影响,在模型修正的过程中,与前述提出的社会网、小 世界等理论进行对话,总结错误原因,收集更多的问卷数据以及社交网络大数据 以重新预处理数据、形成新的指标对模型进行校准,经过多轮修正后,形成对组 织健康程度最优的预测模型。SHAP是Python开发的一个"模型解释"包,可以解释 任何机器学习模型的输出。结合上述得到的XGBoost模型,导入shap库,首先创 建一个explainer,然后传入特征值矩阵,计算各个特征的SHAP值,可以得到每 个特征对于最终预测准确率的贡献值以及影响的正负性。进一步分析,可使用交 互值(interaction value),得到特征之间的交互作用。以上可解释分析步骤 可以更好地为我们提供不同特征的对于预测的意义,并可结合其决策路径图 (decision_plot)可得到错误样本分错原因,从而对增加或调整指标来修正模 型,提高准确率。

接下来,图中第三大模块的用户使用模块中,通过获得用户授权其相关组织 线上社群的社交网络大数据,即可使用前述形成的最优预测模型来预测该组织的 健康状况。

用户能够在使用模块获得组织结构的可视化资料(示例见图8)和组织社会 网络指标报表,可视化网络图中群成员为编号点,群中所有成员进行随机数字编 号,群成员互动成为点之间的不同权重的无向边,共有大、中、小三类节点,大 型点与中型点分别代表于研究所截取时间段内在微信群中发言总数占前10%(图 中4号点、13号点、18号点)与前20%(图中0号点、6号点、20号点)的群 成员,小型点为剩余节点。点之间的连线代表群成员之间的交互关系,为了在 各个群之间进行更为直观的比较,将交互程度划分为5个区间,不同权重的连线 用颜色的深浅及线条的粗细来表示,线的颜色越深群成员之间的交互程度越高、 关系越密切。周边没有连线的点为孤点。

用户可以通过可视化网络图直接观察组织成员的互动情况,识别组织中的活 跃分子进行能人挖掘,亦可直观观察出组织内是否存在非正式群体,是否要对其 进行一定的干预措施;数据报表则可体现出组织在哪方面表现较佳,而哪方面还 有所欠缺,使对组织的管理和下一步发展能够有的放矢;如用户有多个相关组织, 也可根据各组织的健康情况进行资源支持优先级的排序;可视化资料及报表均可 按照特定时间段(周/月/季度/年)输出,用户能够根据需求方便地对组织进行 可视化管理,譬如从类型上来看,群成员的发言数量和互动是呈短期波动、周期 性还是长期变动;从频率上来看,群成员的发言数量和互动在固定的时间段内(周 /月/季度/年)各是多少。

对于用户而言,健康的组织可能观察到如下特征:首先,从活跃程度来看, 组织成员平均发言次数较高的组织较为健康;从发言的时间分布来看,大部分时 间较为均匀,在某段时间发言频率较高的组织较为健康;从亲密程度来看,成员 之间点对点@,15s互相回复的成员比例高,孤点比例低的组织较为健康;从整体 网结构来看,网络较为紧密、群体中心性不高但不能过低(即扁平化结构但有一 定的核心)、群体中介性较低、发言数占前10%的成员形成的小团体的E-I index 也不高但不能过低(即有主导的积极分子)的组织较为健康。小世界网络指标受 规模的影响较大,但也在规模相似的健康组织,其小世界网络指标的值也是在特 定的阈值内的。并且,如果将数据分期分段,每个组织的指标在不同时期内会有 不同的变化,当组织在某一阶段攻坚克难时,组织的群体中心性可能会升高;当 组织经历较大的人员变动时,群体中介性可能会有所变化。当然,这些特征还需 要再后续更多的资料收集与模型修正过程中加以印证。

上述系统的应用的整体流程如图2所示,需经过如下步骤:

具体的数据匹配和大数据指标计算流程如图3:(1)数据提供方通过数据上 传端将用户数据信息加密上传到分布式数据库;(2)数据上传端上传数据后检 查是否收到分布式数据库返回的数据存储地址信息。收到地址则进入下一步骤。 若无,则检查上传过程,重新执行数据上传工作;(3)在收到数据存储地址的 情况下,获取用户所在线上社群的社交网络数据及收集到的结构化数据;(4) 根据用户及用户所在社群ID进行结构化数据与大数据的匹配;(5)根据初步的 社交网络大数据指标体系计算大数据指标;(6)输出用于训练和测试的数据集。

在完成数据匹配和大数据指标的计算后,具体进行预测模型的训练和最优分 类模型的筛选。具体流程如图4:(1)数据管理节点不断监听并接受数据集生成 信息;(2)当数据管理节点监听到生成数据集将其暂时存储至本地;(3)数据 集分别划分80%为训练集,20%为测试集;(4)使用训练集进行分别使用不同分 类模型进行训练;(5)比较各分类模型准确率;(6)输出准确率最高的预测模 型。

生成初步预测模型后,系统解释预测模型并生成回归分析结果供数据分析人 员参考,具体流程如图5:(1)预测模型管理阶段不断监听预测模型是否生成信 息;(2)当监听到预测模型生成信息后做预测模型的解释,如果没有则继续等 待生成预测模型;(3)使用SHAP可解释模型对分析预测模型特征;(4)计算特 征重要性;(5)计算预测错误样本预测路径;(6)使用回归分析计算,帮助分 析人员辅助决策;(7)输出SHAP特征重要性、预测错误样本预测路径、回归分 析结果。

对预测模型进行修正,具体流程如图6:(1)预测模型修正管理节点,监听 模型修正指令;(2)监听是否进行模型的修正,如果获得分析人员修正预测模 型指令,则继续进行模型的修正,否则继续进行是否进行有监督算法的更新;(3) 监听是否排除部分大数据指标,如果是则更新大数据指标的更新,否则继续进行 是否数据集更新的监听;(4)更新大数据指标;(5)监听是否更新数据集,如 果是则更新训练集与测试集,否则监听是否更改监督算法;(6)监听是否更改 监督算法,如果是则使用新的监督算法,生成新的数据集及监督算法;(7)生 成修正预测模型。

进行新的预测模型的修正,具体流程如图7:(1)预测模型修正管理节点监 听模型修正指令;(2)监听是否进行模型的修正,如果获得分析人员修正预测 模型指令,则继续进行模型的修正,否则保持现有预测模型;(3)输出预测模 型修正指令,触发预测模型修正流程。

用户使用组织健康评估功能。具体的流程如图8:(1)用户请求组织健康评 估功能;(2)系统检验用户是否授予数据使用权限,否则询问用户是否授权用 户权限,如果是则进入下一步骤;(3)获取用户社交网络印迹化数据;(4)计 算基于社交网络数据的大数据指标;(5)使用预测模型预测用户所在社群的组 织健康程度;(6)输出预测结果,并输出组织结构的可视化资料和数据报表。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号