首页> 中国专利> 一种基于社交网络媒体发帖信息的自杀风险检测方法

一种基于社交网络媒体发帖信息的自杀风险检测方法

摘要

本发明公开了一种基于社交网络媒体发帖信息的自杀风险检测方法,首先了解用户的正常帖子及其在树洞中隐藏评论之间的相关性,从用户公开的帖子中洞察用户内心的真实想法和情绪变化,进行心理压力预测;然后,据此检测用户的自杀风险。

著录项

  • 公开/公告号CN112766747A

    专利类型发明专利

  • 公开/公告日2021-05-07

    原文格式PDF

  • 申请/专利权人 清华大学;

    申请/专利号CN202110090702.3

  • 发明设计人 冯铃;曹檑;张慧君;

    申请日2021-01-22

  • 分类号G06Q10/06(20120101);G06Q50/00(20120101);G06F40/211(20200101);G06F40/242(20200101);G06F40/289(20200101);

  • 代理机构11246 北京众合诚成知识产权代理有限公司;

  • 代理人黄家俊

  • 地址 100084 北京市海淀区清华园

  • 入库时间 2023-06-19 10:54:12

说明书

技术领域

本发明涉及自然语言技术领域,尤其涉及一种基于社交网络媒体发帖信息的自杀风险检测方法。

背景技术

自杀已经成为一个严重的问题,损害了全球人类社会的福祉。借助社交媒体,从人们的语言帖子中,自杀意念检测达到了最先进的水平,准确率达91%。过去已有的解决方案存在一个共同的问题:强调人们在社交媒体上的外在表达,而忽视了人们内心的真实想法和感受,而从相关社交网络中获取并了解人们隐藏的真实想法和感受,然后根据中间结果检测自杀意念,可以对自杀意向提供非常高的预测准确度,从而提前进行干预,避免悲剧。现有技术中,虽然已有相关的尝试,但没有具体有效的具有高检测准确率的基于社交网络媒体发帖信息的自杀风险检测方法。

发明目的

本发明的目的即在于解决现有技术中存在的不足,提供一种基于社交网络媒体发帖信息的自杀风险方法,从人们公开的微博帖子等社交网络媒体中了解人们隐藏的真实想法和感受,进行心理压力预测,然后根据中间结果检测自杀意念。

发明内容

本发明提供了一种基于社交网络媒体发帖信息的自杀风险检测方法,包括以下步骤:

步骤1、了解用户在社交网络媒体中的公开发帖及其在树洞中的隐藏评论之间的相关性,从用户的公开发帖中洞察用户内心的真实想法和情绪变化;具体包括以下子步骤:

子步骤S11:根据用户在社交网络媒体的公开发帖揭示用户内心的真实想法,令OP[1,t]=(O

其中,

将大小为t的滑动窗口应用于从第1周到第n周的用户公开发帖帖子集O户[1,t],OP[2,t+1],...,OP[n-t+1,n],则生成了一系列基于Bert的隐藏注释

其中,t=26周,n=52周,相当于1年;

子步骤S12:捕捉用户隐式情绪变化,首先定义从用户的每周帖子集中揭示的每周情绪的测量以及连续两周之间的情绪变化,将用户的情绪定义为快乐、爱、惊讶、生气、悲伤、焦急、厌恶共7类,表示为:

EC={joy″,love,surprised,angry,sorrow,anxiety,hate″}.

采用了汉语情绪词典DUTIR,获得了包含了所述7类情绪相关的共27466个词,将每一个词对应一个强度分数,其中用9表示最高强度,1表示最低强度,即EI={1,3,5,7,9};

假设函数WordSet(c,i)返回DUTIR词典中强度分数为i的类别为c的单词集,其中,(c∈EC),(i∈EI);

令S表示在用户在某周发布的一组语言句子,即S为用户在社交网络媒体的公开发帖的句子集或在树洞里发布的隐藏评论集,则,:从S中揭示的类别为c∈EC的情绪程度值是情绪类别c中的词的总情绪强度,表示为:

其中,所有强度值均作归一化处理,

将S所表示的七种情绪类别中的情绪程度呈现在一个7维向量中,表示为:

其中,c

令S

其中,1≤k≤n-1,c

根据用户第t周的公开发帖句子集序列(OS

通过将用户的外部情绪变化序列

对序列OE[1,t],OE[4,t+3],…,OE[n-t+1,n]应用大小为t和滑动步幅为3周的滑动窗口,产生对应的序列如下所示:

CE[m,t],CE[t,t+(t-m)],…,CE[n-(t-m),n],

其中

步骤2、构建检测自杀风险的模型,根据用户从第t周到第n周的内心想法

优选地,所述步骤1中通过构建模型A来实现子步骤S11,具体包括以下三步:

第一步:学习表示用户的周社交网络媒体发帖句子集O=(OS,OP),使用已知的自杀导向单词或词语嵌入,用300维向量表示所述发帖句子集O=(OS,OP),所述OS被转换成k×300的矩阵,如下所示:

其中,k是OS中单词或词语总数量,

h

其中,h

其中,Att是注意力向量,它展示基本文本表征OS中每个词的权重的分布,

注意力向量Att和H的乘法生成OS的最终句子,表示为:

对于用户的周社交网络媒体发帖中的图片表示为图片集OP,采用一个34层的ResNet,抽取出一个(300×1)维的可视特征表示,以OP中所有图片的平均特征向量作为每周的视觉图片表示

通过合并操作

第二步:学习表示用户从第1周到第t周的社交网络媒体发帖集(O

以t为滑动窗口,针对用户的每周公开帖子集序列(O

其中,h

其中,Att′代表不同周出现的线索的不同贡献权重,

基于注意力向量Att′,获得用户从第1周到第t周的公开社交网络媒体发帖帖子集,表示为

其中,

第三步:从用户t周的社交网络媒体发帖帖子集表示序列(O

其中,

所述模型A的训练建立在基于Bert的评论

优选地,通过构建训练模型B来实现子步骤S12,采用神经编解码方法,将输入的开放式情绪变化序列OE[1,t],编码成中间的内部向量表示,然后解码内部表示以生成隐藏的情绪变化序列CE[m,t],具体包括以下两步:

第一步:将OE[1,t]编码为一个内部表示

其中,

初始时,h

第二步:将

(ce

其中,

初始时,l=m,解码器的h′

在经过GRU

CE[m,t]=(ce

所构建的训练模型B采用基于MSE的损失函数,随着损失函数值下降,所产生的内部情绪变化序列CE[m,t]不断接近真实值CE[m,t]

优选地,将

将用户的个人资料信息profile,包括性别、网名长度、发帖数量、发帖时间分布、关注人数、关注用户数,纳入自杀风险分析,通过一个12维向量来表示用户的profile;

通过拼接操作

通过一个全连接层,判断得出一个用户是否具有自杀风险的可能性大小,如下所示:

其中,0≤y

优选地,所述社交网络媒体包括微博、微信、推特、facebook。

附图说明

图1是本发明所述自杀风险检测方法的示意图。

图2是本发明所提出的从用户的公开社交网络媒体中学习其真实想法的模型图。

图3是本发明所提出的基于用户的公开情绪波动推理出其真实情绪波动的模型图。

图4是本发明所提出的融合图2与图3模型进行自杀风险检测的模型图。

具体实施方式

以下结合附图详细阐述本发明。

以微博发帖为例对本发明进行说明性阐述。首先了解用户的正常帖子及其在树洞中隐藏评论之间的相关性,从用户公开的帖子中洞察用户内心的真实想法和情绪变化;然后,据此检测用户的自杀风险。图1给出本发明的自杀风险检测图,共分三个子任务。

子任务1:从用户的公开微博帖子揭示用户内心的真实想法。

将用户第1周至第t周的公开帖子集合表示为OP[1,t]=(O

利用一个GRU层、ResNet层与一个全连接层,分别对用户的发文和发图进行编码。

引入注意力机制,查找与树洞中隐藏注释相关的关键内容。子任务1的模型A旨在内容层面发现用户公开帖子与树洞中隐藏评论之间的隐含关联。

子任务2:捕捉用户的隐式情绪变化

子任务2旨在从情绪层面捕捉用户公开帖子和隐藏评论之间的相关性。这里,考虑其中主要情绪(快乐、爱、惊讶、生气、悲伤、焦急、厌恶)。

假设S表示公开微博句子集或树洞中的隐藏评论集。e(S,c)表示S显露的情绪类别为c的情绪程度值。S显露的七种情绪类别的情绪程度可以表示为E(S)。通过E(S

令OE[1,t]表示用户公开发文的微博帖子所显示的从第1周到第t周的情绪变化序列。子任务2需要推测树洞中的隐藏评论所显露的从第m周到第t周情绪变化序列

本发明采用seq2seq模型,根据公开的情绪变化序列生成一系列隐藏的情绪变化序列。

子任务3:集成以上两个模型检测自杀风险

基于以上两个模型(模型A与模型B),本发明设计了检测个体真实自杀意念的技术。多次使用预先训练好的模型A,获取用户从t周到n周的内心想法:(C

同样,多次使用预先训练好的模型B,导出用户从m周到n周的情绪变化序列:

(CE[m,t],CE[t,t+(t-m)],...,CE[n-(t-m),n]=(ce

子任务3的目标是集成以上两个结果,同时考虑用户的社交媒体特征,检测其自杀风险。

下面详细介绍三个子任务模型。

1.从用户的公开微博帖子捕捉用户内心的真实想法(子任务1)

1.1任务A

由于用户在开放微博和隐藏树洞中的负面情绪表达之间存在相关性,子任务1的目标是从开放的微博中发现用户的真实想法。

令OP[1,t]=(O

其在,

将大小为t的滑动窗口应用于从第1周到第n周的用户公开微博帖子集OP[1,t],OP[2,t+1],...,OP[n-t+1,n],子任务1生成一系列基于Bert的隐藏注释

这里,t=26周,n=52周(相当于1年)。

1.2模型A

从用户的每周公开帖子集序列,学习隐藏评论分三步进行,如图2所示。

第一步:学习表示用户的周微博帖子集O=(OS,OP)

语言级表示

对于每周发文句子集合OS中的每个语言单词,通过文献中已有的自杀导向单词嵌入,使用300维向量表示它。OS因此可以转换为一个(k×300)的矩阵:--

其中,k是OS中单词总数量,

周句子集合OS

h

其中,h

其中,Att是注意力向量,它展示基本文本表征OS中每个词的权重的分布,

注意力向量Att和H的乘法生成周句子集OS的最终句子表示:

可视图片级表示

对于每周微博发布的图片集OP,采用一个34层的ResNet,抽取出一个(300×1)维的可视特征表示。以OP中所有图片的平均特征向量作为每周的视觉图片表示

合并语言级表示与可视图片级表示

通过合并操作

第二步:学习表示用户从第1周到第t周的微博帖子集(O

以t为滑动窗口,针对用户的每周公开帖子集序列(O

其中,h

其中,Att′代表不同周出现的线索的不同贡献权重,

然后,基于注意力向量Att′,获得用户从第1周到第t周的公开微博帖子集表不

其中,

第三步:从用户t周的微博帖子集表示序列(O

最终,通过一个全连接层,推导出一个基于Bert的隐藏评论表示

其中,

上述模型的训练建立在基于Bert的评论

随着损失函数值的降低,两个值之间的相似度越来越近。

2.捕捉用户的真实情绪变化(子任务2)

2.1目标B

子任务1从内容层次,学习理解用户公开的微博帖子与真实隐藏想法之间的相关性,子任务2旨在从公开的微博帖子显示出的情绪,来了解用户真实的内心情绪。

基于用户公开的微博帖子直接捕捉用户的真实感受面临两个困难。首先,由于社交媒体的自由特性,用户在社交媒体上的语言表达通常是隐含的、不确定的。其次,一些情绪(例如,喜悦,爱,惊讶,愤怒,悲伤,焦虑,憎恨)可能会从用户的公开帖子中交织出来,

阻止了解用户真实的内心情绪。为解决此问题,聚焦用户公开微博所透露出的情绪变化,并透过这些变化来感知用户的自杀风险。

在给出子任务2的正式定义之前,首先定义从用户的每周帖子集中揭示的每周情绪的测量以及连续两周之间的情绪变化。考虑如下七类情绪:

EC={joy″,love,surprised,angry,sorrow,anxiety,hate″}.。

为了测量不同类别情绪的强度,采用了汉语情绪词典DUTIR,它包含了这7类情绪相关的共27466个词。情绪类别中的每个单词都有一个强度分数,其中9表示最高强度,1表示最低强度,即EI={1,3,57,9}。假设函数WordSet(c,i)返回DUTIR词典中强度分数为i的类别为c的单词集,其中,(c∈EC),(i∈EI)。

令S表示在某个星期发布的一组语言句子。在下面的定义中,S是公开微博句子集或在树洞里发布的隐藏评论集。

定义1::从S中揭示的类别为

这里,所有的强度值均做归一化处理,

定义2::S所揭示的七种情绪类别中的情绪程度可呈现在一个7维向量中

其中,(c

根据周微博句子集呈现的情绪程度定义,可以计算出连续两周之间的情绪变化。

定义3:令S

其中,(1≤k≤n-1),(c

根据上述定义,从用户t周的微博句子集序列(OS

子任务2的目的是将用户的外部情绪变化序列

对序列

CE[m,t],CE[t,t+(t-m)],…,CE[n-(t-m),n]

其中,

这里,t=26周,m=23周,n=52周(1年)。

2.2模型B

子任务2可以转换为序列到序列(seq2seq)任务。采用神经编解码方法。将输入的开放式情绪变化序列OE[1,t]编码成中间的内部向量表示,然后解码内部表示以生成隐藏的情绪变化序列

图3为模型B的encoder与decoder。

第一步:将OE[1,t]编码为一个内部表示

为便于解释,将输入的情绪变化序列表示为OE[1,t]=(oe

其中,

通过GRU

第二步:将

在编码器最后一个隐藏状态h

(ce

(ce

其中,

输入值in

初始时,(l=m)。解码器的h′

GRU

CE[m,t]=(ce

采用基于MSE的损失函数训练模型B.随着损失函数值下降,所产生的内部情绪变化序列CE[m,t]不断接近真实值CE[m,t]

3.集成两个模型,检测自杀风险(子任务3)

3.1目标C

模型A和模型B使能够在内容和情绪两个层面上捕捉公开微博帖子和树洞中隐藏评论之间的关联。

使用预先训练过的模型A来推导用户从第t周到第n周的内心想法:

同样,使用预先训练过的模型B来导出用户从第m周到第n周的情绪变化序列:

(CE[m,t],CE[t,t+(t-m)],…,CE[n-(t-m),n])=(ce

子任务3的目标是综合上述两类结果,同时考虑用户的社交媒体特征,实行自杀风险检测。

3.2模型C

如图4所示,将

除了了解用户隐藏的想法和情绪变化外,还将用户的个人资料信息profile,包括性别、网名长度、发帖数量、发帖时间分布、关注人数、关注用户数等纳入自杀风险分析。通过一个12维向量来表示用户的profile。

通过拼接操作

最终,通过一个全连接层,可以得出一个用户是否具有自杀风险的可能性大小:

其中,y

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号