首页> 中国专利> 一种适用于垃圾语音过滤的用户呼叫行为模型的生成方法

一种适用于垃圾语音过滤的用户呼叫行为模型的生成方法

摘要

本发明公开了一种适用于垃圾语音过滤的用户呼叫行为模型的生成方法,包括以下步骤:建立呼叫交互行为特征CI,用于描述指定用户作为主叫用户以及被叫用户的相关行为特征,其中呼叫交互行为特征CI又进一步包括呼入呼出比、呼叫交互记录特征值以及交互强度及其分布三部分,建立呼叫频率及其分布FCD,用于描述呼叫记录中呼叫时间的特征,包括指定的统计时间段内呼叫频率值以及呼叫频率值时间分布两部分,建立呼叫持续时间及其分布DCT,用于描述呼叫记录中持续时间的特征,包括统计时间段内呼叫拒绝接听比例、呼叫平均持续时间以及呼叫持续时间的直方图分布三部分。本发明能够解决现有技术中存在的很难发现垃圾语音发送者伪装的呼叫行为的技术问题。

著录项

  • 公开/公告号CN103716471A

    专利类型发明专利

  • 公开/公告日2014-04-09

    原文格式PDF

  • 申请/专利权人 华中科技大学;

    申请/专利号CN201310698598.1

  • 发明设计人 王非;

    申请日2013-12-18

  • 分类号H04M3/22(20060101);

  • 代理机构42201 华中科技大学专利中心;

  • 代理人朱仁玲

  • 地址 430074 湖北省武汉市洪山区珞喻路1037号

  • 入库时间 2024-02-19 23:10:49

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2015-11-04

    授权

    授权

  • 2014-05-07

    实质审查的生效 IPC(主分类):H04M3/22 申请日:20131218

    实质审查的生效

  • 2014-04-09

    公开

    公开

说明书

技术领域

本发明属于垃圾语音过滤和数据挖掘领域,更具体地,涉及一种适用 于垃圾语音过滤的用户呼叫行为模型的生成方法。

背景技术

随着固定网络、移动通信网络和互联网的结合,语音服务得到了广 泛的应用。但由于垃圾语音的影响,语音服务遇到了业务拓展的阻碍, 在确保用户正常通信的同时,需要及时对恶意用户加以限制。现有的垃 圾语音过滤技术,大多是在垃圾邮件和垃圾短信过滤技术的基础上加以 改进,在一定程度上可以对垃圾语音起到检测和过滤的作用。但是垃圾 语音的内容性质与垃圾邮件不同,垃圾邮件的过滤技术有一定的局限性。 垃圾邮件多为文本过滤,而垃圾语音内容为多媒体信息。垃圾邮件过滤 允许时间延迟,垃圾语音对实时性的要求很高。

有效合理的过滤机制要求同主被叫用户的交流尽可能的少,可采用 基于呼叫模型的过滤方法。呼叫模型依据用户发出呼叫的行为特征,客 观地反映用户是否是垃圾语音。现有的呼叫模型提出了大量从呼叫行为 中观察到的垃圾语音特点,并采用决策树或是贝叶斯分类器的方法,实 现垃圾语音过滤。在用户呼叫行为不改变的情况下,现有的呼叫模型基 本成熟有效。但是,现有基于呼叫模型的检测机制很难发现垃圾语音发 送者伪装的呼叫行为,具有一定的缺陷。

发明内容

针对现有技术的以上缺陷或改进需求,本发明提供了一种适用于垃圾 语音过滤的用户呼叫行为模型的生成方法,其目的在于,解决现有技术中 存在的很难发现垃圾语音发送者伪装的呼叫行为的技术问题。

为实现上述目的,按照本发明的一个方面,提供了一种适用于垃圾语 音过滤的用户呼叫行为模型的生成方法包括以下步骤:

(1)建立呼叫交互行为特征CI,用于描述指定用户作为主叫用户以及 被叫用户的相关行为特征,其中呼叫交互行为特征CI又进一步包括呼入呼 出比、呼叫交互记录特征值以及交互强度及其分布三部分,具体可表示为:

CI={Rin/out,Cout,Cin,Cin/out,Fin/out}

其中,Rin/out为用户作为主叫用户和被叫用户的比例,Cout是用户在所 有与不同用户的呼叫中只作为主叫用户有呼出行为的数量,Cin是用户在所 有与不同用户的呼叫中只作为被叫用户有接听行为的数量,Cin/out是用户在 所有与不同用户的呼叫中同时作为主叫用户和被叫用户的数量,Fin/out是同 其他用户的交互强度频率分布;

(2)建立呼叫频率及其分布FCD,用于描述呼叫记录中呼叫时间的特征, 包括指定的统计时间段内呼叫频率值以及呼叫频率值时间分布两部分,具 体可表示为:

FCD={Fin/outT,DoutT}

其中,为统计时间段内用户发起呼叫的绝对频率值,是统计 时间段内的用户呼叫频率在一天12个长度为2小时的时间片上的分布。

(3)建立呼叫持续时间及其分布DCT,用于描述呼叫记录中持续时间 的特征,包括统计时间段内呼叫拒绝接听比例、呼叫平均持续时间以及呼 叫持续时间的直方图分布三部分,具体可表示为:

DCT={fET,CTavgT,CTDT}

其中,为用户发起呼叫中被拒绝接听的概率值,为用户的平均 呼叫持续时间,CTDT为呼叫持续时间的分布。

优选地,步骤(1)具体包括以下子步骤:

(1-1)统计用户的历史呼叫交互行为特征参数Cout,Cin和Cin/out,为了 便于用户间横向对比,进一步对其进行归一化处理:

Cout=CoutCout+Cin+Cin/out

Cin=CinCout+Cin+Cin/out

Cin/out=Cin/outCout+Cin+Cin/out

其中,和三者之和为1。

(1-2)统计呼入呼出比例Rin/out,计算公式如下:

Rin/out=CoutCin

(1-3)统计指定用户与其他用户的呼叫交互强度CDin/out。该用户与 用户j之间的呼叫交互强度表示为其计算公式如下:

CDin/outj=INT[log(Coutj+Cinj)]

其中,INT[·]表示取整函数,表示该用户主动呼叫用户j的次数, 表示该用户接听来自用户j的呼叫次数。

(1-4)统计呼叫交互强度分布CDDin/out

CDDin/out={CDN0,CDN1,CDN2,CDN3}

其中,CDNi(i=0,1,2,3)的计算公式如下:

即CDNi为值等于i或大于等于i的CDin/out的数量,其中COUNT[·]为 计数函数,表示该用户与用户j之间的呼叫交互强度,n表示该用 户所有联系人的数量。

(1-5)对CDDin/out进行归一化处理,归一化后的呼叫交互强度分布记 为具体表示为:

CDNin/out={CDN0,CDN1,CDN2,CDN3}

其中,为归一化后的CDNi(i=0,1,2,3),计算公式为:

CDNi=CDNiΣk+0aCDNk.

优选地,步骤(2)具体包括以下子步骤:

(2-1)统计用户发起呼叫的绝对频率值

Fin/outT=CoutTT

其中,T为指定的统计时间段长度,单位为小时,该时间段应开始于第 一天的0时,结束于最后一天的24时,因此T应为24小时的整数倍;为时间段内用户作为主叫用户的呼叫次数。

(2-2)统计指定时间段T内的指定用户的呼叫频率分布参数具 体表示为:

DoutT={Dout1,Dout2,...,Dout12,}

其中,表示统计时间段T内每一天的[2*(t-1),2*t) 时段内的呼叫数量之和。每一天时间可以分为12个时间片,每一时间片包 含有2个小时,12个时间片具体为:[0,2),[2,4),[4,6),[6,8),[8,10), [10,12),[12,14),[14,16),[16,18),[18,20),[20,22),[22,24)。

(2-3)对用户呼叫频率分布参数进行归一化处理,处理过程如下:

Doutt=DouttCoutT,(t=1,...,12)

则归一化后的呼叫频率分布为:

DoutT={Dout1,Dout2,...,Dout12,}.

(2-4)得到最终具有使用效率的呼叫频率及其分布参数FCD

FCD={Fin/outT,DoutT}.

优选地,步骤(3)具体包括以下子步骤:

(3-1)统计用户发起呼叫中被拒绝接听的比例计算公式如下:

fET=CRoutTCoutT

其中,代表统计时间段内用户发出的所有呼叫次数,代表统 计段时间内被拒绝的主动呼叫次数;

(3-2)统计用户的平均呼叫持续时间计算公式如下:

CTavgT=Σr=1Cin/outTtrCin/outT

其中,代表统计段时间内的呼叫次数,tr为第r条呼叫记录对应 的呼叫时长,单位为秒;

(3-3)统计呼叫持续时间的直方图分布CTDT,具体表示如下:

CTDT={CTD0,CTD1,...,CTD6,CTD7}

其中,表示呼叫持续时长处于某个时间段范围内的呼 叫记录比例,具体计算公式如下:

总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够 取得下列有益效果:

1、本发明完成了适用于垃圾语音过滤的用户呼叫行为模型的建立,提 供了用户呼叫行为特征的计算方法。

2、本发明针对原始呼叫行为数据不充分的缺陷,提出了加强型的三种 特征参数结合的定义方式。

3、本发明基于呼叫过程的主被叫用户的呼叫交互特征,除了基本的呼 入呼出比,还考虑到交互的强度及其分布情况,补充说明了呼叫交互的特 点,更适用于垃圾语音的过滤。

附图说明

图1是本发明适用于垃圾语音过滤的用户呼叫行为模型的生成方法的 示意图。

图2是本发明方法中步骤(1)的细化流程图。

图3是本发明方法中步骤(2)的细化流程图。

图4是本发明方法中步骤(3)的细化流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图 及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体 实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的 本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可 以相互组合。

本发明提供的描述用户呼叫行为的模型包括多个呼叫行为基本参数, 主要由主叫用户、被叫用户、呼叫时间、持续时间等四个参数组成。在这 四个参数的基础上进一步构建了三个不同的增强的呼叫行为特征,分别包 括呼叫交互特征CI、呼叫频率及其分布FCD、呼叫持续时间及其分布DCT, 每个呼叫特征由各自相关的呼叫行为组成。

如图1所示,本发明适用于垃圾语音过滤的用户呼叫行为模型的生成 方法包括以下步骤:

(1)建立呼叫交互行为特征CI,用于描述指定用户作为主叫用户以及 被叫用户的相关行为特征,其中呼叫交互行为特征CI又进一步包括呼入呼 出比、呼叫交互记录特征值以及交互强度及其分布三部分,具体可表示为:

CI={Rin/out,Cout,Cin,Cin/out,Fin/out}

其中,Rin/out为用户作为主叫用户和被叫用户的比例,Cout是用户在所 有与不同用户的呼叫中只作为主叫用户有呼出行为的数量,Cin是用户在所 有与不同用户的呼叫中只作为被叫用户有接听行为的数量,Cin/out是用户在 所有与不同用户的呼叫中同时作为主叫用户和被叫用户的数量,Fin/out是同 其他用户的交互强度频率分布;

(2)建立呼叫频率及其分布FCD,用于描述呼叫记录中呼叫时间的特征, 包括指定的统计时间段内呼叫频率值以及呼叫频率值时间分布两部分,具 体可表示为:

FCD={Fin/outT,DoutT}

其中,为统计时间段内用户发起呼叫的绝对频率值,是统计 时间段内的用户呼叫频率在一天12个长度为2小时的时间片上的分布。

(3)建立呼叫持续时间及其分布DCT,用于描述呼叫记录中持续时间 的特征,包括统计时间段内呼叫拒绝接听比例、呼叫平均持续时间以及呼 叫持续时间的直方图分布三部分,具体可表示为:

DCT={fET,CTavgT,CTDT}

其中,为用户发起呼叫中被拒绝接听的概率值,为用户的平均 呼叫持续时间,CTDT为呼叫持续时间的分布。

如图2所示,本发明方法的步骤(1)包括以下步骤:

201,查询指定用户的所有历史呼叫记录,统计总的呼出次数Cout、总 的呼入次数Cin和总的呼入呼出次数Cin/out

202,对步骤201统计出的Cout,Cin和Cin/out进行归一化处理。归一化后 的呼叫记录中的历史交互特征值记为:和计算公式如下:

Cout=CoutCout+Cin+Cin/out

Cin=CinCout+Cin+Cin/out

Cin/out=Cin/outCout+Cin+Cin/out

其中,和三者之和为1;

203,统计指定用户的呼入呼出比例Rin/out,计算公式如下:

Rin/out=CoutCin

204,统计指定用户与其他用户间的呼出、呼入次数,记为Cout和Cin。 表示该用户主动呼叫用户j的次数,表示该用户接听来自用户j的 呼叫次数。仅保存该用户与其他存在呼出、呼入记录的统计结果。

205,根据步骤204的结果,进一步统计指定用户与其他用户的呼叫交 互强度CDin/out。表示该用户与用户j之间的呼叫交互强度,其计 算公式如下:

CDin/outj=INT[log(Coutj+Cinj)]

其中,INT[·]表示取整函数,表示该用户主动呼叫用户j的次数, 表示该用户接听来自用户j的呼叫次数。

206,统计指定用户的呼叫交互强度分布CDDin/out

CDDin/out={CDN0,CDN1,CDN2,CDN3}

其中,CDNi(i=0,1,2,3)的计算公式如下:

即CDNi为值等于i或大于等于i的CDin/out的数量,其中COUNT[·]为 计数函数,表示该用户与用户j之间的呼叫交互强度,n表示该用 户所有联系人的数量。

207,对CDDin/out进行归一化处理,归一化后的呼叫交互强度分布记为 具体表示为:

CDNin/out={CDN0,CDN1,CDN2,CDN3}

其中,为归一化后的CDNi(i=0,1,2,3)计算公式为:

CDNi=CDNiΣk+0aCDNk.

208,输出指定用户的呼叫交互特征参数CI。

如图3所示,本发明方法的步骤(2)包括以下步骤:

301,查询指定用户的指定时间段内的所有历史呼叫记录,包括呼入和 呼出;

302,统计指定用户发起呼叫的绝对频率值

Fin/outT=CoutTT

其中,T为指定的统计时间段长度,单位为小时,且T为24小时的整 数倍;为时间段内用户作为主叫用户的呼叫次数;

303,统计指定时间段T内的指定用户的呼叫频率分布参数具体 表示为:

DoutT={Dout1,Dout2,...,Dout12,}

其中,表示统计时间段T内每一天的[2*(t-1),2*t) 时段内的呼叫数量之和。每一天时间可以分为12个时间片,每一时间片包 含有2个小时,12个时间片即为:[0,2),[2,4),…,[22,24);

304,对用户呼叫频率分布参数进行归一化处理,处理过程如下:

Doutt=DouttCoutT,(t=1,...,12)

则归一化后的呼叫频率分布为

DoutT={Dout1,Dout2,...,Dout12,};

305,输出指定统计时间内指定用户的呼叫频率及其分布参数FCD

如图4所示,本发明方法的步骤(3)包括以下步骤:

401,查询指定用户的指定时间段T内的所有历史呼叫记录,包括呼入 和呼出;

402,统计用户发起呼叫中被拒绝接听的比例计算公式如下:

fET=CRoutTCoutT

其中,代表统计段时间内用户发出的所有呼叫次数,代表统 计段时间内被拒绝的主动呼叫次数;

403,统计用户的平均呼叫持续时间计算公式如下:

CTavgT=Σr=1Cin/outTtrCin/outT

其中,代表指定时间段T内的呼叫次数,tr为第r条呼叫记录对 应的呼叫时长,单位为秒;

404,统计呼叫持续时间的直方图分布CTDT,具体表示如下:

CTDT={CTD0,CTD1,...,CTD6,CTD7}

其中,表示指定时间段T内呼叫持续时间介于某个时 间段范围内的呼叫记录比例,具体计算公式如下:

405,输出指定统计时间内指定用户的呼叫持续时间及其分布参数DCT

本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已, 并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等 同替换和改进等,均应包含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号