法律状态公告日
法律状态信息
法律状态
2020-06-09
授权
授权
2017-09-29
实质审查的生效 IPC(主分类):G06Q10/10 申请日:20170503
实质审查的生效
2017-09-05
公开
公开
技术领域
本发明属于电子邮件网络技术领域,特别是一种能准确反映真实社会中人与人之间的通信的基于用户信息特征的电子邮件网络演化方法。
背景技术
在信息技术的迅猛发展下,人们的生活已经完全融入到一个满是复杂的网络世界中,有形的、无形的,各种各样,无处不在。网络像是一个大的系统,网络中的各个节点是系统中的不同的元素,不同元素之间的相互关系就形成了节点之间的边。于是科学家们想通过寻找某种规律,从而构造网络的拓扑结构,以便能够更好的研究网络,从而挖取网络中的价值。应用复杂网络的分析方法,能够更好的揭示网络的特点,对网络的形成,扩展,信息的传播等研究有重要的意义。随着计算机技术的加强,与互联网的快速发展,国内外众多学者已经从多方面对网络模型展开研究。而在不同的领域,网络模型的结构的特殊性也是有所差别的。
网络和计算机的快速发展,对于网络的认识越来越深刻和全面。规则网络并不是适用于实际网络的普遍性。于是,最早做出改变的是Watts和Strogatz,他们提出一种以他们名字命名的WS网络,网络在生成过程中边会随机化重连,当网络到达一定规模后,网络的平均路径较小,网络的聚集系数较高,网络呈现“小世界特性”;随后,Newman和watts发现WS网络存在的缺点,网络的随机重连可能会导致网络中出现较多的独立节点,针对这一现象提出一种改进的NW网络,它使用随机化加边取代随机化重连;后来,Barabasi和Albert通过大量实际网络发现,网络中节点度具有幂律特性,之后他们提出了一种无标度网络,也就是著名的BA网络;在BA网络模型的基础上,李青等人提出互联网舆情观点演化模型;周海涛等人提出基于BA模型的创新集群网络演化模型;王金龙等人提出边数随机增长的BA网络模型;王治萍提出一种BA网络的拓展模型;一时间关于BA网络的研究层出不穷;关于这方面的其他研究结果可参看文献。由于电子邮件的特殊性,人们对电子邮件网络的研究侧重性也不一样。例如,Bryan Klimt使用支持向量机来对邮件信息进行分类;Diesner和Carley以社会网络的角度对邮件数据集解剖,构建了用户通信网络,定位了核心节点;P.S.Keila等人利用邮件数据集来研究邮件欺诈行为;Andrew McCallum构建“用户-邮件主题”网络模型,研究邮件中单词、主题,以及发送者与接受者的关系,来分析邮件主题中隐含的关系结构。
总之,现有技术存在的问题是:对电子邮件网络的演化不能准确反映真实社会中人与人之间的通信。
发明内容
本发明的目的在于提供一种基于用户信息特征的电子邮件网络演化方法,能准确反映真实社会中人与人之间的通信。
实现本发明目的的技术解决方案为:
一种基于用户信息特征的电子邮件网络演化方法,包括如下步骤:
(10)初始化网络:对初始网络各节点特征向量的特征类赋初值,初始化网络;
(20)增长网络:向网络中加入新节点,新节点与网络内部进行连接,网络内部的节点之间概率性相连;
(30)权值动态演化:更新节点的强度和其连边的权重;
(40)节点特征向量调整:更新节点的特征向量;
(50)网络形成:在极限时长内重复(20)(30)(40)步骤,直至得到满足节点数的网络。
本发明是基于如下问题而设计的:
网络演化模型的演化规则构造师一个具有挑战且有意义的任务,因为在网络的演化过程中会受到不同因素影响。单纯的考虑网络中不同节点之间度进行择优选择不是一个精确的方法,应该考虑节点的信息特征对网络演化过程的影响。因此,构建基于用户信息特征的电子邮件网络演化模型来模拟真实邮件网络通信,对反映真实社会中人与人之间的通信有一定的意义。
本发明与现有技术相比,其显著优点为:可以更有效的分析电子邮件网络,并构建基于用户信息特征的电子邮件网络演化模型进行网络演化模拟,准确反映真实社会中人与人之间的通信。
下面结合附图和具体实施方式对本发明作进一步的详细描述。
附图说明
图1为本发明基于用户信息特征的电子邮件网络演化方法的主流程图。
图2为图1中增长网络步骤的流程图。
图3为节点数为2000时的节点出强度图。
图4为节点数为2000时的出度分布图。
图5为网络规模为2000时不同模型的平均路径比较。
图6为网络规模为2000时不同模型的簇系数比较。
图7为表1,Enron网络与三种模型比较。
图8为表2,上海大学邮件网络与三种模型比较。
具体实施方式
如图1所示,本发明基于用户信息特征的电子邮件网络演化方法,包括如下步骤:
(10)初始化网络:对初始网络各节点特征向量的特征类赋初值,初始化网络;
所述(10)初始化网络步骤具体为:
初始网络包含m0个节点,每个节点初始化一个特征向量,每个特征向量中有m0个特征类,每个特征类的初始值为:
其中Fi(k)表示第i个节点的第k类特征的值;这m0个节点组成全耦合网络,初始的边权值为w0。
(20)增长网络:向网络中加入新节点,新节点与网络内部进行连接,网络内部的节点之间概率性相连;
通过演化,使得网络成长到一定的规模。
如图2所示,所述(20)增长网络步骤包括:
(21)加入新节点:每个时间步,网络中每加入一个新的节点n,随机赋予节点n一个特征向量,同时根据特征向量的相似度从原有网络中选取M个点,M<m0),构成特征相似网络;
(22)新节点与网络连接:新节点以概率p1向特征相似网络中加入m条边,m<m0,m条边中以出边概率q作为出边,以入边概率1-q作为入边,其中新节点以出边连接节点i的概率为:
新节点以入边连接节点i的概率为:
其中,j是构成特征相似网络的节点集合,i是被选中连接的节点,s(in)i表示节点i的入强度,s(out)i表示节点i的出强度,
(23)特征相似网络内部节点概率性相连:以概率p2向特征相似网络中增加m条边,实现内部的增长;特征相似网络中,产生的边为<i,j>,如果节点i和j之间存在连接,则增加权重;否则建立一条新的边,并赋值初始权重w0,其中节点i的选择概率公式为(2),节点j的选择概率公式为(1);
(24)特征相似网络与外部网络节点概率性相连:以概率p3向特征相似网络和外部之间增加m条边,实现两者之间的连接,相对特征相似网络来说,m条边中以概率q作为出边,以1-q作为入边,节点的选择部分按照(22)的操作。
(30)权值动态演化:更新节点的强度和其连边的权重;
每次新节点的加入,会引起相连节点的额外流量负担,故该节点的边的权重会相应的进行调整。
所述(30)权值动态演化步骤具体为:
如果新加入的边为入边,则与节点i相关的权值变化为:
wji=wji+Δwji,
节点i的入强度调整为:
s(in)i=s(in)i+w0+δi;
如果新加入的边为出边,则节点i的相关权值变化为:
wij=wij+Δwij,
节点i的出强度调整为:
s(out)i=s(out)t+w0+δi;
其中wij表示有向边<i,j>的权重,Δwji表示额外流量负担造成的权重增加,δi表示权重增加的比例参数。
(40)节点特征向量调整:更新节点的特征向量;
每次新加入节点,相连节点的特征向量也会相应的调整。
所述(40)节点特征向量调整步骤具体为:
每增加一条边<i.j>,新节点i向节点j传递了信息,节点j的特征向量中每一特征类的值调整为:
Fjk=Fjk+Fik,
其中Fjk表示节点j的特征向量中第k类特征的值。
(50)网络形成:在极限时长内重复(20)(30)(40)步骤,直至得到满足节点数的网络。
所述(50)网络形成步骤包括:
(51)时间更新:将网络增长时间加1,得到新的网络增长时间;
(52)时间比较:将网络增长时间与极限时长t比较,当网络增长时间不大于极限时长时,转至(20)增长网络步骤,否则,将此时的网络作为最终演化的网络,网络节点数为mo+t。
经过t个时间步后,形成了节点数为m0+t6666666666666666666666666666666666666666666666666666666666666666666666
为了验证本发明方法的有效性,对本发明方法进行下述实验分析。
硬件环境:Intel(R)Core(TM)2.20GHz,2G内存的PC机一台。
软件环境:MicrosoftWindows10版操作系统。
(61)通过基于用户信息特征的电子邮件网络演化方法,验证网络的度分布与度强度规律
通过本方法演化机制,生成节点规模为2000的网络,该网络用二维矩阵表示,便于计算网络的特性;然后绘制该网络的度分布与度强度图,如图3和图4,发现通过本方法生成的网络的度分布和度强度都是符合幂率特性的,并且其幅度是随M值是可控的。
(62)通过基于用户信息特征的电子邮件网络演化方法,与经典演化方法进行对比分析本网络模型的优缺点
在相同网络规模的条件下,分别利用本方法与《Weighted evolving networks:coupling topology and weight dynamics》一文的BBV模型和《A new local-worldevolving network model》一文的“局域世界网络模型”进行对比分析其平均路径长度和簇系数。BBV是一种无向加权网络,在无标度网络的基础上加入权的概念;而局域世界网络是一种考虑一定大小圈子的网络。其结果如图5和图6所示,可以发现本网络模随着网络规模的增大,拥有较为稳定的平均路径长度,而且克服了局域世界网络的簇系数较小的缺点。
(63)本方法通过与两个真实网络进行比较,验证本方法的有效性
分别使用Enron数据集和上海大学自动化学院上传的邮件数据,采取相同的网络规模,通过与BBV模型和局域世界网络模型在特定的度量参数上进行比较分析,发现本文模型与真实网络更为接近,具有一定的实际意义,如图7表1和图8表2所示。
机译: 基于消息语义,发件人的电子邮件id和用户身份提供自动电子邮件过滤的方法和装置
机译: 基于消息语义,发件人的电子邮件id和用户身份提供自动电子邮件过滤的方法和装置
机译: 基于手机的电子邮件的基于用户的广告投放方法,以及针对个人的研究/问卷调查方法