首页> 中国专利> 确定时空共现区、非公共场所及用户社会行为关系的方法

确定时空共现区、非公共场所及用户社会行为关系的方法

摘要

本发明公开确定时空共现区、非公共场所及用户社会行为关系的方法,属于数据处理技术领域。所述方法首先利用位置数据兴趣点实现时空共现区的划分,然后,依次计算每个兴趣点的位置熵,完成非公共场所的识别;最后,根据非公共场所对时空共现区进行筛选,确定时空共现区用户存在的社会行为关系。本发明的方案解决了时空共现区划分不准确、公共场所兴趣点污染整体数据使得社会关系推断准确率不高、导致网络空间社会行为关系数据补全质量较低的问题。

著录项

  • 公开/公告号CN114817774A

    专利类型发明专利

  • 公开/公告日2022-07-29

    原文格式PDF

  • 申请/专利权人 中国人民解放军国防科技大学;

    申请/专利号CN202210514078.X

  • 申请日2022-05-12

  • 分类号G06F16/9537;G06F16/909;G06F16/29;

  • 代理机构中国和平利用军工技术协会专利中心;

  • 代理人刘光德

  • 地址 410073 湖南省长沙市开福区德雅路109号

  • 入库时间 2023-06-19 16:09:34

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-07-29

    公开

    发明专利申请公布

说明书

技术领域

本发明属于数据处理技术领域,尤其涉及确定时空共现区、非公共场所及用户社会行为关系的方法。

背景技术

网络空间测绘通过网络空间设施、服务和资源属性及关系进行探测、采集、识别、分析和处理,基于地理信息和逻辑关系进行地图绘制,全面描述和展示网络空间资产、属性、状态、关系及趋势等,为各类信息安全应用提供数据和技术支撑,对保障国家网络空间安全具有重大战略意义。

网络空间由多个不同的但相互关联的层组成(物理网络层、逻辑网络层、社会角色层),每个层都捕获了该域上的重要特征和行为。其中社会角色层描述了社会网络的组成和特征,包括社会行为体属性及其关系。社会行为体是管理、操作、使用各类网络设备、应用服务的用户角色,而社会行为体之间的边则表示用户之间的社会关系。

社会角色层数据主要通过社交媒体、社会工程、开源情报等手段获取,但目前社会角色层数据主要以离散的节点为主,缺少社会行为体关系(用户社会关系)。随着LBS技术的发展,部分社会行为体属性也增加了位置信息。基于位置数据开展挖掘和分析成为网络空间测绘中社会角色层关系数据补全的一条可行途径。

目前基于位置数据进行社会关系推断主要通过两种方法:(1)通过建立用户到访时空共现(Spatio-Temporal Co-occurrences)区,并根据时空共现区的频次等相关特征,结合机器学习方法(如随机森林)进行推断;(2)根据用户之间轨迹的相似性,对社会关系进行判断。由于第二种方法对数据的连续性要求较高,故多采用时空共现区法。

所谓“时空共现”,即两个用户u

然而,目前基于时空共现区的推断方法推断准确率及效率不够高,主要存在两个问题:(1)经典的时空共现区未考虑到用户到访地点位置呈圆形区域分布特征,以固定网格进行划分,导致原本属于同一地点的用户误划分至其他区域;(2)时空共现区中存在公共场所(如商场、车站),所有用户均可到访,利用该类数据进行社会关系推断可能会导致准确率降低。上述两方面问题最终导致社会角色层数据补全质量较低。

发明内容

针对上述技术问题,本发明提出确定时空共现区、非公共场所及用户社会行为关系的方案。

本发明第一方面公开了一种确定时空共现区的方法。所述方法包括:

步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;

其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;

步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;

步骤S3、对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区。

根据本发明第一方面的方法,在所述步骤S1中,确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。

根据本发明第一方面的方法,在所述步骤S2中:

当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;

当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。

根据本发明第一方面的方法,在所述步骤S3中:

对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;

对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。

本发明第二方面公开了一种确定非公共场所的方法,所述方法包括:

步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;

其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;

步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;

步骤S3、对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;

其中,利用如下公式计算所述位置熵:

其中,

根据本发明第二方面的方法,在所述步骤S1中,确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。

根据本发明第二方面的方法,在所述步骤S2中:

当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;

当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。

本发明第三方面公开了一种基于时空共现区确定用户社会行为关系的方法,所述方法包括:

步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;

其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;

步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;

步骤S3、对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区;

步骤S4、对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;

其中,利用如下公式计算所述位置熵:

其中,

步骤S5、提取所述时空共现区中包含的兴趣点和关联的用户,当所述包含的兴趣点为非公共场所时,基于所述非公共场所确定所述关联的用户之间的社会行为关系。

根据本发明第三方面的方法,在所述步骤S1中,确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。

根据本发明第三方面的方法,在所述步骤S2中:

当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;

当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。

根据本发明第三方面的方法,在所述步骤S3中:

对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;

对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。

本发明第四方面公开了一种确定时空共现区的系统,所述系统包括,

第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;

其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;

第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;

第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区。

根据本发明第四方面的系统,所述第一处理单元具体被配置为:确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。

根据本发明第四方面的系统,所述第二处理单元具体被配置为:

当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;

当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。

根据本发明第四方面的系统,所述第三处理单元具体被配置为:

对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;

对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。

本发明第五方面公开了一种确定非公共场所的系统,所述系统包括:

第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;

其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;

第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;

第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;

其中,利用如下公式计算所述位置熵:

其中,

根据本发明第五方面的系统,所述第一处理单元具体被配置为:确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。

根据本发明第五方面的系统,所述第二处理单元具体被配置为:

当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;

当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。

本发明第六方面公开了一种基于时空共现区确定用户社会行为关系的系统,所述系统包括:

第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;

其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;

第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;

第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区;

第四处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;

其中,利用如下公式计算所述位置熵:

其中,

第五处理单元,被配置为:提取所述时空共现区中包含的兴趣点和关联的用户,当所述包含的兴趣点为非公共场所时,基于所述非公共场所确定所述关联的用户之间的社会行为关系。

根据本发明第六方面的系统,所述第一处理单元具体被配置为:确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。

根据本发明第六方面的系统,所述第二处理单元具体被配置为:

当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;

当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。

根据本发明第六方面的系统,所述第三处理单元具体被配置为:

对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;

对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。

本发明第七方面公开了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本公开第一方面、第二方明、第三方面任一方法中的步骤。

本发明第八方面公开了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现本公开第一方面、第二方明、第三方面任一方法中的步骤。

综上,本发明提供的技术方案提供了一种时空共现区划分方法,用以解决现有技术中网格区域划分时空共现区的方式不够准确的问题;提供了一种利用位置熵进行对公共场所进行识别的方法;提供了一种基于位置数据的社会行为关系数据补全方法,实现社会行为提关系数据高精度补全。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为根据本发明实施例1确定时空共现区的流程图;

图2a和2b为时空共现区提取方法的对比图;

图3为根据本发明实施例2确定非公共场所的流程图;

图4为根据本发明实施例3确定社会行为关系的流程图;

图5为根据本发明实施例的一种电子设备的结构图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例只是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明第一方面公开了一种确定时空共现区的方法。所述方法包括:

步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;

其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;

步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;

步骤S3、对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区。

注意,在判定存在时空共现区后,对于时空共现区的范围的确定,除了步骤S3中的“将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区”之外,还可以采用本领域的其他划定方式。例如,以当前兴趣点的中心坐标为圆心,以预设值(500米、1000米等)为半径,画圆形区域作为时空共现区。

在一些实施例中,在所述步骤S1中,确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。

在一些实施例中,在所述步骤S2中:

当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;

当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。

在一些实施例中,在所述步骤S3中:

对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;

对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。

具体实施例1(如图1所示):

S01:输入坐标位置数据集或区域ID位置数据集;

S02:判断数据集类型,若数据集类型为坐标数据,则执行S03,若数据集类型为区域ID数据,则执行S07;

S03:根据所有用户位置集范围,查询地理数据库中在该位置范围的POI(Point ofInterest,兴趣点即语义化地点),依次提取POI对应的中心坐标;

S04:设定时空共现区判别阈值λ,依次计算每个POI中心坐标与用户坐标的距离;

S05:判断POI中心坐标与用户坐标的距离是否小于该阈值,若小于阈值执行S06,否则执行S03依次提取POI对应的中心坐标;

S06:则将数据点按POI标识加入候选集合,执行S09;

S07:若数据集类型为区域ID数据,根据用户区域ID集合,遍历查询地理数据库中与该区域ID集对应的兴趣点POI集合,依次选择提取POI对应区域ID;

S08:判断POI对应区域ID与用户区域ID是否一致,若一致则执行S09,否则执行S07依次选择提取POI对应区域ID;

S09:将数据点按POI标识加入位置候选集合;

S10:依次选定按POI标识排列的位置数据候选集;

S11:划定

S12:判断满足S11中条件的候选集合中是否存在2个以上用户,若有则该候选集为时空共现区,否则执行S11;

S13:输出时空共现区标识及用户ID。

如图2a和2b所示,原时空共现区识别方法以区域

本发明第二方面公开了一种确定非公共场所的方法,所述方法包括:

步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;

其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;

步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;

步骤S3、对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;

其中,利用如下公式计算所述位置熵:

其中,

根据本发明第二方面的方法,在所述步骤S1中,确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。

根据本发明第二方面的方法,在所述步骤S2中:

当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;

当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。

具体实施例2(如图3所示):

由于公共场所到访的用户数目较多,用户随机性强,利用该部分时空数据进行关系推断时准确率较低。为避免整体数据集被污染,需要剔除该部分数据。因此需要对非公共场所数据进行识别。

为解决该问题,利用位置熵指标对公共场所及非公共场所进行分离。位置熵值越大,信息增益越大,可预测性越差,用户活动越活跃,表明该地点为公共场所的概率越大。反之,位置熵值越小,信息增益越小,可预测性越好,用户活动活跃度越小,表明该地点为非公共场所的概率越大。

具体方法流程包括:

S01:输入坐标位置数据集或区域ID位置数据集;

S02:判断数据集类型,若数据集类型为坐标数据,则执行S03,若数据集类型为区域ID数据,则执行S07;

S03:根据所有用户位置集范围,查询地理数据库中在该位置范围的POI(Point ofInterest,兴趣点即语义化地点),依次提取POI对应的中心坐标;

S04:设定时空共现区判别阈值λ,依次计算每个POI中心坐标与用户坐标的距离;

S05:判断POI中心坐标与用户坐标的距离是否小于该阈值,若小于阈值执行S06,否则执行S03依次提取POI对应的中心坐标;

S06:则将数据点按POI标识加入候选集合,执行S09;

S07:若数据集类型为区域ID数据,根据用户区域ID集合,遍历查询地理数据库中与该区域ID集对应的兴趣点POI集合,依次选择提取POI对应区域ID;

S08:判断POI对应区域ID与用户区域ID是否一致,若一致则执行S09,否则执行S07依次选择提取POI对应区域ID;

S09:将数据点按POI标识加入候选集合;

S10:依次选定按POI标识排列的位置数据候选集;

S11:设定位置熵阈值α,以每一个POI对应位置候选集为输入,按照下式计算POI对应区域的位置熵(用于评价用户在区域的可预测程度)。

其中,

S12:判断

S13:识别为非公共场所,记录POI标识并输出。

本发明第三方面公开了一种基于时空共现区确定用户社会行为关系的方法,所述方法包括:

步骤S1、利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;

其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;

步骤S2、基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;

步骤S3、对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区;

步骤S4、对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;

其中,利用如下公式计算所述位置熵:

其中,

步骤S5、提取所述时空共现区中包含的兴趣点和关联的用户,当所述包含的兴趣点为非公共场所时,基于所述非公共场所确定所述关联的用户之间的社会行为关系。

根据本发明第三方面的方法,在所述步骤S1中,确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。

根据本发明第三方面的方法,在所述步骤S2中:

当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;

当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。

根据本发明第三方面的方法,在所述步骤S3中:

对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;

对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。

具体实施例3(如图4所示):

S01:输入坐标位置数据集或区域ID位置数据集;

S02:按照本发明第一方面步骤提取时空共现区及用户ID;

S03:按照本发明第二方面步骤提取非公共场所POI标识,生成非公共场所POI标识库;

S04:依次选定某一时空共现区;

S05:判断时空共现区所属POI是否包含于S03步骤生成的POI库,若包含则执行S06,否则执行S04;

S06:判定该时空共现区的用户之间存在社会关系,完成社会行为体关系数据补全。

在一些实施例中,时空共现区中提取到兴趣点A及其关联用户u

具体地,以提取到的兴趣点A作为非公共场所的社会属性来建立用户u

具体地,以提取到的兴趣点B作为非公共场所的社会属性来建立用户u

本发明第四方面公开了一种确定时空共现区的系统,所述系统包括,

第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;

其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;

第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;

第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区。

根据本发明第四方面的系统,所述第一处理单元具体被配置为:确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。

根据本发明第四方面的系统,所述第二处理单元具体被配置为:

当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;

当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。

根据本发明第四方面的系统,所述第三处理单元具体被配置为:

对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;

对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。

本发明第五方面公开了一种确定非公共场所的系统,所述系统包括:

第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;

其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;

第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;

第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;

其中,利用如下公式计算所述位置熵:

其中,

根据本发明第五方面的系统,所述第一处理单元具体被配置为:确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。

根据本发明第五方面的系统,所述第二处理单元具体被配置为:

当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;

当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。

本发明第六方面公开了一种基于时空共现区确定用户社会行为关系的系统,所述系统包括:

第一处理单元,被配置为:利用用户的位置数据集确定包含在所述位置数据集中的各条位置数据的区域范围,并提取所述区域范围中的K个兴趣点;

其中,所述位置数据集包含N个用户的M条位置数据,所述位置数据为所述用户到访过的位置的坐标数据或者所述用户到访过的区域的标识数据;所述兴趣点为地图上经语义化的热点位置,每个所述兴趣点都具有其中心坐标;

第二处理单元,被配置为:基于所述K个兴趣点的中心坐标从所述M条位置数据中确定L条候选位置数据,并将所述L条候选位置数据与所述K个兴趣点进行关联;

第三处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据中处于预设时间段内的至少两条候选位置数据,并进一步确定所述至少两条候选位置数据所属的至少两个用户,将包含当前兴趣点、所述至少两条候选位置数据的区域判定为所述至少两个用户之间的时空共现区;

第四处理单元,被配置为:对所述K个兴趣点中的每个兴趣点,基于与其关联的候选位置数据计算当前兴趣点的位置熵,当所述位置熵小于熵阈值时,判定所述当前兴趣点为所述非公共场所;

其中,利用如下公式计算所述位置熵:

其中,

第五处理单元,被配置为:提取所述时空共现区中包含的兴趣点和关联的用户,当所述包含的兴趣点为非公共场所时,基于所述非公共场所确定所述关联的用户之间的社会行为关系。

根据本发明第六方面的系统,所述第一处理单元具体被配置为:确定包含所述位置数据集中的各条位置数据的所述区域范围包括:在二维坐标系中标注所述各条位置数据,确定所述各条位置数据在所述二维坐标系中横轴的最大值点和最小值点,以及纵轴的最大值点和最小值点,以上述四点做矩形区域作为所述区域范围,所述矩形区域的边与所述二维坐标系的坐标轴平行或垂直。

根据本发明第六方面的系统,所述第二处理单元具体被配置为:

当所述位置数据为所述用户到访过的位置的坐标数据时,对所述K个兴趣点中的每个兴趣点,分别计算各个坐标数据与所述当前兴趣点的中心坐标之间的距离,当所述距离小于距离阈值时,判定所述坐标数据为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联;

当所述位置数据为所述用户到访过的区域的标识数据时,对所述K个兴趣点中的每个兴趣点,确定包含其中心坐标的所有区域标识,判断所述用户到访过的区域的标识数据是否在所述所有区域标识中,若是,则将所述标识数据作为所述当前兴趣点的候选位置数据,以将所述选位置数据与所述当前兴趣点关联。

根据本发明第六方面的系统,所述第三处理单元具体被配置为:

对所述K个兴趣点中的每个兴趣点,获取与其关联的候选位置数据,判断在所述预设时间段内存在的候选位置数据的数量是否大于或等于两条,若是则提取出所述至少两条候选位置数据;

对提取出的所述至少两条候选位置数据,确定所述至少两条候选位置数据所属的用户,并判断所述所属的用户的数量是否大于或等于两个,若是,则判定所述至少两个用户之间存在所述时空共现区。

本发明第七方面公开了一种计算机可读存储介质。所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本公开第一方面、第二方明、第三方面任一方法中的步骤。

本发明第八方面公开了一种电子设备。所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时,实现本公开第一方面、第二方明、第三方面任一方法中的步骤。

图5为根据本发明实施例的一种电子设备的结构图,如图5所示,电子设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该电子设备的处理器用于提供计算和控制能力。该电子设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该电子设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、近场通信(NFC)或其他技术实现。该电子设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该电子设备的输入装置可以是显示屏上覆盖的触摸层,也可以是电子设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图5中示出的结构,仅仅是与本公开的技术方案相关的部分的结构图,并不构成对本申请方案所应用于其上的电子设备的限定,具体的电子设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

综上,本发明提供的技术方案提供了一种时空共现区划分方法,用以解决现有技术中网格区域划分时空共现区的方式不够准确的问题;提供了一种利用位置熵进行对公共场所进行识别的方法;提供了一种基于位置数据的社会行为关系数据补全方法,实现社会行为提关系数据高精度补全。

根据本发明的上述方案,获得以下技术效果:(1)利用新的时空共现区的划分方式实现时空共现区的准确划分,为后续社会关系推断判别奠定数据基础;(2)利用基于位置熵的非公共场所识别方法实现对工作地点、居住地点等非公共场所的识别,从而实现与制约社会关系推断准确率的公共场所位置数据的分离;(3)利用提出的一种基于位置数据的社会行为体关系数据补全方法,实现社会关系的高精度推断,从而最终实现网络空间社会角色层的社会行为体关系数据补全。

请注意,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号