首页> 中国专利> 一种基于位置信息进行用户工作单位挖掘的方法及装置

一种基于位置信息进行用户工作单位挖掘的方法及装置

摘要

本发明实施例提供一种基于位置信息进行用户工作单位挖掘的方法及装置,所述方法包括:根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息;根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位置信息分别对应的工作单位标识信息;利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作单位标识信息。本方案从用户历史位置信息库中,统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息,根据所述统计时间段的工作时间所在的所有位置信息挖掘每个用户对应的工作单位。

著录项

  • 公开/公告号CN104965876A

    专利类型发明专利

  • 公开/公告日2015-10-07

    原文格式PDF

  • 申请/专利权人 微梦创科网络科技(中国)有限公司;

    申请/专利号CN201510321017.1

  • 发明设计人 张炜;

    申请日2015-06-12

  • 分类号

  • 代理机构北京和信华成知识产权代理事务所(普通合伙);

  • 代理人胡剑辉

  • 地址 100080 北京市海淀区彩和坊路6号7-10层

  • 入库时间 2023-12-18 11:19:06

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-11-27

    授权

    授权

  • 2015-11-11

    实质审查的生效 IPC(主分类):G06F17/30 申请日:20150612

    实质审查的生效

  • 2015-10-07

    公开

    公开

说明书

技术领域

本发明涉及互联网技术领域,尤其涉及一种基于位置信息进行用户工作单位挖掘的方 法及装置。

背景技术

在互联网信息技术中,所谓用户工作单位挖掘:在不知道用户的工作单位的情况下, 根据用户的关系或行为数据对其工作单位进行预测的方法。

现有技术一的技术方案目前的方法主要是通过提取用户自填信息获得,用户使用社交 网络时,需要填写注册信息,用户会填写自己的工作单位信息。通过对该部分信息进行去 噪声后,获得用户的工作单位信息。具体流程如下:搜集用户填写的工作单位信息——去 噪声——用户单位信息,其中,去噪声包括去除一些无意义或明显不是工作单位的信息, 如家里蹲、联系QQ号等。目前的方法至少存在以下几方面缺点:1、用户自填工作单位 信息随意度比较高,且缺乏有效方法检验其填写正确性,导致用户工作单位信息准确率度 低。2、用户工作单位信息在注册时通常不是必填信息,大量用户并不会填写当前的工作 单位信息,导致用户工作单位信息覆盖率低,可用性不强。3、用户经常变更工作单位, 且用户在变更其工作单位时,往往不会更新其注册资料,导致注册信息不是其最新工作单 位信息,导致信息的时效性和可用性降低。

现有技术二的技术方案,在目前的社交网络中,有一些用户被其他用户打上单位标签, 方法二对统计用户被打上的所有单位标签,选择数量最多的单位标签作为用户的工作单 位。具体步骤如下:1、选择一个用户,并获取该用户所有被其他用户打上的单位标签;2、 遍历该用户的单位标签,对相应的标签计数器增1;3、选择最大的标签计数器所在的标签 作为用户的工作单位;4、如果还有其他用户,转到1。其缺点为:1、仅有一些名人或高 管会被打上单位标签,90%以上的人无相关标签,因而覆盖率不够。2、标签未标注时间, 因而无法体现出用户最新的工作单位,导致信息的时效性和可用性降低。

发明内容

本发明实施例提供一种基于位置信息进行用户工作单位挖掘的方法及装置,以提高用 户工作单位挖掘的准确性。

一方面,本发明实施例提供了一种基于位置信息进行用户工作单位挖掘的方法,所述 方法包括:

根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述统计时 间段的工作时间所在的所有位置信息;

根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每一个位 置信息分别对应的工作单位标识信息;

利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作 单位标识信息。

另一方面,本发明实施例提供了一种基于位置信息进行用户工作单位挖掘的装置,所 述装置包括:

位置信息获取单元,用于根据用户历史位置信息库,统计一设定的统计时间段内出现 的多个用户在所述统计时间段的工作时间所在的所有位置信息;

单位标识确定单元,用于根据所述多个用户在所述统计时间段的工作时间所在的所有 位置信息,确定每一个位置信息分别对应的工作单位标识信息;

分析挖掘单元,用于利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出 每个用户对应的工作单位标识信息。

上述技术方案具有如下有益效果:本方案从用户历史位置信息库中,统计一设定的统 计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息,根据所述 统计时间段的工作时间所在的所有位置信息挖掘每个用户对应的工作单位,因而即使那些 未在注册信息中填写单位信息的,或者填写错误的单位地址的,都可以通过本方案发现, 因而具有较强的健壮性。另外本方案基于最近工作时间的位置来计算用户单位,解决了用 户最新的工作单位挖掘问题,具有较强的实效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根 据这些附图获得其他的附图。

图1为本发明实施例一种基于位置信息进行用户工作单位挖掘的方法流程图;

图2为本发明实施例一种基于位置信息进行用户工作单位挖掘的装置结构示意图;

图3为本发明实施例位置信息获取单元结构示意图;

图4为本发明实施例单位标识确定单元结构示意图;

图5为本发明实施例分析挖掘单元结构示意图;

图6为本发明第一应用实例计算框架示意图;

图7为本发明第二应用实例计算框架示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地 描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本 发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实 施例,都属于本发明保护的范围。

在社交网络中,对用户进行准确的画像是实施个性化推荐的关键,而用户所在工作单 位的挖掘是用户画像(UP,User Profile,通过一系列的属性对用户进行描述,属性包括但 不限于性别、年龄、职业、行业、兴趣等。有了用户的属性描述后,就相当于对用户基本 情况有了一定的了解)的重要部分,挖掘出了用户的所在工作单位,就可以在社交网络中, 推荐该单位的其他同事供该用户所关注,能够明显提高推荐的认可率,进而提升其在社交 网络中的参与度和活跃度。

如图1所示,为本发明实施例一种基于位置信息进行用户工作单位挖掘的方法流程图, 所述方法包括:

101、根据用户历史位置信息库,统计一设定的统计时间段内出现的多个用户在所述 统计时间段的工作时间所在的所有位置信息;

102、根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息,确定每 一个位置信息分别对应的工作单位标识信息;

103、利用所述每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应 的工作单位标识信息。

优选的,所述位置信息为经纬度信息,所述用户历史位置信息库的存储格式为用户账 号+全球定位系统GPS经纬度信息+访问时间;所述根据用户历史位置信息库,统计一设定 的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息,包 括:使用位置投影方法,将所述GPS经纬度信息转换成对应的格子标识信息;所述格子为 16级格子,或18级格子,不同级别的格子代表不同的地域范围;所述位置投影方法包括: 墨卡托投影方法,高斯投影方法。

进一步地,优选的,所述根据所述多个用户在所述统计时间段的工作时间所在的所有 位置信息,确定每一个位置信息分别对应的工作单位标识信息,包括:针对每一个格子, 分别执行如下处理:选择一个格子,格子标识信息记为gz,统计设定的统计时间段内在该 格子中出现的人数,记为all_count;根据每个用户注册时填写的工作单位标识信息,统计 该格子内各个工作单位对应的人数,记为count(corp);确定该格子中人数最多的工作单 位,工作单位标识信息记为corp,该工作单位对应的人数记为max_count;定义单位人数 比rate=max_count/all_count,如果max_count大于特定阈值c,且rate大于特定阈值r,则 确定该格子gz与工作单位corp相对应,从而确定当前的格子标识信息对应的工作单位标 识信息;其中,c=1,r=0.2;

所述利用每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作 单位标识信息,包括:统计在设定的统计时间段内每个用户在工作时间所在的不同格子的 次数,并根据每一个格子标识信息分别对应的工作单位标识信息,确定每个用户在设定的 统计时间段内所在的不同工作单位的次数,选择出现次数最多的工作单位挖掘出当前用户 对应的工作单位标识信息。

或者,优选的,所述用户历史位置信息库包括用户网络访问日志,所述位置信息为网 络地址信息;所述根据用户历史位置信息库,选择一设定的统计时间段内出现的多个用户 在所述统计时间段的工作时间所在的所有位置信息,包括:通过用户网络访问日志,统计 所述设定的统计时间段内出现的多个用户在所述统计时间段的工作时间访问过的所有网 络地址信息,所述用户网络访问日志格式为用户账号+网络地址信息+访问时间。

进一步地,优选的,所述根据所述多个用户在所述统计时间段的工作时间所在的所有 位置信息,确定每一个位置信息分别对应的工作单位标识信息,包括:针对每一个网络地 址,分别执行如下处理:选择一个网络地址,网络地址信息记为na,统计所述设定的统计 时间段内使用该网络地址的人数,记为all_count_2;根据每个用户注册时填写的工作单位 标识信息,统计该网络地址上各个工作单位对应的人数;所述网络地址至少为如下的一种: IPv4地址,IPv6地址,异步传输模式ATM地址;确定该网络地址上使用人数最多的工作 单位,工作单位标识信息记为corp_2,该工作单位对应的人数记为max_count_2;定义单 位人数比rate_2=max_count_2/all_count_2,如果max_count_2大于特定阈值c_2,且rate_2 大于特定阈值r_2,则确定该网络地址na与工作单位corp_2相对应,从而确定当前的网络 地址信息对应的工作单位标识信息;其中,c_2=1,r_2=0.2;

所述利用每一个位置信息分别对应的工作单位标识信息,挖掘出每个用户对应的工作 单位标识信息,包括:统计在设定的统计时间段内每个用户在工作时间使用过的不同网络 地址的次数,并根据每一个网络地址信息分别对应的工作单位标识信息,确定每个用户在 设定的统计时间段内使用过的不同工作单位的次数,选择出现次数最多的工作单位挖掘出 当前用户对应的工作单位标识信息。

对应于上述方法实施例,如图2所示,为本发明实施例一种基于位置信息进行用户工 作单位挖掘的装置结构示意图,所述装置包括:

位置信息获取单元21,用于根据用户历史位置信息库,统计一设定的统计时间段内 出现的多个用户在所述统计时间段的工作时间所在的所有位置信息;

单位标识确定单元22,用于根据所述多个用户在所述统计时间段的工作时间所在的 所有位置信息,确定每一个位置信息分别对应的工作单位标识信息;

分析挖掘单元23,用于利用所述每一个位置信息分别对应的工作单位标识信息,挖 掘出每个用户对应的工作单位标识信息。

优选的,所述位置信息为经纬度信息,所述用户历史位置信息库的存储格式为用户账 号+全球定位系统GPS经纬度信息+访问时间;如图3所示,为本发明实施例位置信息获取 单元结构示意图,所述位置信息获取单元21包括:

第一位置信息获取单元211,用于使用位置投影方法,将所述GPS经纬度信息转换成 对应的格子标识信息;所述格子为16级格子,或18级格子,不同级别的格子代表不同的 地域范围;所述位置投影方法包括:墨卡托投影方法,高斯投影方法。

进一步地,优选的,如图4所示,为本发明实施例单位标识确定单元结构示意图,所 述单位标识确定单元22,包括:第一单位标识确定单元221,用于针对每一个格子,分别 执行如下处理:选择一个格子,格子标识信息记为gz,统计设定的统计时间段内在该格子 中出现的人数,记为all_count;根据每个用户注册时填写的工作单位标识信息,统计该格 子内各个工作单位对应的人数,记为count(corp);确定该格子中人数最多的工作单位, 工作单位标识信息记为corp,该工作单位对应的人数记为max_count;定义单位人数比 rate=max_count/all_count,如果max_count大于特定阈值c,且rate大于特定阈值r,则确 定该格子gz与工作单位corp相对应,从而确定当前的格子标识信息对应的工作单位标识 信息;其中,c=1,r=0.2;

如图5所示,为本发明实施例分析挖掘单元结构示意图,所述分析挖掘单元23,包括: 第一分析挖掘单元231,用于统计在设定的统计时间段内每个用户在工作时间所在的不同 格子的次数,并根据每一个格子标识信息分别对应的工作单位标识信息,确定每个用户在 设定的统计时间段内所在的不同工作单位的次数,选择出现次数最多的工作单位挖掘出当 前用户对应的工作单位标识信息。

或者,优选的,所述用户历史位置信息库包括用户网络访问日志,所述位置信息为网 络地址信息;如图3所示,所述位置信息获取单元21包括:第二位置信息获取单元212, 用于通过用户网络访问日志,统计所述设定的统计时间段内出现的多个用户在所述统计时 间段的工作时间访问过的所有网络地址信息,所述用户网络访问日志格式为用户账号+网 络地址信息+访问时间。

进一步地,优选的,如图4所示,所述单位标识确定单元22,包括:第二单位标识确 定单元222,用于针对每一个网络地址,分别执行如下处理:选择一个网络地址,网络地 址信息记为na,统计所述设定的统计时间段内使用该网络地址的人数,记为all_count_2; 根据每个用户注册时填写的工作单位标识信息,统计该网络地址上各个工作单位对应的人 数;所述网络地址至少为如下的一种:IPv4地址,IPv6地址,异步传输模式ATM地址; 确定该网络地址上使用人数最多的工作单位,工作单位标识信息记为corp_2,该工作单位 对应的人数记为max_count_2;定义单位人数比rate_2=max_count_2/all_count_2,如果 max_count_2大于特定阈值c_2,且rate_2大于特定阈值r_2,则确定该网络地址na与工作 单位corp_2相对应,从而确定当前的网络地址信息对应的工作单位标识信息;其中,c_2=1, r_2=0.2;

如图5所示,所述分析挖掘单元23,包括:第二分析挖掘单元232,用于统计在设定 的统计时间段内每个用户在工作时间使用过的不同网络地址的次数,并根据每一个网络地 址信息分别对应的工作单位标识信息,确定每个用户在设定的统计时间段内使用过的不同 工作单位的次数,选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信 息。

本发明实施例上述技术方案具有如下有益效果:本方案从用户历史位置信息库中,统 计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置 信息,根据所述统计时间段的工作时间所在的所有位置信息挖掘每个用户对应的工作单 位,因而即使那些未在注册信息中填写单位信息的,或者填写错误的单位地址的,都可以 通过本方案发现,因而具有较强的健壮性。另外本方案基于最近工作时间的位置来计算用 户单位,解决了用户最新的工作单位挖掘问题,具有较强的实效性。

以下结合应用实例对本发明实施例上述技术方案进行详细说明:

第一应用实例:

本发明应用实例旨在统计用户在工作时间的位置信息挖掘用户所在的工作单位,即先 计算出用户在工作时间里的所有位置信息,再挖掘出单位所在的位置信息,最后通过统计 出用户出现次数最多的单位,作为用户的当前工作单位。

如图6所示,为本发明第一应用实例计算框架示意图,具体步骤如下:

步骤1:用户工作时间所在的位置信息计算。

该步骤可以细分为如下两个步骤:

1.1 根据用户历史位置信息库(社交网络软件会定期记录用户所处的位置),统计一 设定的统计时间段(如过去一个月)内出现的多个用户在所述统计时间段的工作时间所在 的所有位置信息,工作时间可以定义为每个工作日的早上9点到晚上6点,我们只选择该 段时间内所有用户的位置信息。历史位置信息库格式可以为用户账号+GPS经纬度信息+访 问时间。

1.2 使用墨卡托投影算法将上述步骤中的经纬度位置信息转换成对应的格子标识信 息,不同级别的格子代表不同的地域范围(16级格子的范围约为500米),可以根据精度 选择格子级别,格子级别越高,精度越高。在实施过程中,可以选择18级格子。

步骤2:用户单位位置计算。

该步骤主要用于推断单位所处的格子,针对每一个格子,分别执行如下处理,具体步 骤如下:

2.1 选择一个格子,格子标识信息记为gz,统计设定的统计时间段内在该格子中出现 的人数,记为all_count;根据每个用户注册时填写的工作单位标识信息,统计该格子内各 个工作单位对应的人数,记为count(corp);(若注册信息为A公司的人数为10人,则 count(A)=10);

2.2 确定该格子中人数最多的工作单位,工作单位标识信息记为corp,该工作单位对 应的人数记为max_count;

2.3 定义单位人数比rate=max_count/all_count,如果max_count大于特定阈值c,且rate 大于特定阈值r,则确定该格子gz与工作单位corp相对应,从而确定当前的格子标识信息 对应的工作单位标识信息。

在实施过程中,根据精确度要求选择不同的c和r,可以选择c=1,r=0.2。经过该步骤 后,我们可以获得到所有格子标识信息对应的工作单位标识信息。

步骤3:用户单位计算

该步骤可以分为以下几个子步骤:

3.1 基于步骤1,统计在设定的统计时间段内每个用户在工作时间所在的不同格子的次 数,并根据每一个格子标识信息分别对应的工作单位标识信息,确定每个用户在设定的统 计时间段内所在的不同工作单位的次数;

3.2 选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。

例如:

步骤1:搜集用户在工作时间的位置。如下表所示(为便于说明,仅选取部分数据):

步骤2:用户单位所在格子计算。

需要对步骤1中的结果进行统计,计算出每一个格子所对应的单位。先统计过去一段 时间工作时间位于该格子的人数,

根据上述步骤统计出该地址中使用人数最多的单位,单位名为corp,人数为count。

定义单位人数比rate=max_count/all_count。

根据过滤规则,上述三个格子均满足all_count>1,rate>0.2。所以可以判定出 1321001210132122、1321001210132300为新浪网所处的格子,1321001210110333为百度 所处的格子。

步骤3:用户单位计算

用户ID 用户的可能单位 用户在该格子出现的天数 1906271640 新浪网 4 1906271640 百度 1 1806281641 新浪网 3 1706281643 新浪网 5 1706281643 百度 1 1105281642 新浪网 4

1000281652 百度 2 1010291658 百度 2 1111291657 百度 1

根据投票,选择出现次数最多的单位作为用户的当前工作单位。

用户ID 用户单位 用户处于该格子的天数 1906271640 新浪网 5 1806281641 新浪网 3 1706281643 新浪网 5 1105281642 新浪网 4 1000281652 百度 2 1010291658 百度 2 1111291657 百度 1

本发明应用实例所述方案通过在单位所处格子里出现的人群作为该单位的可能员工, 因而即使那些未在注册信息中填写单位信息的,但出现在单位格子里用户(如用户 1105281642),填写错误的单位地址(如用户1806281641、1111291657)都可以通过本方 案发现,因而具有较强的健壮性。另外本方案基于最近工作时间所处的位置来计算用户单 位,解决了挖掘出用户最新的工作单位问题,具有较强的时效性。本发明应用实例主要通 过用户工作时间曾经去过的位置、推算用户单位位置、推算用户所在单位等三个步骤完成 用户工作单位的挖掘。本发明应用实例通过用户上网的位置信息来挖掘用户的工作单位, 包括用户单位位置计算、用户单位的标识。本发明中使用的位置投影方法,包括但不限于 墨卡托投影,高斯投影等。

第二应用实例:

本发明应用实例中的所述用户历史位置信息库包括用户网络访问日志,所述位置信息 不局限于GPS经纬度地理位置,还包括网络位置信息(如:IP地址)。本发明应用实例旨 在用户在工作时间访问社交网络时使用的网络地址信息挖掘出用户所在的工作单位,即先 计算出用户在工作时间里的所使用的所有网络地址信息,再挖掘出工作单位经常使用的网 络地址,最后通过统计出用户出现次数最多的单位,作为用户的当前工作单位。

2.2 本发明或者实用新型提供的完整技术方案(发明或者实用新型方案)

如图7所示,为本发明第二应用实例计算框架示意图,具体步骤如下:

具体步骤如下:

步骤1:计算用户工作时间曾经使用过的网络地址。

该步骤需要通过用户网络访问日志(社交网络软件服务器端会记录用户使用软件时所 用的网络地址),统计统计所述设定的统计时间段内(如过去一个月)出现的多个用户在 所述统计时间段的工作时间访问过的所有网络地址信息,工作时间可以定义为每个工作日 的早上9点到晚上6点,我们只分析该段时间内所有用户使用软件时的网络地址信息,在 执行该步骤时,我们需要去除所有无效IP地址,无效IP地址包括环回地址(如127.0.0.1), 局域网地址(如10.*.*.*,192.168.*.*,172.16~31.*.*);同时,我们要对日志中的用户使用 IP进行按天去重,即同一天,获取到某用户重复使用相同IP地址时,只取第一次。用户 网络访问日志格式为用户账号+网络地址信息+访问时间。

步骤2:用户单位网络地址计算。

该步骤主要用于推断单位所经常使用的网络地址,针对每一个网络地址,分别执行如 下处理,具体步骤如下:

2-1 选择一个网络地址,网络地址信息记为na,统计所述设定的统计时间段内使用该 网络地址的人数,记为all_count_2;根据每个用户注册时填写的工作单位标识信息,统计 该网络地址上各个工作单位对应的人数;所述网络地址至少为如下的一种:IPv4地址,IPv6 地址,异步传输模式ATM地址;

2-2 确定该网络地址上使用人数最多的工作单位,工作单位标识信息记为corp_2,该 工作单位对应的人数记为max_count_2;

2-3 定义单位人数比rate_2=max_count_2/all_count_2,如果max_count_2大于特定阈值 c_2,且rate_2大于特定阈值r_2,则确定该网络地址na与工作单位corp_2相对应,从而 确定当前的网络地址信息对应的工作单位标识信息。

在实施过程中,根据精确度要求选择不同的c_2和r_2,可以选择c_2=1,rate_2=0.2。 经过该步骤后,我们可以获得到所有网络地址信息对应的工作单位标识信息。

步骤3:用户单位计算

该步骤可以分为以下几个子步骤

3-1 基于步骤1,统计在设定的统计时间段内每个用户在工作时间使用过的不同网络地 址的次数,并根据每一个网络地址信息分别对应的工作单位标识信息,确定每个用户在设 定的统计时间段内使用过的不同工作单位的次数。

3-2 选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。

例如:

步骤1:搜集用户在办公室时间访问社交网络时曾经使用的网络地址。如下表所示(为 便于说明,仅选取部分数据):

用户ID 网络地址 上网时间 用户自填单位 1906271640 61.172.201.235 2015-03-05 10:03:00 新浪网 1906271640 61.172.201.235 2015-03-06 10:05:00 新浪网 1906271640 61.172.201.240 2015-03-09 10:05:00 新浪网 1906271640 61.172.201.240 2015-03-10 10:06:00 新浪网 1906271640 115.239.210.28 2015-03-11 10:03:00 新浪网 1806281641 61.172.201.240 2015-03-06 10:02:00 百度 1806281641 61.172.201.240 2015-03-07 10:05:00 百度 1806281641 61.172.201.235 2015-03-09 10:02:00 百度 1706281643 61.172.201.240 2015-03-05 10:03:00 新浪网 1706281643 61.172.201.240 2015-03-06 10:03:00 新浪网 1706281643 61.172.201.235 2015-03-09 10:03:00 新浪网 1706281643 61.172.201.235 2015-03-10 10:03:00 新浪网 1706281643 115.239.210.28 2015-03-11 10:03:00 新浪网 1105281642 61.172.201.240 2015-03-06 10:03:00 未填写 1105281642 61.172.201.240 2015-03-09 10:03:00 未填写 1105281642 61.172.201.235 2015-03-10 10:03:00 未填写 1105281642 61.172.201.235 2015-03-11 10:03:00 未填写 1000281652 115.239.210.28 2015-03-10 10:03:00 百度 1000281652 115.239.210.28 2015-03-11 10:03:00 百度 1010291658 115.239.210.28 2015-03-10 10:03:00 百度 1010291658 115.239.210.28 2015-03-11 10:03:00 百度 1111291657 115.239.210.28 2015-03-11 10:03:00 搜狐网

步骤2:用户单位网络地址计算。

需要对步骤1中的结果进行统计,计算出每一个网络地址所对应的单位。先统计过去 一段时间工作时间使用该网络地址的人数,

根据上述步骤统计出该地址中使用人数最多的单位,单位名为corp_2,人数为count_2。

定义单位人数比rate_2=max_count_2/all_count_2。

根据过滤规则,上述三个网络地址均满足all_count_2>1,rate_2>0.2。所以可以判定 出61.172.201.235、61.172.201.240为新浪网的网络地址,115.239.210.28为百度的IP地址。

步骤3:用户单位计算

根据投票,选择出现次数最多的单位作为用户的当前工作单位。

本发明应用实例所述方案将所有使用过某单位的网络地址上网的用户作为该单位的 可能员工,因而即使那些未在注册信息中填写单位信息的,但使用过单位网络地址上网的 用户(如用户1105281642),填写错误的单位地址(如用户1806281641、1111291657) 都可以通过本方案发现,因而具有较强的健壮性。另外本方案基于最近工作时间经常使用 的网络地址来计算用户单位,解决了用户最新的工作单位挖掘问题,具有较强的实效性。 本发明应用实例主要通过计算用户工作时间曾经使用过的网络地址、推算用户单位网络地 址、推算用户所在单位等三个步骤完成用户工作单位的挖掘,目前尚未发现有替代方案实 现本发明的目的。本发明应用实例通过用户上网的网络地址来挖掘用户的工作单位,包括 用户单位网络地址计算、用户单位的标识。另外本发明中使用的网络地址是用户上网时的 唯一网络标识,包括但不限于IPv4/v6,ATM(Asynchronous Transfer Mode,异步传输模式) 地址等。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative  logical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为 清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrative  components),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软 件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的 应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保 护的范围。

本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字 信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门 或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用 处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微 控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处 理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似 的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模 块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM 存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意 形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒 介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。 处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和 存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、 固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒 介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑 存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是 任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不 限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置, 或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或 特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读 媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光 纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被 包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射 盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光 学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细 说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的 保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包 含在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号