首页> 中国专利> 一种基于位置信息进行用户工作单位挖掘的方法及装置

一种基于位置信息进行用户工作单位挖掘的方法及装置

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

本发明实施例提供一种基于位置信息进行用户工作单位挖掘的方法及装置，所述方法包括：根据用户历史位置信息库，统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息；根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息，确定每一个位置信息分别对应的工作单位标识信息；利用所述每一个位置信息分别对应的工作单位标识信息，挖掘出每个用户对应的工作单位标识信息。本方案从用户历史位置信息库中，统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息，根据所述统计时间段的工作时间所在的所有位置信息挖掘每个用户对应的工作单位。

著录项

公开/公告号CN104965876A

专利类型发明专利
公开/公告日2015-10-07

原文格式PDF
申请/专利权人微梦创科网络科技(中国)有限公司;
展开▼

申请/专利号CN201510321017.1
发明设计人张炜;
展开▼

申请日2015-06-12
分类号
代理机构北京和信华成知识产权代理事务所(普通合伙);
代理人胡剑辉
地址 100080 北京市海淀区彩和坊路6号7-10层
入库时间 2023-12-18 11:19:06

法律信息

法律状态公告日

法律状态信息

法律状态
2018-11-27

授权

授权
2015-11-11

实质审查的生效 IPC(主分类):G06F17/30 申请日:20150612

实质审查的生效
2015-10-07

公开

公开

说明书

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于位置信息进行用户工作单位挖掘的方法及装置。

背景技术

在互联网信息技术中，所谓用户工作单位挖掘：在不知道用户的工作单位的情况下，根据用户的关系或行为数据对其工作单位进行预测的方法。

现有技术一的技术方案目前的方法主要是通过提取用户自填信息获得，用户使用社交网络时，需要填写注册信息，用户会填写自己的工作单位信息。通过对该部分信息进行去噪声后，获得用户的工作单位信息。具体流程如下：搜集用户填写的工作单位信息——去噪声——用户单位信息，其中，去噪声包括去除一些无意义或明显不是工作单位的信息，如家里蹲、联系QQ号等。目前的方法至少存在以下几方面缺点：1、用户自填工作单位信息随意度比较高，且缺乏有效方法检验其填写正确性，导致用户工作单位信息准确率度低。2、用户工作单位信息在注册时通常不是必填信息，大量用户并不会填写当前的工作单位信息，导致用户工作单位信息覆盖率低，可用性不强。3、用户经常变更工作单位，且用户在变更其工作单位时，往往不会更新其注册资料，导致注册信息不是其最新工作单位信息，导致信息的时效性和可用性降低。

现有技术二的技术方案，在目前的社交网络中，有一些用户被其他用户打上单位标签，方法二对统计用户被打上的所有单位标签，选择数量最多的单位标签作为用户的工作单位。具体步骤如下：1、选择一个用户，并获取该用户所有被其他用户打上的单位标签；2、遍历该用户的单位标签，对相应的标签计数器增1；3、选择最大的标签计数器所在的标签作为用户的工作单位；4、如果还有其他用户，转到1。其缺点为：1、仅有一些名人或高管会被打上单位标签，90％以上的人无相关标签，因而覆盖率不够。2、标签未标注时间，因而无法体现出用户最新的工作单位，导致信息的时效性和可用性降低。

发明内容

本发明实施例提供一种基于位置信息进行用户工作单位挖掘的方法及装置，以提高用户工作单位挖掘的准确性。

一方面，本发明实施例提供了一种基于位置信息进行用户工作单位挖掘的方法，所述方法包括：

根据用户历史位置信息库，统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息；

根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息，确定每一个位置信息分别对应的工作单位标识信息；

利用所述每一个位置信息分别对应的工作单位标识信息，挖掘出每个用户对应的工作单位标识信息。

另一方面，本发明实施例提供了一种基于位置信息进行用户工作单位挖掘的装置，所述装置包括：

位置信息获取单元，用于根据用户历史位置信息库，统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息；

单位标识确定单元，用于根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息，确定每一个位置信息分别对应的工作单位标识信息；

分析挖掘单元，用于利用所述每一个位置信息分别对应的工作单位标识信息，挖掘出每个用户对应的工作单位标识信息。

上述技术方案具有如下有益效果：本方案从用户历史位置信息库中，统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息，根据所述统计时间段的工作时间所在的所有位置信息挖掘每个用户对应的工作单位，因而即使那些未在注册信息中填写单位信息的，或者填写错误的单位地址的，都可以通过本方案发现，因而具有较强的健壮性。另外本方案基于最近工作时间的位置来计算用户单位，解决了用户最新的工作单位挖掘问题，具有较强的实效性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一种基于位置信息进行用户工作单位挖掘的方法流程图；

图2为本发明实施例一种基于位置信息进行用户工作单位挖掘的装置结构示意图；

图3为本发明实施例位置信息获取单元结构示意图；

图4为本发明实施例单位标识确定单元结构示意图；

图5为本发明实施例分析挖掘单元结构示意图；

图6为本发明第一应用实例计算框架示意图；

图7为本发明第二应用实例计算框架示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在社交网络中，对用户进行准确的画像是实施个性化推荐的关键，而用户所在工作单位的挖掘是用户画像(UP，User Profile，通过一系列的属性对用户进行描述，属性包括但不限于性别、年龄、职业、行业、兴趣等。有了用户的属性描述后，就相当于对用户基本情况有了一定的了解)的重要部分，挖掘出了用户的所在工作单位，就可以在社交网络中，推荐该单位的其他同事供该用户所关注，能够明显提高推荐的认可率，进而提升其在社交网络中的参与度和活跃度。

如图1所示，为本发明实施例一种基于位置信息进行用户工作单位挖掘的方法流程图，所述方法包括：

101、根据用户历史位置信息库，统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息；

102、根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息，确定每一个位置信息分别对应的工作单位标识信息；

103、利用所述每一个位置信息分别对应的工作单位标识信息，挖掘出每个用户对应的工作单位标识信息。

优选的，所述位置信息为经纬度信息，所述用户历史位置信息库的存储格式为用户账号+全球定位系统GPS经纬度信息+访问时间；所述根据用户历史位置信息库，统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息，包括：使用位置投影方法，将所述GPS经纬度信息转换成对应的格子标识信息；所述格子为 16级格子，或18级格子，不同级别的格子代表不同的地域范围；所述位置投影方法包括：墨卡托投影方法，高斯投影方法。

进一步地，优选的，所述根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息，确定每一个位置信息分别对应的工作单位标识信息，包括：针对每一个格子，分别执行如下处理：选择一个格子，格子标识信息记为gz，统计设定的统计时间段内在该格子中出现的人数，记为all_count；根据每个用户注册时填写的工作单位标识信息，统计该格子内各个工作单位对应的人数，记为count(corp)；确定该格子中人数最多的工作单位，工作单位标识信息记为corp，该工作单位对应的人数记为max_count；定义单位人数比rate＝max_count/all_count，如果max_count大于特定阈值c，且rate大于特定阈值r，则确定该格子gz与工作单位corp相对应，从而确定当前的格子标识信息对应的工作单位标识信息；其中，c＝1，r＝0.2；

所述利用每一个位置信息分别对应的工作单位标识信息，挖掘出每个用户对应的工作单位标识信息，包括：统计在设定的统计时间段内每个用户在工作时间所在的不同格子的次数，并根据每一个格子标识信息分别对应的工作单位标识信息，确定每个用户在设定的统计时间段内所在的不同工作单位的次数，选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。

或者，优选的，所述用户历史位置信息库包括用户网络访问日志，所述位置信息为网络地址信息；所述根据用户历史位置信息库，选择一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息，包括：通过用户网络访问日志，统计所述设定的统计时间段内出现的多个用户在所述统计时间段的工作时间访问过的所有网络地址信息，所述用户网络访问日志格式为用户账号+网络地址信息+访问时间。

进一步地，优选的，所述根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息，确定每一个位置信息分别对应的工作单位标识信息，包括：针对每一个网络地址，分别执行如下处理：选择一个网络地址，网络地址信息记为na，统计所述设定的统计时间段内使用该网络地址的人数，记为all_count_2；根据每个用户注册时填写的工作单位标识信息，统计该网络地址上各个工作单位对应的人数；所述网络地址至少为如下的一种： IPv4地址，IPv6地址，异步传输模式ATM地址；确定该网络地址上使用人数最多的工作单位，工作单位标识信息记为corp_2，该工作单位对应的人数记为max_count_2；定义单位人数比rate_2＝max_count_2/all_count_2，如果max_count_2大于特定阈值c_2，且rate_2 大于特定阈值r_2，则确定该网络地址na与工作单位corp_2相对应，从而确定当前的网络地址信息对应的工作单位标识信息；其中，c_2＝1，r_2＝0.2；

所述利用每一个位置信息分别对应的工作单位标识信息，挖掘出每个用户对应的工作单位标识信息，包括：统计在设定的统计时间段内每个用户在工作时间使用过的不同网络地址的次数，并根据每一个网络地址信息分别对应的工作单位标识信息，确定每个用户在设定的统计时间段内使用过的不同工作单位的次数，选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。

对应于上述方法实施例，如图2所示，为本发明实施例一种基于位置信息进行用户工作单位挖掘的装置结构示意图，所述装置包括：

位置信息获取单元21，用于根据用户历史位置信息库，统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息；

单位标识确定单元22，用于根据所述多个用户在所述统计时间段的工作时间所在的所有位置信息，确定每一个位置信息分别对应的工作单位标识信息；

分析挖掘单元23，用于利用所述每一个位置信息分别对应的工作单位标识信息，挖掘出每个用户对应的工作单位标识信息。

优选的，所述位置信息为经纬度信息，所述用户历史位置信息库的存储格式为用户账号+全球定位系统GPS经纬度信息+访问时间；如图3所示，为本发明实施例位置信息获取单元结构示意图，所述位置信息获取单元21包括：

第一位置信息获取单元211，用于使用位置投影方法，将所述GPS经纬度信息转换成对应的格子标识信息；所述格子为16级格子，或18级格子，不同级别的格子代表不同的地域范围；所述位置投影方法包括：墨卡托投影方法，高斯投影方法。

进一步地，优选的，如图4所示，为本发明实施例单位标识确定单元结构示意图，所述单位标识确定单元22，包括：第一单位标识确定单元221，用于针对每一个格子，分别执行如下处理：选择一个格子，格子标识信息记为gz，统计设定的统计时间段内在该格子中出现的人数，记为all_count；根据每个用户注册时填写的工作单位标识信息，统计该格子内各个工作单位对应的人数，记为count(corp)；确定该格子中人数最多的工作单位，工作单位标识信息记为corp，该工作单位对应的人数记为max_count；定义单位人数比 rate＝max_count/all_count，如果max_count大于特定阈值c，且rate大于特定阈值r，则确定该格子gz与工作单位corp相对应，从而确定当前的格子标识信息对应的工作单位标识信息；其中，c＝1，r＝0.2；

如图5所示，为本发明实施例分析挖掘单元结构示意图，所述分析挖掘单元23，包括：第一分析挖掘单元231，用于统计在设定的统计时间段内每个用户在工作时间所在的不同格子的次数，并根据每一个格子标识信息分别对应的工作单位标识信息，确定每个用户在设定的统计时间段内所在的不同工作单位的次数，选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。

或者，优选的，所述用户历史位置信息库包括用户网络访问日志，所述位置信息为网络地址信息；如图3所示，所述位置信息获取单元21包括：第二位置信息获取单元212，用于通过用户网络访问日志，统计所述设定的统计时间段内出现的多个用户在所述统计时间段的工作时间访问过的所有网络地址信息，所述用户网络访问日志格式为用户账号+网络地址信息+访问时间。

进一步地，优选的，如图4所示，所述单位标识确定单元22，包括：第二单位标识确定单元222，用于针对每一个网络地址，分别执行如下处理：选择一个网络地址，网络地址信息记为na，统计所述设定的统计时间段内使用该网络地址的人数，记为all_count_2；根据每个用户注册时填写的工作单位标识信息，统计该网络地址上各个工作单位对应的人数；所述网络地址至少为如下的一种：IPv4地址，IPv6地址，异步传输模式ATM地址；确定该网络地址上使用人数最多的工作单位，工作单位标识信息记为corp_2，该工作单位对应的人数记为max_count_2；定义单位人数比rate_2＝max_count_2/all_count_2，如果 max_count_2大于特定阈值c_2，且rate_2大于特定阈值r_2，则确定该网络地址na与工作单位corp_2相对应，从而确定当前的网络地址信息对应的工作单位标识信息；其中，c_2＝1， r_2＝0.2；

如图5所示，所述分析挖掘单元23，包括：第二分析挖掘单元232，用于统计在设定的统计时间段内每个用户在工作时间使用过的不同网络地址的次数，并根据每一个网络地址信息分别对应的工作单位标识信息，确定每个用户在设定的统计时间段内使用过的不同工作单位的次数，选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。

本发明实施例上述技术方案具有如下有益效果：本方案从用户历史位置信息库中，统计一设定的统计时间段内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息，根据所述统计时间段的工作时间所在的所有位置信息挖掘每个用户对应的工作单位，因而即使那些未在注册信息中填写单位信息的，或者填写错误的单位地址的，都可以通过本方案发现，因而具有较强的健壮性。另外本方案基于最近工作时间的位置来计算用户单位，解决了用户最新的工作单位挖掘问题，具有较强的实效性。

以下结合应用实例对本发明实施例上述技术方案进行详细说明：

第一应用实例：

本发明应用实例旨在统计用户在工作时间的位置信息挖掘用户所在的工作单位，即先计算出用户在工作时间里的所有位置信息，再挖掘出单位所在的位置信息，最后通过统计出用户出现次数最多的单位，作为用户的当前工作单位。

如图6所示，为本发明第一应用实例计算框架示意图，具体步骤如下：

步骤1：用户工作时间所在的位置信息计算。

该步骤可以细分为如下两个步骤:

1.1 根据用户历史位置信息库(社交网络软件会定期记录用户所处的位置)，统计一设定的统计时间段(如过去一个月)内出现的多个用户在所述统计时间段的工作时间所在的所有位置信息，工作时间可以定义为每个工作日的早上9点到晚上6点，我们只选择该段时间内所有用户的位置信息。历史位置信息库格式可以为用户账号+GPS经纬度信息+访问时间。

1.2 使用墨卡托投影算法将上述步骤中的经纬度位置信息转换成对应的格子标识信息，不同级别的格子代表不同的地域范围(16级格子的范围约为500米)，可以根据精度选择格子级别，格子级别越高，精度越高。在实施过程中，可以选择18级格子。

步骤2：用户单位位置计算。

该步骤主要用于推断单位所处的格子，针对每一个格子，分别执行如下处理，具体步骤如下：

2.1 选择一个格子，格子标识信息记为gz，统计设定的统计时间段内在该格子中出现的人数，记为all_count；根据每个用户注册时填写的工作单位标识信息，统计该格子内各个工作单位对应的人数，记为count(corp)；(若注册信息为A公司的人数为10人，则 count(A)＝10)；

2.2 确定该格子中人数最多的工作单位，工作单位标识信息记为corp，该工作单位对应的人数记为max_count；

2.3 定义单位人数比rate＝max_count/all_count，如果max_count大于特定阈值c，且rate 大于特定阈值r，则确定该格子gz与工作单位corp相对应，从而确定当前的格子标识信息对应的工作单位标识信息。

在实施过程中，根据精确度要求选择不同的c和r，可以选择c＝1，r＝0.2。经过该步骤后，我们可以获得到所有格子标识信息对应的工作单位标识信息。

步骤3：用户单位计算

该步骤可以分为以下几个子步骤：

3.1 基于步骤1，统计在设定的统计时间段内每个用户在工作时间所在的不同格子的次数，并根据每一个格子标识信息分别对应的工作单位标识信息，确定每个用户在设定的统计时间段内所在的不同工作单位的次数；

3.2 选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。

例如：

步骤1：搜集用户在工作时间的位置。如下表所示(为便于说明，仅选取部分数据)：

步骤2：用户单位所在格子计算。

需要对步骤1中的结果进行统计，计算出每一个格子所对应的单位。先统计过去一段时间工作时间位于该格子的人数，

根据上述步骤统计出该地址中使用人数最多的单位，单位名为corp,人数为count。

定义单位人数比rate＝max_count/all_count。

根据过滤规则，上述三个格子均满足all_count>1，rate>0.2。所以可以判定出 1321001210132122、1321001210132300为新浪网所处的格子，1321001210110333为百度所处的格子。

步骤3：用户单位计算

用户ID 用户的可能单位用户在该格子出现的天数 1906271640 新浪网 4 1906271640 百度 1 1806281641 新浪网 3 1706281643 新浪网 5 1706281643 百度 1 1105281642 新浪网 4

1000281652 百度 2 1010291658 百度 2 1111291657 百度 1

根据投票，选择出现次数最多的单位作为用户的当前工作单位。

用户ID 用户单位用户处于该格子的天数 1906271640 新浪网 5 1806281641 新浪网 3 1706281643 新浪网 5 1105281642 新浪网 4 1000281652 百度 2 1010291658 百度 2 1111291657 百度 1

本发明应用实例所述方案通过在单位所处格子里出现的人群作为该单位的可能员工，因而即使那些未在注册信息中填写单位信息的，但出现在单位格子里用户(如用户 1105281642)，填写错误的单位地址(如用户1806281641、1111291657)都可以通过本方案发现，因而具有较强的健壮性。另外本方案基于最近工作时间所处的位置来计算用户单位，解决了挖掘出用户最新的工作单位问题，具有较强的时效性。本发明应用实例主要通过用户工作时间曾经去过的位置、推算用户单位位置、推算用户所在单位等三个步骤完成用户工作单位的挖掘。本发明应用实例通过用户上网的位置信息来挖掘用户的工作单位，包括用户单位位置计算、用户单位的标识。本发明中使用的位置投影方法，包括但不限于墨卡托投影，高斯投影等。

第二应用实例：

本发明应用实例中的所述用户历史位置信息库包括用户网络访问日志，所述位置信息不局限于GPS经纬度地理位置，还包括网络位置信息(如：IP地址)。本发明应用实例旨在用户在工作时间访问社交网络时使用的网络地址信息挖掘出用户所在的工作单位，即先计算出用户在工作时间里的所使用的所有网络地址信息，再挖掘出工作单位经常使用的网络地址，最后通过统计出用户出现次数最多的单位，作为用户的当前工作单位。

2.2 本发明或者实用新型提供的完整技术方案(发明或者实用新型方案)

如图7所示，为本发明第二应用实例计算框架示意图，具体步骤如下：

具体步骤如下：

步骤1：计算用户工作时间曾经使用过的网络地址。

该步骤需要通过用户网络访问日志(社交网络软件服务器端会记录用户使用软件时所用的网络地址)，统计统计所述设定的统计时间段内(如过去一个月)出现的多个用户在所述统计时间段的工作时间访问过的所有网络地址信息，工作时间可以定义为每个工作日的早上9点到晚上6点，我们只分析该段时间内所有用户使用软件时的网络地址信息，在执行该步骤时，我们需要去除所有无效IP地址，无效IP地址包括环回地址(如127.0.0.1)，局域网地址(如10.*.*.*,192.168.*.*,172.16～31.*.*)；同时，我们要对日志中的用户使用 IP进行按天去重，即同一天，获取到某用户重复使用相同IP地址时，只取第一次。用户网络访问日志格式为用户账号+网络地址信息+访问时间。

步骤2：用户单位网络地址计算。

该步骤主要用于推断单位所经常使用的网络地址，针对每一个网络地址，分别执行如下处理，具体步骤如下：

2-1 选择一个网络地址，网络地址信息记为na，统计所述设定的统计时间段内使用该网络地址的人数，记为all_count_2；根据每个用户注册时填写的工作单位标识信息，统计该网络地址上各个工作单位对应的人数；所述网络地址至少为如下的一种：IPv4地址，IPv6 地址，异步传输模式ATM地址；

2-2 确定该网络地址上使用人数最多的工作单位，工作单位标识信息记为corp_2，该工作单位对应的人数记为max_count_2；

2-3 定义单位人数比rate_2＝max_count_2/all_count_2，如果max_count_2大于特定阈值 c_2，且rate_2大于特定阈值r_2，则确定该网络地址na与工作单位corp_2相对应，从而确定当前的网络地址信息对应的工作单位标识信息。

在实施过程中，根据精确度要求选择不同的c_2和r_2，可以选择c_2＝1，rate_2＝0.2。经过该步骤后，我们可以获得到所有网络地址信息对应的工作单位标识信息。

步骤3：用户单位计算

该步骤可以分为以下几个子步骤

3-1 基于步骤1，统计在设定的统计时间段内每个用户在工作时间使用过的不同网络地址的次数，并根据每一个网络地址信息分别对应的工作单位标识信息，确定每个用户在设定的统计时间段内使用过的不同工作单位的次数。

3-2 选择出现次数最多的工作单位挖掘出当前用户对应的工作单位标识信息。

例如：

步骤1：搜集用户在办公室时间访问社交网络时曾经使用的网络地址。如下表所示(为便于说明，仅选取部分数据)：

用户ID 网络地址上网时间用户自填单位 1906271640 61.172.201.235 2015-03-05 10:03:00 新浪网 1906271640 61.172.201.235 2015-03-06 10:05:00 新浪网 1906271640 61.172.201.240 2015-03-09 10:05:00 新浪网 1906271640 61.172.201.240 2015-03-10 10:06:00 新浪网 1906271640 115.239.210.28 2015-03-11 10:03:00 新浪网 1806281641 61.172.201.240 2015-03-06 10:02:00 百度 1806281641 61.172.201.240 2015-03-07 10:05:00 百度 1806281641 61.172.201.235 2015-03-09 10:02:00 百度 1706281643 61.172.201.240 2015-03-05 10:03:00 新浪网 1706281643 61.172.201.240 2015-03-06 10:03:00 新浪网 1706281643 61.172.201.235 2015-03-09 10:03:00 新浪网 1706281643 61.172.201.235 2015-03-10 10:03:00 新浪网 1706281643 115.239.210.28 2015-03-11 10:03:00 新浪网 1105281642 61.172.201.240 2015-03-06 10:03:00 未填写 1105281642 61.172.201.240 2015-03-09 10:03:00 未填写 1105281642 61.172.201.235 2015-03-10 10:03:00 未填写 1105281642 61.172.201.235 2015-03-11 10:03:00 未填写 1000281652 115.239.210.28 2015-03-10 10:03:00 百度 1000281652 115.239.210.28 2015-03-11 10:03:00 百度 1010291658 115.239.210.28 2015-03-10 10:03:00 百度 1010291658 115.239.210.28 2015-03-11 10:03:00 百度 1111291657 115.239.210.28 2015-03-11 10:03:00 搜狐网

步骤2：用户单位网络地址计算。

需要对步骤1中的结果进行统计，计算出每一个网络地址所对应的单位。先统计过去一段时间工作时间使用该网络地址的人数，

根据上述步骤统计出该地址中使用人数最多的单位，单位名为corp_2,人数为count_2。

定义单位人数比rate_2＝max_count_2/all_count_2。

根据过滤规则，上述三个网络地址均满足all_count_2>1，rate_2>0.2。所以可以判定出61.172.201.235、61.172.201.240为新浪网的网络地址，115.239.210.28为百度的IP地址。

步骤3：用户单位计算

根据投票，选择出现次数最多的单位作为用户的当前工作单位。

本发明应用实例所述方案将所有使用过某单位的网络地址上网的用户作为该单位的可能员工，因而即使那些未在注册信息中填写单位信息的，但使用过单位网络地址上网的用户(如用户1105281642)，填写错误的单位地址(如用户1806281641、1111291657) 都可以通过本方案发现，因而具有较强的健壮性。另外本方案基于最近工作时间经常使用的网络地址来计算用户单位，解决了用户最新的工作单位挖掘问题，具有较强的实效性。本发明应用实例主要通过计算用户工作时间曾经使用过的网络地址、推算用户单位网络地址、推算用户所在单位等三个步骤完成用户工作单位的挖掘，目前尚未发现有替代方案实现本发明的目的。本发明应用实例通过用户上网的网络地址来挖掘用户的工作单位，包括用户单位网络地址计算、用户单位的标识。另外本发明中使用的网络地址是用户上网时的唯一网络标识，包括但不限于IPv4/v6，ATM(Asynchronous Transfer Mode,异步传输模式) 地址等。

本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrative logical block)，单元，和步骤可以通过电子硬件、电脑软件，或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability)，上述的各种说明性部件(illustrative components)，单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用，可以使用各种方法实现所述的功能，但这种实现不应被理解为超出本发明实施例保护的范围。

本发明实施例中所描述的各种说明性的逻辑块，或单元都可以通过通用处理器，数字信号处理器，专用集成电路(ASIC)，现场可编程门阵列或其它可编程逻辑装置，离散门或晶体管逻辑，离散硬件部件，或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器，可选地，该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现，例如数字信号处理器和微处理器，多个微处理器，一个或多个微处理器联合一个数字信号处理器核，或任何其它类似的配置来实现。

本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM 存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地，存储媒介可以与处理器连接，以使得处理器可以从存储媒介中读取信息，并可以向存储媒介存写信息。可选地，存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中，ASIC可以设置于用户终端中。可选地，处理器和存储媒介也可以设置于用户终端中的不同的部件中。

在一个或多个示例性的设计中，本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现，这些功能可以存储与电脑可读的媒介上，或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如，这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置，或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外，任何连接都可以被适当地定义为电脑可读媒介，例如，如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘，磁盘通常以磁性复制数据，而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种基于位置信息进行用户工作单位挖掘的方法及装置 [P] . 中国专利： CN104965876B . 2018.11.27
2. 一种基于分组信息进行用户工作单位挖掘的方法及装置 [P] . 中国专利： CN104965878B . 2018.11.27
3. LOCATION INFORMATION SERVICE DEVICE AND SYSTEM FOR PROVIDING LOCATION INFORMATION SERVICE BASED ON INTERNET PROTOCOL(IP) ADDRESS, USER EQUIPMENT FOR LOCATION INFORMATION SERVICE BASED ON IP ADDRESS, METHOD FOR LOCATION INFORMATION SERVICE BASED ON IP ADDRESS AND COMPUTER READABLE MEDIUM HAVING COMPUTER PROGRAM RECORDED THEREFOR [P] . 韩国专利： KR20160006039A . 2016-01-18

机译：基于互联网协议（ip）地址提供位置信息服务的位置信息服务装置和系统，基于IP地址的位置信息服务的用户设备，基于ip地址的位置信息服务的方法以及具有计算机程序的计算机可读介质
4. Methods for selectively storing and sharing information of end user in a system for identifying, for at least one of the end users.A location in the network of at least one of the providers in a system, to transmit information representative of codes legu00ecveis per machine swept between sites of the network.To guide an end user to a location of the network systems to provide representative information of codes legu00ecveis per machine swept between sites of the network.To store and share information to the end user, selectively, to identify, for at least one end user, a location of at least one provider.And to derecionar an end user to a network path [P] . BR0115647A . 2004-03-23

机译：用于在系统中选择性地存储和共享最终用户信息的方法，用于为至少一个最终用户标识系统中至少一个提供者的网络中的位置，以传输代表代码段的信息若要将最终用户引导到网络系统的某个位置，以提供在网络站点之间进行扫描的每台机器的合法代码代表信息。要有选择地存储和共享信息给最终用户，请最终用户选择，以便为至少一个最终用户标识至少一个提供者的位置。并使最终用户脱离网络路径
5. METHOD AND A DEVICE FOR ORGANIZING A DYNAMIC ADVERTISEMENT BASED ON USER LOCATION INFORMATION FOR BIDIRECTIONAL BROADCASTING COMMUNICATION SERVICE, CAPABLE OF PROVIDING ADVERTISEMENT CONTENTS BASED ON LOCATION INFORMATION OF A USER [P] . 韩国专利： KR20100110170A . 2010-10-12

机译：用于基于定向广播通信服务的基于用户位置信息的动态广告的组织的方法和装置，其能够基于用户的位置信息来提供广告内容