首页> 中国专利> 基于空间自回归模型的零售店铺画像构建方法及系统

基于空间自回归模型的零售店铺画像构建方法及系统

摘要

本发明公开了一种基于空间自回归模型的零售店铺画像构建方法及系统,包括:获取待画像店铺的基础地理信息数据、经营信息数据以及周边基础设施数据,建立原始数据集;对原始数据集进行数据预处理,抽取模型特征并对特征重要度进行评估,确定待画像店铺的基础类标签和分析类标签;其中,所述分析类标签包括店铺发展潜力标签,所述店铺发展潜力标签使用空间自回归模型进行预测;根据所述基础类标签和分析类标签,构建待画像店铺的店铺画像;根据店铺画像,利用树图完成所述店铺画像的可视化操作。本发明可以利用药店画像进行关联性分析和衍生应用,帮助企业解决门店选址、药店选品、精准营销、风险评估、旧店优化等问题。

著录项

  • 公开/公告号CN113297377A

    专利类型发明专利

  • 公开/公告日2021-08-24

    原文格式PDF

  • 申请/专利号CN202110566980.1

  • 申请日2021-05-24

  • 分类号G06F16/35(20190101);G06F40/289(20200101);G06F40/295(20200101);G06Q30/02(20120101);

  • 代理机构37221 济南圣达知识产权代理有限公司;

  • 代理人董雪

  • 地址 250014 山东省济南市历下区二环东路7366号

  • 入库时间 2023-06-19 12:19:35

说明书

技术领域

本发明涉及数据分析技术领域,尤其涉及一种基于空间自回归模型的零售店铺画像构建方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

随着互联网技术的快速发展,数据挖掘技术日渐成熟。通过数据挖掘、数据分析,寻找出有价值的数据,可以为人们的决策提供可靠的数据支持。所谓画像技术,就是利用数据分析技术,从真实数据中抽象出短文本标签,对目标进行刻画。比如:药店画像,就是描述药店状态以及行为的信息标签化,标签化最大的优势在于人为定义标签相关规则,使用者能快速建立起对某段文本的印象,便于获取信息。

现有的企业画像,大多都是站在企业运营的宏观战略层面,所构建的画像是针对连锁企业的整体画像,如企业的税收画像、企业的财政画像等。目前尚未有针对药品企业画像的专门技术,更没有针对连锁零售药店的门店画像。由于药品是刚需性商品,需求弹性小,行业周期性弱,不因消费者的喜好而转移,所以传统的画像标签并不适用于医药企业。

发明内容

为了解决上述问题,本发明提出了一种基于空间自回归模型的零售店铺画像构建方法及系统,能够构建全面、清晰准确的零售店铺画像。

在一些实施方式中,采用如下技术方案:

一种基于空间自回归模型的零售店铺画像构建方法,包括:

获取待画像店铺的基础地理信息数据、经营信息数据以及周边基础设施数据,建立原始数据集;

对原始数据集进行数据预处理,抽取模型特征并对特征重要度进行评估,确定待画像店铺的基础类标签和分析类标签;其中,所述分析类标签包括店铺发展潜力标签,所述店铺发展潜力标签使用空间自回归模型进行预测;

根据所述基础类标签和分析类标签,构建待画像店铺的店铺画像;

根据店铺画像,利用树图完成所述店铺画像的可视化操作。

作为进一步地方案,对原始数据集进行数据预处理,包括:

删除原始数据集中的重复数据;

对原始文本进行分词处理,去停用词处理以及正则化处理;

进行特征抽取,抽取出与所建立标签体系相关性高的数据特征并对特征的重要度进行排序。

作为进一步地方案,所述原始数据集至少包括:

店铺地理坐标,店铺经营年限,店铺经营面积,店铺会员信息数据,店铺服务人员数量,店铺库存数据,商品销售数据,周边区域相关联企业信息、住宅区数量、房价及竞争者数量信息。

作为进一步地方案,所述基础类标签至少包括:经营范围标签、经营年限标签、店铺服务人员数标签和店铺面积标签;

所述分析类标签至少包括:核心商品标签、会员基础信息标签、客流量标签、客单价标签、交通便利程度标签、人均消费水平标签、市场占有率标签、店铺发展潜力标签和库存周转率标签。

作为进一步地方案,使用分词技术对中文文本数据进行分词,然后使用Bi-LSTM-CRF识别命名实体,获得经营范围标签。

作为进一步地方案,使用通达性系数确定交通通达度标签的权重值,所述通达性系数基于各节点到零售店铺的总运行时间确定。

作为进一步地方案,使用空间自回归模型预测店铺发展潜力标签,具体包括:

构建空间自回归模型,所述模型的输入包括:零售店铺所覆盖的各兴趣点数量、经营年限、店铺辐射区域人均消费水平人口结构、会员信息数据、店铺服务人员数以及店铺租金数据;

所述模型的输出为零售店铺的销量预测发展潜力数据。

在另一些实施方式中,采用如下技术方案:

一种基于空间自回归模型的零售店铺画像构建系统,包括:

数据获取模块,用于获取待画像店铺的基础地理信息数据、经营信息数据以及周边基础设施数据,建立原始数据集;

数据分类模块,用于对原始数据集进行数据预处理,抽取模型特征并对特征重要度进行评估,确定待画像店铺的基础类标签和分析类标签;其中,所述分析类标签包括店铺发展潜力标签,所述店铺发展潜力标签使用空间自回归模型进行预测;

画像构建模块,用于根据所述基础类标签和分析类标签,构建待画像店铺的店铺画像;

画像展示模块,用于根据店铺画像,利用树图完成所述店铺画像的可视化操作。

在另一些实施方式中,采用如下技术方案:

一种终端设备,其包括处理器和存储器,处理器用于实现各指令;存储器用于存储多条指令,所述指令适于由处理器加载并执行上述的基于空间自回归模型的零售店铺画像构建方法。

在另一些实施方式中,采用如下技术方案:

一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并执行上述的基于空间自回归模型的零售店铺画像构建方法。与现有技术相比,本发明的有益效果是:

(1)本发明画像构建方法不仅能反应出零售店铺(比如药店)的基本信息,还能够反映出药店的药品销售量、坪效、动销率和药店的核心商品,从而可以利用药店画像进行关联性分析和衍生应用,帮助企业解决门店选址、药店选品、精准营销、风险评估、旧店优化等问题。

(2)本发明使用空间自回归模型进行预测,将销量预测作为药店发展潜力指标,在销量预测模型构建过程中,结合零售店铺自身的特点,考虑其空间相互作用的影响,更贴合实际情况,符合连锁零售店铺的发展需要。

本发明的其他特征和附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本方面的实践了解到。

附图说明

图1为本发明实施例中零售店铺画像构建方法流程图;

图2为本发明实施例中零售店铺画像构建系统示意图;

图3为本发明实施例中零售店铺数据获取过程示意图。

具体实施方式

应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本发明使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

实施例一

在一个或多个实施方式中,公开了一种基于空间自回归模型的零售店铺画像构建方法,如图1所示,包括以下过程:

本实施例以构建药店店铺画像为例进行说明,其他零售店铺的画像构建方法与此一致。

步骤101:获取待画像店铺的基础地理信息数据、经营信息数据以及周边基础设施数据,建立原始数据集;

本实施例中,原始数据集中的数据至少包括药店地理坐标,药店经营年限,药店经营面积,药店会员信息数据,药店库存数据,商品销售数据,区公交车站数目,区急救中心数目,区诊所数目,区专科医院数目,区综合医院数目,区学校数目,区小区数目,区房屋均价,区竞争者数量。所建立的原始数据集不仅包括药店自身的信息还包括周边基础设施的信息,是因为药店周边基础设施的信息,能够帮助药店更好的定位目标人群,确定店铺定位以及发展潜力,能够帮助建立一个全面、立体的药店画像。

原始数据集的建立,其信息来自于互联网公开数据以及药店自身数据,其中互联网公开数据可通过网络爬虫或者合法信息购买等途径获得。本发明实施例中应用的数据通过网络爬虫的方式从安居客、企查查以及百度地图中爬取。其中药店信息从企查查中获取,小区等信息从安居客获取,位置及距离等信息通过百度地图获取。

步骤102:对原始数据集进行数据预处理,抽取模型特征并对特征重要度进行评估,确定待画像店铺的基础类标签和分析类标签;其中,基础类标签用于说明药店的基本信息、经营信息,分析类标签用于总结预测药店的销量、坪效、动销率和核心商品等。

对原始数据集进行数据预处理,主要包括以下过程:

删除所述原始数据集中的重复数据,并采用0值、空字符串或者实际数据补齐原始数据集中的不完整数据;

进行文本分词处理,需要将完整的文本分解成粒度更细的词,因为后续的分类操作需要使用文本的词语来表征文本,本发明使用jieba中文分词工具,文本分词处理后要进行去停用词处理,去除掉不具备实际意义的词语,最后进行正则化处理。

对处理好的数据进行特征抽取。原始数据集中数据特征过多,存在一些相关性小或完全不相干的数据,会造成训练模型复杂,维数过高,模型推广能力下降、预测能力下降等问题,因此,需要对特征进行选择,抽取出与所建立标签体系相关性高的数据特征并对特征的重要度进行排序。

本发明实施例中,基础类标签至少包括经营范围标签、经营年限标签、药店面积标签、店铺服务人员数标签;

分析类标签至少包括核心商品标签、会员基础信息标签、竞争力标签、客流量标签、客单价标签、交通便利程度标签、人均消费水平标签、市场占有率标签、药店发展潜力标签。

因此,在进行特征选择时,参照表1,基础类标签的画像元素至少包括:药店的经营范围,药店的建立时间,药店的面积,药店的服务人员数量;

分析类标签的画像元素至少包括:药店的销量信息,药店会员信息,药店租金,药店周边竞争对手数量、小区房价、居民年龄结构,商圈信息,医疗机构数量。

表1药店画像标签体系及评价标准

本实施例中,对于基础类标签和分析类标签的提取,具体包括以下步骤:

经营年限标签:当前年份减去开业年份用作经营年限标签;

药店面积标签:比照租房合同的面积;

经营范围标签:首先使用jieba分词技术对中文文本数据进行分词,然后使用Bi-LSTM-CRF识别命名实体,获得经营范围标签,CRF添加到深度学习框架的最后一层可以考虑到概率最大的最优label路径,提高准确率指标。

交通通达度标签:为零售药店、社区、公交站牌等节点根据最短路径法建立L矩阵,将零售药店i的总运输距离定义为:

L

式中:L

将零售药店i的总运行时间定义为:

T

式中,T

用通达性系数来确定该标签的权重值:

A=T

式中:A代表通达性系数,其值越小,表示通达性越好。

药店发展潜力标签:本发明实施例中使用空间自回归预测零售药店发展潜力。

空间自回归模型的输入包括:零售店铺所覆盖的各兴趣点数量、经营年限、店铺辐射区域人均消费水平人口结构、会员信息数据、店铺服务人员数以及店铺租金数据;模型的输出为零售店铺的销量预测发展潜力数据。

具体的,上文所述兴趣点包括区区公交车站数目,区急救中心数目,区诊所数目,区专科医院数目,区综合医院数目,区学校数目,区小区数目,区房屋均价,区竞争者数量。药店的人流量直接关系到药店的销售量,故药店周围的兴趣点数量与药店发展潜力呈正相关;

店铺经营年限用以判断客户粘性,店铺会员数据用以判断店铺面向人群和药品销售种类,店铺辐射区域人口结构和店铺租金数据用以辅助店铺进行定位,店铺服务人员数可以判断店铺的服务水平,将这些数据输入模型,可以更准确的预测店铺销售量,计算店铺的发展潜力。

对空间自回归模型的训练过程包括:

训练数据集数据的获取过程,本实施例使用包括政府开放统计数据、网络爬取以及企业内部统计的多元数据,其中政府开放统计数据包括济南市第六次人口普查数据、济南市零售药店相关政策法规;网络爬取的数据包括利用Python从百度地图上获取的济南市小区、公交站、医院、诊所、竞争对手、商场、学校的地理位置,利用八爪鱼采集器从安居客获取的小区的房价、入住率等信息,从企查查获取药店经营年限等信息。

数据处理过程,针对原始数据集,首先进行数据清洗,删除重复的数据,补全空值、零值数据。然后进行距离计算,将各兴趣点的地址数据转换为经纬度数据,然后利用百度地图平台开放的API计算各兴趣点到连锁零售药店门店的实际距离。最后对计算的距离数据、收集的经营信息数据、用户数据进行标准化处理。

空间自回归算法模型思想表述如下:

模型介绍:空间自回归模型通过空间加权矩阵将空间因素对所研究问题的影响引入到模型中,且在被解释变量中存在空间相关性,公式如下:

Y=ρW

其中Y为被解释变量,X为解释变量及控制变量,ε为误差项,β和σ为回归参数,ρ为空间自回归系数,n为样本个数,W

变量定义:为了更好的对模型计算,增强可读性,先对本发明的变量进行定义。店铺经营年限用year表示;店铺面积用area表示;店铺人员数量用staff表示;店铺销量用sales表示;店铺租金用rent表示;店铺周边竞争对手用competitor表示;店铺周边医院用hospital表示;店铺周边养老院用beadhouse表示;店铺周边小区用house表示;店铺周边商超用small表示;店铺周边公交站用station表示。另外根据消费者行为习惯与出行距离研究,结合相关政策法规,本发明所涉及的店铺周边竞争对手、小区、公交站、医疗机构、大型商超数量均为以店铺为中心,半径为1050m范围内的六边形区域内的兴趣点的数量,且本文所使用的距离均为根据百度地图数据测量获得的实际距离。

故本发明的空间变量自回归模型如下:

log(sales)=ι

其中,ι

市场占有率标签:市场占有率又称市场份额,是指某个公司的产品在同类产品市场中销售量所占的比例。

式中:Q

库存周转率标签:是指在某一段时间内库存货物周转的次数。周转率越高说明销售情况越好。计算方式有以下两种:

库存周转率=年度销售成本/当年平均库存价值;

库存周转率=(该期间的出库总金额/该期间的平均库存金额)*100%。

步骤103:根据所述基础类标签和分析类标签,构建待画像店铺的店铺画像;

根据已经确定好的药店标签体系,根据已建立的标签体系,对标签进行分类整理,即完成药店画像的构建。

步骤104:根据店铺画像,利用树图完成店铺画像的可视化操作。

根据药店画像,利用树图Radial Tree完成所述药店画像的可视化操作。树图Radial Tree是以树状图的形式进行标签展示,条理清晰,便于用户进行决策分析。

实施例二

在一个或多个实施方式中,公开了一种基于空间自回归模型的零售店铺画像构建系统,参照图2,包括:

(201)数据获取模块,用于获取待画像店铺的基础地理信息数据、经营信息数据以及周边基础设施数据,建立原始数据集;

原始数据集的数据来自于互联网公开数据以及药店自身数据,其中互联网公开数据可通过爬虫或者合法信息购买等途径获得。本发明实施例中应用的数据可以通过网络爬虫的方式从安居客、百度地图等资源中爬取。如图3所示,计算机设备301、目标药店后台数据库302和互联网数据库303,其中互联网数据库303可以理解为互联网中提供数据的公开数据库。计算机设备从目标药店后台数据库302和互联网数据库303中提取相关数据,构建原始数据集,所提取数据至少包括药店地理坐标,药店经营年限,药店经营面积,药店会员信息数据,商品销售数据,区公交车站数目,区急救中心数目,区诊所数目,区专科医院数目,区综合医院数目,区学校数目,区小区数目,区房屋均价,区竞争者数量。

(202)数据分类模块,用于对原始数据集进行数据预处理,抽取模型特征并对特征重要度进行评估,确定待画像店铺的基础类标签和分析类标签;其中,分析类标签包括店铺发展潜力标签,店铺发展潜力标签使用空间自回归模型进行预测;

其中,基础类标签用于说明药店的基本信息,分析类标签用于总结预测药店的销量、坪效、动销率和核心商品。数据分类模块具体功能包括数据预处理和数据分析两块功能:

数据预处理功能,用于对所述原始数据集进行数据清洗和特征抽取以获得符合要求的数据集。

数据分析功能,利用数据清洗后的数据集进行数据分析,确定药店的基础类标签和分析类标签。

数据在正式使用前都要经过数据预处理阶段,包括分词、整理停用词典、正则化、特征抽取四部分。目前关于分词的算法和工具有很多,本发明实施例中使用jieba中文分词工具;整理停用词典去停用词,本发明实施例下载整理了中文常规停用词,包括哈工大停用词库、百度停用词表等;数据正则化减少特征变量的数量级;原始数据集中数据特征过多,存在一些相关性小或完全不相干的数据,会造成训练模型复杂,维数过高,模型推广能力下降、预测能力下降等问题,因此,需要对特征进行选择,抽取出与所建立标签体系相关性高的数据特征,建立训练集,训练空间自回归进行模型。

(203)画像构建模块,用于根据所述基础类标签和分析类标签,构建待画像店铺的店铺画像;

画像的本质是为对待画像对象进行打标签,根据数据分类模块的结果,已确定待画像药店的基础类标签和分析类标签,对待画像药店的标签进行分类整理,构建待画像药店的药店画像。

(204)画像展示模块,用于根据店铺画像,利用树图Radial Tree完成所述待药店画像的可视化展示。

上述各模块的具体实现方式已在实施例一中进行了详细的说明,此处不再详述。

实施例三

在一个或多个实施方式中,公开了一种终端设备,包括服务器,所述服务器包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例一中的基于空间自回归模型的零售店铺画像构建方法。为了简洁,在此不再赘述。

应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。

在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。

实施例一中的基于空间自回归模型的零售店铺画像构建方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。

本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

实施例四

在一个或多个实施方式中,公开了一种计算机可读存储介质,其中存储有多条指令,所述指令适于由终端设备的处理器加载并实施例一中所述的基于空间自回归模型的零售店铺画像构建方法。

上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号