首页> 中国专利> 一种基于消费者行为数据分析和分类技术的在线广告分类推送方法及其系统

一种基于消费者行为数据分析和分类技术的在线广告分类推送方法及其系统

摘要

本发明涉基于消费者行为数据分析和分类技术的在线广告分类推送方法及其系统,与现有技术相比解决了无法挖掘出潜在客户进行网络在线广告推送的缺陷。本发明包括以下步骤:数据收集和预处理,从在线移动终端上收集消费者的行为数据并建立数据池,对数据池中的数据进行预处理操作,为后续数据分析和建模提供数据支持;针对消费者的行为数据进行建模,建立一种面向消费者行为数据的主题模型,挖掘出消费者与在线广告类别、购买时间段之间的联系;针对消费者进行有效分类,针对不同的消费者类别在线推送对应类型的广告。本发明通过收集各种移动终端上消费者的行为数据,分析和建模消费者的行为,挖掘不同消费者的消费习惯,实现消费者有效分类。

著录项

  • 公开/公告号CN105023175A

    专利类型发明专利

  • 公开/公告日2015-11-04

    原文格式PDF

  • 申请/专利权人 金鹃传媒科技股份有限公司;

    申请/专利号CN201510447849.8

  • 发明设计人 李焱;金琦;黄牧;范红;黄甜甜;

    申请日2015-07-24

  • 分类号G06Q30/02(20120101);

  • 代理机构34115 合肥天明专利事务所;

  • 代理人张祥骞;奚华保

  • 地址 230041 安徽省合肥市濉溪路251号

  • 入库时间 2023-12-18 11:38:13

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2018-08-31

    授权

    授权

  • 2015-12-02

    实质审查的生效 IPC(主分类):G06Q30/02 申请日:20150724

    实质审查的生效

  • 2015-11-04

    公开

    公开

说明书

技术领域

本发明涉及数据分析和预测技术领域,具体来说是一种基于消费者行为数 据分析和分类技术的在线广告分类推送方法及其系统。

背景技术

随着移动互联网技术的快速发展,诸如手机、平板电脑以及POS机等各种 移动终端越来越普及,受到大众欢迎。它们使得人们可以尽量不受时间与空间 的限制,随时随地完成消费行为,购买到自己需求的商品。据TalkingData发布 的《2014移动互联网数据报告》显示,截止2014年年底,我国移动智能终端用 户规模达10.6亿,较2013年增长231.7%;用户平均每天使用移动应用市场达 1458秒。另有数据显示,我国POS机的数量呈直线趋势增长,到2014夏末, 每万人拥有13.7台POS机。

这些移动终端在方便人们消费的同时,也记录下了消费者们的行为数据, 例如消费者刷POS机购物后,设备会存下消费者的购物清单:商品名、价格、 销售数量、销售时间以及店铺名等;再例如消费者通过手机银行完成网上购物 后,相关应用也会存下消费者的购物清单,另外如果手机的GPS是打开的情况, 消费者的位置信息也会被记录下来。事实上,消费者的个人特点往往表现在日 常的消费行为上,例如,一些消费者习惯去大卖场逛早市,那么他们会经常在 早上六点至八点出现在大卖场并产生消费行为,而另一些消费者习惯晚上去大 型购物中心Shopping,那么他们的消费行为数据多产生于晚上八点至十点。存 留于移动终端上的这些数据使得分析和建模消费者的行为成为一种可能。

那么如何通过分析和建模消费者的行为,再挖掘出不同消费者的消费习惯, 从技术上实现已有客户群体的粘性加固、潜在客户的精准营销和广告推送,已 经成为急需解决的技术问题。

发明内容

本发明的目的是为了解决现有技术中无法挖掘出潜在客户进行网络在线广 告推送的缺陷,提供一种基于消费者行为数据分析和分类技术的在线广告分类 推送方法及其系统来解决上述问题。

为了实现上述目的,本发明的技术方案如下:

一种基于消费者行为数据分析和分类技术的在线广告分类推送方法,包括 以下步骤:

数据收集和预处理,从在线移动终端上收集消费者的行为数据并建立数据 池,对数据池中的数据进行预处理操作,为后续数据分析和建模提供数据支持;

针对消费者的行为数据进行建模,建立一种面向消费者行为数据的主题模 型,挖掘出消费者与在线广告类别、购买时间段之间的联系;

针对消费者进行有效分类,针对不同的消费者类别在线推送对应类型的广 告。

所述的数据收集和预处理包括以下步骤:

收集数据,从在线移动终端上收集消费者的行为数据,并将消费者所对应 的行为数据建立数据池;

推送对象身份匹配,通过数据池中的消费者基本信息表,对消费者的身份 进行了逐级匹配,为具有多重身份的消费者赋予唯一身份标识;

数据清洗,删除数据池中购买商品总数和购买次数均较低的消费者及其对 应的行为数据;

划分时间片,将一天二十四小时划分成七个时间段,并将消费者购买的商 品配以相应的时间段标签。

所述的针对推送对象的行为数据进行建模包括以下步骤:

行为数据的转换,将数据池中的消费者购物清单中的用户ID、数据元素、 时间段标签组合成行为数据结构,行为数据结构如下所示:

<用户ID,<购买商品,时间段标签>>;

主题模型的建立与分析,建立面向消费者行为数据的TMCBD主题模型,其 包括以下步骤:

设定模型参数,

W={ConShopList1,ConShopList2,...,ConShopListM},

W为消费者行为数据库,ConShopListm表示第m个消费者的购物清单详 情,M表示消费者的个数;

ConShopListm= {<product,timeLabel>1,<product,timeLabel>2,...,< product,timeLabel>Nm}

,<product,timeLabel>n表示第m个消息者购买第n个商品及其购买时 间,Nm表示第m个消费者购买商品的总数量;

Φ为商品类别集合,其中表示第k个商品类别,K表示商品类别数;

Ψ={ψ1,ψ2,...,ψM},

ψm表示第m个消费者在不同时间段上的购买欲望分布;

Θ为消费者在不同时间段内对不同商品类别的购买兴趣,其中θm,h表示第m 个消费者在时间段h上对不同商品类别的购买兴趣分布,H表示时间段数;

训练初始TMCBD主题模型,具体步骤如下:

随机初始化,对消费者行为数据库w中每位消费者购买的每个商品p,随机 地赋一个商品类别z;

重新扫描数据库w,对每个商品p,按照以下公式重新采样它的商品类别, 并在w中进行更新,

i=(m,n)表示二维下标,θm,h表示第m个消费者在第h个时间段在商品类 别上的分布情况,表示第k个商品类别在商品上的分布情况,α和β为狄利克 雷分布参数,Zm,n为中间变量,表示第m个消费者购买的第n个商品对应的商 品类别编号;E为期望平均值;

重复以上w的重新采样过程直到采样收敛或满足预设的迭代次数;

计算Φ,公式如下:

其中,表示除去pm,n,由第k个商品类别产生的商品中product v的个 数;βt表示常量;

计算Ψ,公式如下:

其中,表示第m个消费者在第h个时间段内购买的商品数量;

计算Θ,公式如下:

其中,表示除去pm,n,第m个消费者在第h个时间段内购买的商品中 由第k个商品类别产生的商品的个数;αk表示常量;

将Φ、Ψ和Θ保存并输出[Φ,Ψ,Θ];

对TMCBD主题模型进行更新,生成Φ_new、Ψ_new和Θ_new;

商品类别更新和新增消费者预测,对更新学习得到Φ_new、Ψ_new和Θ_new 进行后处理操作;其包括以下步骤:

对Φ_new中每个商品类别,计算其与Φ中所有商品类别的余弦相似度,

若相似度最小值小于阈值δ,则将该商品类别添加至Φ中;

基于更新后的Φ和Ψ_new,调整Ψ,

若Ψ_new中存在Ψ中的消费者,则结合Ψ_new中的购买欲望分布更新该消 费者的购买欲望分布,并替换Ψ中相应的值;若Ψ_new中存在Ψ中没有的消费者, 则直接将该消费者的购买欲望分布添加至Ψ中;

基于更新后的Φ和和Θ_new,调整Θ,

若Θ_new中存在Θ中的消费者,则结合Θ_new中的购买欲望分布更新该消费 者的购买欲望分布,并替换Θ中相应的值;若Θ_new中存在Θ中没有的消费者, 则直接将该消费者的购买欲望分布添加至Θ中。

所述建立消费者行为数据库W包括以下步骤:

设现有消费者行为数据中涉及K个商品类别,则

定义消费兴趣,设第m个消费者在第h个时间段上的消费兴趣为θm,h, 其中h取值1至H,消费兴趣θm,h为商品类别上的多项式分布;

生成商品类别,

针对第m个消费者的购物清单ConShopListm中的每个商品productn及其时 间标签timeLabeln,择消费者在第timeLabeln个时间段上的消费兴趣分布θm,h

从θm,h采样生成商品productn的商品类别zm,n

生成商品,从K个商品类别中挑出编号为zm,n

再从中采样生成商品productn

重复定义消费兴趣、生成商品类别和生成商品步骤,直至生成整个数据库 W。

所述的针对消费者进行有效分类包括以下步骤:

设定类别识别器A或类别识别器B,类别识别器A对应Ψ,类别识别器B对 应Θ;

若分析消费者在不同时间段上的行为习惯差异,并据此划分消费者进行分 类,则读取Ψ,设定类别识别器A;

若分析消费者在不同商品类别上的行为习惯差异,并据此划分消费者进行 分类,则读取Θ,设定类别识别器B;

聚类分析,对于输入的Ψ或者Θ,采用基于密度的聚类方法划分消费者,自 动确定簇的个数,确保同一簇内的消费者行为习惯尽可能相似,而不同簇内的 消费者的行为习惯尽可能不同;

得到消费者的划分后,直接赋予不同簇以不同的类别标号,将这些带有类 别标签的消费者及其行为习惯表示保存,作为下一步分类学习的训练数据;

识别器分类学习,在SVM向量机中输入训练数据,设置选择线性核函数, 学习出支持向量及最优分类面,保存训练好的分类器;

分类提取,根据分析消费者在不同时间段上的行为习惯差异或分析消费者 在不同商品类别上的行为习惯差异的选择需要,使用对应的识别器A或识别器 B进行类别提取操作,完成针对消费者的分类。

一种基于消费者行为数据分析和分类技术的在线广告分类推送系统,包括 数据采集模块、数据分析模块和在线推送模块;

所述的数据采集模块用于完成消费者行为数据的收集、清洗工作;

所述的数据分析模块用于完成这种消费者行为分析和分类技术的具体实 现,应用TMCBD主题模型分析消费者在不同商品类别和不同时间段标签上的 购买兴趣分布,然后根据消费者的这些兴趣分布,将消费者进行有效分类,最 终为每位消费者产生两种类型的类别标签,分别为按消费行为产生的早晚和按 消费行为面向的对象这两种角度进行分类;

所述的在线推送模块用于完成向每位消费者推送最适合的广告,以期购买 概率最大化,针对每位消费者,根据其身份ID查找他或者她的类别标签,根据 这个类别标签寻找top-3最为匹配的广告并适时地推送;

数据采集模块与数据分析模块相连,数据采集模块将数据发送给数据分析 模块;数据分析模块与在线推送模块相连,数据分析模块将数据发送给在线推 送模块,在线推送模块完成在线广告推送工作。

有益效果

本发明的基于消费者行为数据分析和分类技术的在线广告分类推送方法及 其系统,与现有技术相比通过收集各种移动终端上消费者的行为数据,分析和 建模消费者的行为,挖掘不同消费者的消费习惯,实现消费者有效分类,从而 指导商家完成对已有客户的粘性加固、对潜在客户的精准营销和广告推送。

通过数据收集和预处理步骤,收集了各种移动终端上的消费者行为数据, 并将这些来源不同的数据通过消费者身份匹配、数据清洗、时间片划分等操作 实现了有效融合,为继续分析和建模提供了数据支持。通过针对消费者的行为 数据进行建模步骤,分析了消费者和商品类别、消费者和购买时间段以及商品 类别和商品间的联系,提供了一种面向消费者行为数据的新的主题模型 TMCBD;另外,考虑消费者行为数据的不断增加,在TMCBD后添加了商品类 别更新和消费者预测步骤,实现了模型的实时迭代更新。在针对消费者进行有 效分类步骤中,同时采用了聚类和分类技术,提供了一种两层分类方法,从不 同角度将消费者进行了划分。具体而言,首先利用聚类分析得到一种消费者划 分,然后将其看作训练数据利用分类技术学习出类别识别器,最后利用该识别 器提取新增消费者的类别标签。

本发明可以指导商家对目标客户(包括已有客户与潜在客户)进行精准营 销和广告推送,同时消费者也可以更为快速地获取到感兴趣商品的各种信息, 从而更为方便地购买到自己需求的商品,实现商家与客户双赢局面。

附图说明

图1为本发明的方法流程图;

图2为本发明中TMCBD主题模型生成过程概率图;

图3为本发明的系统结构图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以 较佳的实施例及附图配合详细的说明,说明如下:

如图1所示,本发明所述的一种基于消费者行为数据分析和分类技术的在 线广告分类推送方法,包括以下步骤:

第一步,数据收集和预处理。从在线移动终端上收集消费者的行为数据并 建立数据池,对数据池中的数据进行预处理操作,为后续数据分析和建模提供 数据支持。其包括以下步骤:

(1)收集数据,从在线移动终端上收集消费者的行为数据,并将消费者所 对应的行为数据建立数据池。从智能手机、POS机等移动终端收集消费者的行 为数据,主要包括GPS(地理位置信息)、购物清单(商品名、价格、销售数量、 销售时间和店铺名等)以及上网痕迹(网址、停留时间、点击频数等)。即从消 费者的智能手机和平板电脑上获取到网上购物记录以及地理位置信息(GPS), 从POS机上获取到消费者的刷卡记录等。根据收集到的各种消费者行为数据, 建立消费者基本信息表以及消费者购物清单表等表格。消费者基本信息表包含 字段有消费者姓名(consumerName)、消费者手机编号(phoneID)、消费者电话 (phoneNu-mber)、消费者银行卡(cardID)等。该表中的记录存在字段缺失或 者两条记录实际上对应相同的消费者。消费者购物清单表包含字段有消费者 (consumer)、商品名称(productName)、商品价格(productPrice)、购买数量 (quantity)、购买时间(time)以及店铺名称(shopName)等。

(2)推送对象身份匹配。由于数据来源不同,且同一消费者在不同设备上 可能有不同的身份,因此需要对这些数据进行消费者身份匹配,使得同一消费 者的消费数据对应唯一的身份标识。通过数据池中的消费者基本信息表,对消 费者的身份进行了逐级匹配,为具有多重身份的消费者赋予唯一身份标识。

基于原始数据池中的数据来源不同,同时消费者在不同设备上可能有不同 的身份,所以往往实际上是同一消费者的行为数据却被记录成了属于不同的消 费者。为此,首先需要对这些数据进行消费者身份匹配操作。匹配方法则是依 据原始数据池中的消费者基本信息表,假设同一消费者持有唯一手机和电话号 码且每张银行卡只属于一个消费者,那么匹配时先根据消费者身份证号;若身 份证号为空,再根据消费者电话号码或者手机编号;若这些字段也缺失,最后 根据银行卡号。匹配过程中,如果发现两条消费者记录实际上对应相同的消费 者,则将这两条记录合并成一条,并到消费者购物清单表中修改相应的记录。

(3)数据清洗,删除数据池中购买商品总数和购买次数均较低的消费者及 其对应的行为数据。在对调整后的原始数据池中的数据做统计分析后,可以发 现其中一些消费者的行为数据非常稀疏,购买商品总数(productsNu-m)和购买 次数(frequency)都很低。事实上,较少的消费行为数据往往无法反映消费者 的真实行为习惯,甚至会对整个分析和建模产生负面影响。为了避免这一问题, 需要对这些数据进行清洗工作,即删除上述两个指标值都低于阈值的消费者及 其行为数据,即productsNum<η且frequency<μ。阈值大小取决于具体数据, 可以根据后续分析效果作适当调整。

(4)划分时间片,将一天二十四小时划分成七个时间段,并将消费者购买 的商品配以相应的时间段标签。考虑不同消费者在一天内不同时间段上的消费 行为可能存在差异,为了分析和挖掘出这种差异,需要将连续的购买时间进行 离散化,即首先将一天二十四小时划分成若干时间段,然后将数据池中的具体 购买时间替换成时间段标签。划分详情可见表1。

表1  时间片划分表

标签 时间段 T1 06:00:00—08:59:59 T2 09:00:00—11:59:59 T3 12:00:00—14:59:59 T4 15:00:00—17:59:59 T5 18:00:00—20:59:59 T6 21:00:00—23:59:59 T7 00:00:00—05:59:59

第二步,针对消费者的行为数据进行建模。建立一种面向消费者行为数据 的主题模型,挖掘出消费者与在线广告类别或购买时间段等购买行为之间的联 系。其包括以下步骤:

(1)行为数据的转换,将数据池中的消费者购物清单中的用户ID、数据元 素、时间段标签组合成行为数据结构,行为数据结构如下所示:

<用户ID,<购买商品,时间段标签>>。

用户ID标识消费者身份,<购买商品,时间段标签>表示该消费者的购物清 单,包括购买商品的名称以及对应的时间段。将消费者购物清单数据表示成如 表2所示的结构,若同一商品的购买数量大于1,实际购买数量是多大就对应多 少条这样的记录。

表格2  消费者购物清单数据表

(2)主题模型的建立与分析,建立面向消费者行为数据的TMCBD主题模型。 主题模型(topic model)是继向量空间模型(vector space model,简称VSM)后 又一种经典的文本建模与表示的工具,它将人类思考和写文章的行为看作是在 玩一种文本生成游戏,认为文本是重复通过“以一定概率得到某个主题(topic), 再从这个主题中以一定概率得到某个词”这样一个过程生成的。最为人熟知的 主题模型包括PLSA、LDA以及基于LDA的各种变体。多数的主题模型都基于 词袋模型(bag of words),认为文本是由词构成的序列且词与词之间互相独立。 借用主题模型思想,本发明将消费者及其购买的商品当作文本,每个商品相当 于文本中的词,商品的购买数量即是词频。在这里,主题具有了更实际的物理 意义,即表示商品类别。值得一提的是,商品与商品间的独立性较之文本中词 间的关系更符合主题模型的假设。另外,将商品的购买时间考虑进模型中,即 数据中的TimeLabel。为此,本发明面向消费者行为数据提供了一种新的主题模 型Topic Model for Con-sumers’Behavior Data(简称TMCBD),自动学习不同商 品类别在商品上的分布情况以及不同消费者在不同时间段内对不同商品类别的 购买兴趣分布情况。

建立TMCBD主题模型其包括以下步骤:

A、设定模型参数,

a、定义消费者行为数据库W。

W={ConShopList1,ConShopList2,...,ConShopListM},

W为消费者行为数据库,ConShopListm表示第m个消费者的购物清单详 情,M表示消费者的个数;

ConShopListm= {<product,timeLabel>1,<product,timeLabel>2,...,< product,timeLabel>Nm}

,<product,timeLabel>0表示第m个消息者购买第n个商品及其购买时 间,Nm表示第m个消费者购买商品的总数量。

消费者行为数据库W的生成过程可以使现有技术中的内容,也可以使用以 下步骤,如图2所示,

Z1,假设现有消费者行为数据中只涉及K个商品类别,则 每个商品类别可以表示成商品上的多项式分布。

Z2,定义消费兴趣。由于每个消费者在不同时间段上的消费兴趣可能发生 变化,假设第m个消费者在第h个时间段上的消费兴趣为θm,h,h取值1至H。 其中消费兴趣θm,h可以表示成商品类别上的多项式分布。

Z3,生成商品类别。针对第m个消费者的购物清单ConShopListm中的每个 商品productn及其时间标签timeLabeln,首先根据timeLabeln(取值为h)选择 该消费者在第h个时间段上的消费兴趣分布θm,h;然后,从θm,h采样生成商品 productn的商品类别zm,n(取值为k)

Z4,生成商品。从K个商品类别中挑出编号为k,即再从中采样生 成商品productn

一直重复Z2至Z4步骤,直至生成整个数据库W。

b、定义商品类别集合Φ、消费者在不同时间段上的购买欲望分布Ψ和消 费者在不同时间段内对不同商品类别的购买兴趣Θ。

Φ为商品类别集合,其中表示第k个商品类别,K表示商品类别数;

Ψ={ψ1,ψ2,...,ψM},

ψm表示第m个消费者在不同时间段上的购买欲望分布;

Θ为消费者在不同时间段内对不同商品类别的购买兴趣,其中θm,h表示第m 个消费者在时间段h上对不同商品类别的购买兴趣分布,H表示时间段数。

B、训练初始TMCBD主题模型,由于Θ、Φ和Ψ这三个数值最初并不清楚, 在此我们需要通过针对消费者行为数据库W的计算,得到Θ、Φ和Ψ这三个数 值,即模型的训练和更新过程。如图2所示,整个生成过程用概率图模型表示, 其中横线填充圆盘表示观察值,即消费者行为数据库W中每位消费者购买的商 品及其购买时间段,分别用p和t标识。其他空心圆盘表示随机变量,需要通过 学习得到。具体地,Θ和Φ分别是生成过程中的consumer-productCategory和 productCategory-product骰子集合,θm,h表示第m个消费者在第h个时间段在商 品类别上的分布情况,表示第k个商品类别在商品上的分布情况,它们又分 别服从参数为α和β的狄利克雷分布(Dirichlet Distribution);zm,n是中间变量, 表示第m个消费者购买的第n个商品对应的商品类别编号;ψm表示第m个消 费者在不同时间段上的购买欲望分布。

训练初始TMCBD主题模型的具体步骤如下:

a、随机初始化,对消费者行为数据库w中每位消费者购买的每个商品p, 随机地赋一个商品类别z。

b、重新扫描数据库w,对每个商品p,按照以下公式重新采样它的商品类 别,并在w中进行更新,

其中,i=(m,n)表示二维下标,θm,h表示第m个消费者在第h个时间段在 商品类别上的分布情况,表示第k个商品类别在商品上的分布情况,α和β为 狄利克雷分布参数,zm,n为中间变量,表示第m个消费者购买的第n个商品对 应的商品类别编号;E为期望平均值,即k个θm,h或t个的平均值。

c、重复以上w的重新采样过程直到采样收敛或满足预设的迭代次数,迭代 次数根据数据库w的大小而设定,通常设为100。

d、计算Φ,公式如下:

其中,表示除去pm,n,由第k个商品类别产生的商品中product v的个 数;βt表示常量。在此计算出Φ的具体要求数值,同理,下面也计算出Ψ和Θ的 具体数值。

e、计算Ψ,公式如下:

其中,表示第m个消费者在第h个时间段内购买的商品数量。

f、计算Θ,公式如下:

其中,表示除去pm,n,第m个消费者在第h个时间段内购买的商品中 由第k个商品类别产生的商品的个数;αk表示常量。

将Φ、Ψ和Θ保存并输出[Φ,Ψ,Θ]。

C、对TMCBD主题模型进行更新,生成Φ_new、Ψ_new和Θ_new。若TMCBD 主题模型不存在(为空),说明输入的数据是第一批需要分析和建模的,则为上 一步的方法步骤;反之,则说明输入的数据是新增加的部分,需要对已有模型 进行迭代更新,生成新的Φ_new、Ψ_new和Θ_new。其更新的方法与训练的方 法相同,即如下:

读取[Φ,Ψ,Θ]和消费者行为数据库W;

随机初始化:对w中每位消费者购买的每个商品p,随机地赋一个商品类别 z;

重新扫描数据库w,对每个商品p,按照公式重新采样它的商品类别,在w 中进行更新;

重复以上w的重新采样过程直到采样收敛或者满足预设的迭代次数;

分别使用对应公式,分别计算出Φ_new、Ψ_new和Θ_new。

(3)商品类别更新和新增消费者预测。对更新学习得到Φ_new、Ψ_new和 Θ_new进行后处理操作;其包括以下步骤:

A、对Φ_new中每个商品类别,计算其与Φ中所有商品类别的余弦相似度, 余弦相似度的计算采用现有技术中的公式计算即可。若相似度最小值小于阈值 δ,则将该商品类别添加至Φ中。

B、基于更新后的Φ和Ψ_new,调整Ψ。

若Ψ_new中存在Ψ中的消费者,则结合Ψ_new中的购买欲望分布更新该消 费者的购买欲望分布,并替换Ψ中相应的值;若Ψ_new中存在Ψ中没有的消费者, 则直接将该消费者的购买欲望分布添加至Ψ中。

C、基于更新后的Φ和和Θ_new,调整Θ。

若Θ_new中存在Θ中的消费者,则结合Θ_new中的购买欲望分布更新该消费 者的购买欲望分布,并替换Θ中相应的值;若Θ_new中存在Θ中没有的消费者, 则直接将该消费者的购买欲望分布添加至Θ中。

第三步,针对消费者进行有效分类,针对不同的消费者类别在线推送对应 类型的广告。针对消费者有效分类包括以下两个方向的分类:

第一个方向,按消费行为产生的早晚将消费者进行划分。基于TMCBD输出 的Ψ,每个消费者的行为习惯被表示成不同时间段上的购买欲望分布。由于事先 并不知道这些消费者应该被划分为多少类,所以这里首先采用聚类技术,自动 学习出消费者的划分,保证同一簇内的消费者的消费行为尽可能相似,而不同 簇内的消费者的消费行为尽可能不同。然后,将这些有类别标签的消费者及其 行为表示当作训练数据,利用分类技术学习出一个消费者类别识别器,对于新 增消费者,通过该识别器提取消费者的类别标签。

第二个方向,按消费行为面向的对象将消费者进行划分。基于TMCBD输出 的Θ,每个消费者的行为习惯被表示成不同商品类别上的购买欲望分布。同步骤 一,首先采用聚类技术,将具有相似购买兴趣的消费者放在一块;然后利用分 类技术识别并提取新增消费者的类别标签。

针对消费者进行有效分类具体包括以下步骤:

(1)设定类别识别器A或类别识别器B,类别识别器A对应Ψ,类别识别 器B对应Θ,具体读取哪一种消费者行为习惯表示,取决于划分消费者的角度。 若分析消费者在不同时间段上的行为习惯差异,并据此划分消费者进行分类, 则读取Ψ,设定类别识别器A;若分析消费者在不同商品类别上的行为习惯差异, 并据此划分消费者进行分类,则读取Θ,设定类别识别器B。

(2)聚类分析,对于输入的Ψ或者Θ,采用基于密度的聚类方法划分消费 者,自动确定簇的个数,确保同一簇内的消费者行为习惯尽可能相似,而不同 簇内的消费者的行为习惯尽可能不同。

(3)得到消费者的划分后,直接赋予不同簇以不同的类别标号,将这些带 有类别标签的消费者及其行为习惯表示保存,作为下一步分类学习的训练数据。

(4)识别器分类学习,基于部分有类别标签的消费者判断新增消费者的类 别标签,事实上是一个多类(类别标签大于2)分类问题,可采用分类技术解决, 这里应用支持向量机(SVM)算法实现新增消费者的划分。在SVM向量机中输 入训练数据,设置选择线性核函数,学习出支持向量及最优分类面,保存训练 好的分类器。

(5)分类提取,根据分析消费者在不同时间段上的行为习惯差异或分析消 费者在不同商品类别上的行为习惯差异的选择需要,使用对应的识别器A或识 别器B进行类别提取操作,完成针对消费者的分类。即,如果需要分类的依据 是在不同时间段上的购买欲望分布,则应用识别器A进行类别提取操作,提取 出来的集合作为在线广告推送对象;如果需要分类的依据是在不同商品类别上 的购买欲望分布,则应用识别器B进行类别提取操作,提取出来的集合作为在 线广告推送对象。

本发明的消费者行为数据分析和分类技术可以应用在在线广告分类推送系 统中,实现广告精准推送,以期消费者购买概率最大化。该在线广告分类推送 系统包括三个子系统,分别是数据采集模块、数据分析模块和在线推送模块。

数据采集模块主要完成消费者行为数据的收集、清洗等工作。首先,尽可 能多地从诸如手机、POS机以及平板电脑等移动终端上收集消费者的行为数据, 主要包括消费者的身份信息和购物记录。然后,根据消费者的身份信息和购物 记录分别建立消费者基本信息表和消费者购物清单表。最后,对这些数据进行 清洗、统计和整理,最终输入数据分析系统的数据是由消费者的身份ID以及对 应的购物清单组成的map,其中购物清单是由购买商品、购买数量和时间段标 签组成的class的列表。

数据分析模块主要完成这种消费者行为分析和分类技术的具体实现,即应 用TMCBD主题模型分析消费者在不同商品类别和不同时间段标签上的购买兴 趣分布,然后根据消费者的这些兴趣分布,将消费者进行有效分类,最终为每 位消费者产生两种类型的类别标签,分别是按消费行为产生的早晚和按消费行 为面向的对象这两种角度进行分类而得到的。

在线推送模块主要完成向每位消费者推送最适合的广告,以期购买概率最 大化。具体地,针对每位消费者,根据其身份ID查找他或者她的类别标签,然 后根据这个类别标签寻找top-3最为匹配的广告并适时地推送给他或者她。

整个系统会一直处在更新计算的过程中,其中数据采集模块会不断地从各 种终端设备上收集数据并将处理好的数据输入进数据分析模块中;数据分析模 块会首先判断是否存在已经学习到的模型,然后做出相应的分析,及时发现新 增消费者的购买兴趣分布以及调整已有消费者的购买兴趣分布。最终,在线推 送模块则会适时适量的向系统中存在的每位消费者推送最适合的广告。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业 的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中 描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有 各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明 要求的保护范围由所附的权利要求书及其等同物界定。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号