首页> 中国专利> 基于家庭收视纪录的家庭分析及节目推荐方法

基于家庭收视纪录的家庭分析及节目推荐方法

摘要

本发明提供了一种基于家庭收视纪录的家庭分析及节目推荐方法,该方法根据所有家庭的收视纪录,考虑家庭成员收视的时间特征,通过时间-兴趣耦合主题模型,将节目按兴趣分类,将收视时刻按时段分类,并计算出每个家庭在不同时段看节目类型的分布。根据以上分布对家庭收视习惯做聚类分析,向家庭精准推荐节目。

著录项

  • 公开/公告号CN103533393A

    专利类型发明专利

  • 公开/公告日2014-01-22

    原文格式PDF

  • 申请/专利权人 上海交通大学;

    申请/专利号CN201310425811.1

  • 发明设计人 陈唯源;张娅;查宏远;

    申请日2013-09-17

  • 分类号H04N21/258(20110101);H04N21/466(20110101);

  • 代理机构31236 上海汉声知识产权代理有限公司;

  • 代理人郭国中

  • 地址 200240 上海市闵行区东川路800号

  • 入库时间 2024-02-19 23:19:30

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2017-08-01

    授权

    授权

  • 2014-02-26

    实质审查的生效 IPC(主分类):H04N21/258 申请日:20130917

    实质审查的生效

  • 2014-01-22

    公开

    公开

说明书

技术领域

本发明涉及网络电视技术领域,特别涉及一种基于家庭收视纪录的家庭分析及 节目推荐方法。

背景技术

IPTV即交互式网络电视,是一种利用宽带有线电视网,集互联网、多媒体、 通讯等技术于一体,向家庭用户提供包括数字电视在内的多种交互式服务的技术。 IPTV的主要优势在于其良好的互动性,通过IPTV,用户将在“IP机顶盒+电视机” 上告别单一被动的节目接收,走向更为丰富多彩的互动数字娱乐生活。

伴随着IPTV用户规模的迅速上升,研究IPTV用户的使用行为,可以更深入地 分析用户群体的特征与偏好。伴随着IPTV提供内容数量的激增,用户很难在海量 数字媒体内容中人工找到感兴趣的内容,因此为用户提供精准有效果的个性化的服 务成为了一种迫切的需求,而IPTV与生俱来的良好交互性也为获得用户行为数据, 并提供个性化服务成为一种可能。

基于IPTV家庭收视纪录分析的研究主要包括以下两个部分:对家庭用户行为 的建模、以及基于用户群的行为特征进行节目推荐。

建立用户模型是实现电视节目个性化推荐的基础。由于用户点播节目是个人兴 趣的反映,与临时的、随机的信息获取相比,个人兴趣的稳定性高,有保存、分析 的价值。电视节目本体模型能够合理地抽象、归纳电视节目的关键信息,在此基础 上学习用户兴趣,建立用户兴趣偏好模型。Jongwoo Kim于2011年通过使用本体论 和K-means聚类对用户建模进行推荐。Pogacnik于2005年结合电视节目类别和贝 叶斯网络,对用户分层建模。

电视一般是在家庭、宿舍等公用娱乐设施使用,通常会有多个成员一起观看电 视,此时播放的节目应该照顾到多数人的喜好。个性化推荐系统,根据用户的兴趣 喜好,为其推荐感兴趣的节目,满足单用户观看的情况,但没有考虑多个用户同时 观看电视的情况。因此也需要基于用户群(家庭)的行为特征进行节目推荐。Zhiwen  Yu于2006年提出了一种面向多用户的电视节目推荐生成方法,描述了用户对节目 喜好程度度量,用户时间优先级度量,以及多个单用户节目单的融合算法。Sotelo 于2006年建立了一个非线性的观看模型,能发现特定用户和特定用户群的喜好内 容,从而在基于电视内容和语义分析的基础上对特定用户群进行推荐。

上述基于收视纪录的家庭分析及推荐方法大多没有考虑家庭成员收视的时间 特征,对节目的分类通常要依靠外部数据。因此在家庭分析上没有考虑家庭在不同 时段上收视习惯的不同,在节目推荐上也没有考虑应该在不同时段给家庭推荐不同 类节目。

发明内容

针对现有技术中的缺陷,本发明的目的是提供一种基于家庭收视纪录的家庭分 析及节目推荐方法,以解决现有方法中没有考虑收视时间,家庭在不同时段上收视 习惯的不同,以及节目时段分类需要依靠外部数据的问题。

为实现上述目的,本发明提出一种基于家庭收视纪录的家庭分析及节目推荐方法, 包括以下步骤:

1)收视纪录收集模块:获取家庭的收视纪录,包括家庭唯一标识、节目名称、收 看时刻;

2)时间-兴趣耦合主题算法模块:根据收视纪录收集模块获取的所有家庭的收视纪 录,通过时间-兴趣耦合主题模型,将节目按兴趣分类,将收视时刻按时段分类, 并计算每个家庭在不同时段看节目类型的分布;

3)聚类及推荐模块:根据时间-兴趣耦合主题算法模块得到的每个家庭在不同时段 看节目类型的分布,对家庭收视习惯做聚类,向家庭推荐节目。

优选地,所述收视纪录收集模块在后台收集家庭的收视纪录后,将同一电视节目的 不同集数并为一个节目名称,将收看时刻保存为“星期—小时”存储,忽略具体的日期和 分秒信息。由于一周有7天,每天24小时,收看时刻字段共有7×24=168种。

优选地,所述的时间-兴趣耦合主题算法模块,是一个概率生成模型,它可以分为 节目分类模块、时刻分类模块和家庭分析模块。

其中,所述的节目分类模块,是通过时间-兴趣耦合主题模型,仅有家庭收视纪录 的数据的情况下,自动将节目按兴趣分类,对于每一个节目类别k,计算类别生成节目 概率的向量φk=[(φkw):i=1,2,...,Vw],其中Vw为电视节目数,φkw为类别k生成节目w的概 率。对于每个类别,概率较大的节目反映这个类别的兴趣构成。一共有K类节目。

其中,所述的时刻分类模块,是通过时间-兴趣耦合主题模型,仅有家庭收视纪录 的数据的情况下,自动将时刻按收视时段分类,对于每一个时段分类l,计算类别生成 时刻概率的向量ψl=[(ψlt):t=1,2,...,Vt],其中Vt为收看时刻数,Vt=168,ψlt为时段l生 成时刻t的概率。对于每个时段,概率较大的时刻反映这个时段的构成。一共有L个时 段。

其中,所述的家庭分析模块,是通过时间-兴趣耦合主题模型,对家庭m生成时段 ——节目分布的矩阵Θm=[(Θmij):i=1,2,...,K;j=1,2,...,L],其中Θmij表示家庭m在时段 j上观看i类节目的概率。

其中,时间-兴趣耦合主题模型,是指定节目分类数K,时段数L及平滑参数后, 通过Gibbs采样,计算出类别分布φ,时段分布ψ以及家庭收视习惯分布Θ。

其中,所述的聚类模块,是通过对家庭收视习惯分布Θm聚类后,对家庭进行分类, 对各个类别的家庭做分析。

其中,所述的节目推荐模块,是在计算得到家庭收视习惯分布Θ后,当家庭m在某 个时间t打开电视后,根据ψ得到t所属的时段l,在Θm中得到家庭m在该时段看不同 类节目的概率分布。根据这一概率分布选出类别k,按类别——节目生成概率φk,选出 节目w推荐给家庭。

与现有技术相比,本发明具有如下的有益效果:

本发明通过深入挖掘家庭收视纪录数据,提出时间-兴趣耦合主题模型,将收视纪 录中的时间信息和节目信息耦合起来,从客观的收视纪录出发,挖掘出电视节目分类, 收视时段分类。对每个家庭在不同的收视时段计算出不同的收视习惯,从而能对家庭进 行深层次分析,达到针对家庭不同用户的有针对性的节目推荐。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特 征、目的和优点将会变得更明显:

图1为本发明方法得出的时段分布图;

图2为时间-兴趣耦合主题模型的生成模型图;

图3为Gibbs求解时间-兴趣耦合主题模型的流程图。

具体实施方式

下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人 员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技 术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于 本发明的保护范围。

本发明主要分三部分:(一)收视纪录收集和预处理;(二)通过时间-兴趣耦合主 题模型计算节目类型,时段分布,以及家庭在不同时段的收视习惯;(三)分析家庭的 收视习惯,对家庭做电视节目推荐。

下面进行详细介绍:

(一)收视纪录收集模块:收视纪录收集和预处理

系统在获取到收视纪录后,只保留收视纪录中用户观看时长超过3分钟的纪录。对 同一个电视节目的不同集数或期数,合并成同一个节目名。将收视纪录中观看时间改写 成“星期-小时”形式,省略具体日期和分秒信息。例如,用户A在2013年5月4日星期 六18:37:02开始观看水浒传第一集,该纪录在系统中被保留为(A,水浒传,星期六-18)。 由于一周有7天,每天24小时,收看时刻字段共有7×24=168种。

(二)时间-兴趣耦合主题算法模块:通过时间-兴趣耦合主题模型计算节目类型, 时段分布,以及家庭在不同时段的收视习惯

1.时间-兴趣耦合主题模型是一个概率生成模型,模型基于以下三个先验知识:(a) 一个家庭有一个或多个成员;(b)一个家庭成员的观看习惯可以用观看节目兴趣集合来 表示;(c)每个家庭成员的收看时段相对固定。

2.根据整个数据集,有以下三个分布:(a)节目类别生成节目的分布φ;(b)时段 生成具体时刻的分布ψ;(c)家庭在不同时段收看不同类别电视节目的收视习惯分布Θ。

a)其中,对于第k类节目,节目类别生成节目的分布的向量φk=[(φkw):i=1,2,...,Vw], 其中Vw为电视节目数,φkw为类别k生成节目w的概率。对于每个类别,概率较大的节 目反映这个类别的兴趣构成。一共有K类节目。为便于理解,表1是一个示例性的节目 分布:

表1节目分布φ

表1表示3类节目,表格中的数字表示某一类节目生成对应节目的概率,第一类是动漫 类,第二类是综艺类节目,第三类是抗战类节目。

b)其中,对于第l类时段,时段生成时刻概率的向量ψl=[(ψlt):t=1,2,...,Vt],其中 Vt为收看时刻数,Vt=168,ψlt为时段l生成时刻t的概率。对于每个时段,概率较大的 时刻反映这个时段的构成。一共有L个时段。为便于理解,表2是一个示例性的时段分 布:

表2时段分布ψ

表2表示3类时段,表中的概率表示该时段生成该时刻的概率,将每类时段中的时刻按 概率从大到小排列,就可以知道该时段代表的构成,时段1表示是工作日17~18点,时 段2表示是周日下午,时段3表示工作日21~22点。图1表示一共8个时段时,算法可 以得出的时段分布,图中列出了每天上午6点到凌晨1点时刻归属于哪个时段。同样的 时段用同色标注,例如时段6是周末白天时段,时段7是每天晚上19~20点。

c)其中,对于第m个家庭,在不同时段收看不同类别电视节目的收视习惯分布矩 阵Θm=[(Θmij):i=1,2,...,K;j=1,2,...,L],其中Θmij表示家庭m在时段j上观看i类节目的 概率。

表3家庭收视习惯分布矩阵Θ

  工作日17~19点 工作日20~22点 工作日13~16点 周末13~18点 节目类别1 0.18 0.01 0.01 0.1 节目类别2 0.01 0.2 0.15 0.04 节目类别3 0.01 0.1 0.01 0.18

3.时间-兴趣耦合主题模型是一个概率生成模型,对家庭m来说,第n条收视纪录 由如下步骤生成:

a)从参数为α的狄利克莱分布中选择收视习惯分布矩阵Θm

b)从参数为β的狄利克莱分布中选择节目分布φ;

c)从参数为γ的狄利克莱分布中选择时段分布ψ;

d)根据概率矩阵Θm,按多项式分布从矩阵中选择一个位置zm,n=(zm,n,1,zm,n,2), zm,n,1表示选择的时段,zm,n,2表示选择的节目类别;

e)根据概率分布,按多项式分布从中选出一个时刻tm,n;

f)根据概率分布按多项式分布从中选出一个节目wm,n

这样就生成了第m个家庭的第n条收视纪录(m,wm,n,tm,n),对应的图模型见图2。

4.求解上述模型中的φ,ψ,Θ,对收视纪录中的数据使用Gibbs采样的方法。M为 家庭数,Nm表示第m个家庭看电视剧的次数,表示第m个家庭被赋予第i个收视习 惯的次数,表示节目vw被赋予第k类节目的次数,表示时刻vt被赋予第l个时段 的次数。方法流程图见图3。步骤如下:

a)初始化nm,nk,nl为0;

b)对每个家庭m,对该家庭每个收视纪录n,以为参数的多项式分布中采样 zm,n=(l,k),令各个计数器加1:nm+=1,nk+=1, nl(tm,n)+=1,nl+=1。

c)对每个家庭m,对该家庭每个收视纪录n,令每个计数器减1:nm-=1, nk(wm,n)-=1,nk-=1,nl(tm,n)-=1,nl-=1;

d)根据概率:

P(zm,n|w,t,z(m,n),α,β,γ)nzm,n,2(wm,n)+β-1Σvw=1Vw(nzm,n,2(vw)+β)-1×nzm,n,1(tm,n)+γ-1Σvt=1Vt(nzm,n,1(vt)+γ)-1×(nm(zm,n)+α-1),

采样收视习惯i。其中,zm,n为收视习惯,zm,n=(zm,n,1,zm,n,2),zm,n,1表示选择的时段, zm,n,2表示选择的节目类别。Vw为电视节目数,Vt为收看时刻数。表示节目vw被 赋予第zm,n,2类节目的次数,表示节目wm,n被赋予第zm,n,2类节目的次数。表 示时刻tm,n被赋予第zm,n,1个时段的次数,表示时刻vt被赋予第zm,n,1个时段的次 数。α,β,γ为狄利克莱分布的参数;各个计数器加1:nm+=1,表示第m个家庭被赋予第i个收视习惯的次数,nm为 第m个家庭被赋予的收视习惯的总次数;表示节目wm,n被赋予第k类节目的次 数,表示属于第k类节目的节目数,表示属于第l个时段的时刻数;

e)重复步骤c,d,e直到收敛;

f)计算收视习惯分布Θ:Θm,i=nm(i)+αΣi'=1K×L(nm(i)+α);

g)计算节目类别分布φ:φk,vw=nk(vw)+βΣvw'=1Vw(nk(vw')+β);

h)计算收视时段分布ψ:Ψl,vt=nl(vt)+γΣvt'=1Vt(nl(vt')+γ).

(三)聚类及推荐模块:分析家庭的收视习惯,对家庭做电视节目推荐

1.对求出的收视习惯分布Θ做K均值聚类,可以得到不同类家庭。对这些家庭分 析可以在准确的时段向其精准推荐电视节目和广告。例如在得到一类家庭经常在工作日 17~18点收看动画片,就可以正在这个时段向这部分家庭推荐儿童产品,或是儿童类节 目。

2.对家庭做节目推荐分两类,一类是未知家庭收视时间,另一类是已知家庭收视 时间。后一类应用的场景是当家庭在某个时间打开电视,系统根据该家庭在这个时段的 兴趣分布,向其推荐节目。

a)当未知家庭收视时间时,向家庭推荐节目的步骤如下:

1)根据求出的家庭收视习惯概率矩阵Θm,按多项式分布从矩阵中选择一个位 置z=(z1,z2),z1表示时段,z2表示选择的节目类别;根据概率分布按 多项式分布从中选出一个节目w。

b)当已知家庭收视时间时,假设收视时间为t,向家庭推荐节目的步骤如下:

1)找出生成t概率最大的时段l,即找出l使得ψl,t=max({ψ*,t}),其中{ψ*,t}表 示各个时段生成t的概率组成的向量,ψl,t是向量{ψ*,t}中的最大值;取Θm的 第l列,归一化得到θm,l

2)根据概率分布θm,l,按多项式分布从中选择一个节目类别z;

3)根据概率分布φz,按多项式分布从中选择一个节目w。

举例如下,当家庭的收视习惯分布为表3,节目类别分布为表1时,表示用户倾向 于在工作日17~19点看动漫节目。当用户在周一18点打开电视,系统对该家庭做节目 推荐,先找出周一18点所在的时段为工作日17~19点,之后取Θm第一列归一化得到 (0.9,0.05,0.05),表示用户在这个时段有0.9的概率看类别1(动漫)的节目,看类别2 (综艺),3(抗战)的节目概率都为0.05,以多项式分布选择一个节目类别。假设选出 类别1(动漫),这时从类别1中,以概率(0.5,0.4,0.03,0.02,0.03,0.02)的多项式分布选 择节目(猫和老鼠,机器猫,中国好声音,达人秀,抗日奇侠,穿越集中营)。这时候 就有较大概率为家庭推荐动漫节目。

以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上 述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改, 这并不影响本发明的实质内容。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号