首页> 中国专利> 基于概率分布转换聚类的广播电视新闻拆条方法

基于概率分布转换聚类的广播电视新闻拆条方法

摘要

本发明公开了一种基于概率分布转换聚类的广播电视新闻拆条方法,包括步骤:S1,新闻节目视频数据化,提取特征数据;S2,计算每个特征数据的重要度占比,然后将每个特征数据乘以该特征的重要度占比作为该特征的新数据;S3,将每个带权重特征的数据归一化处理;S4,用概率分布转换聚类将归一化后特征数据中的入点类和非入点类聚类出来;S5,根据聚类得到的入点类和非入点类数据,切分新闻故事等;本发明解决了传统聚类算法在广播电视新闻拆条中存在误差较大,准确性较低的问题,对于提升聚类算法在电视新闻节目拆条应用中的准确率,具有非常重要的意义。

著录项

  • 公开/公告号CN112288047A

    专利类型发明专利

  • 公开/公告日2021-01-29

    原文格式PDF

  • 申请/专利权人 成都索贝数码科技股份有限公司;

    申请/专利号CN202011555578.5

  • 发明设计人 陈锋;温序铭;张诚;杨瀚;彭军;

    申请日2020-12-25

  • 分类号G06K9/62(20060101);

  • 代理机构51214 成都九鼎天元知识产权代理有限公司;

  • 代理人贾年龙

  • 地址 610041 四川省成都市高新区新园南二路2号

  • 入库时间 2023-06-19 09:44:49

说明书

技术领域

本发明涉及广播电视新闻拆条领域,更为具体的,涉及基于概率分布转换聚类的广播电视新闻拆条方法。

背景技术

近年来,随着广播电视新闻业的井喷式发展,电视新闻节目出现了7*24小时的持久性、实时性等特点。这些新闻节目通常包含多个新闻故事,而电视编辑、观众等受众通常只关心一小部分的新闻故事,所以需要将连续的整档新闻节目拆分为多个独立的新闻故事。传统的人工拆分新闻故事的做法耗时费力。因此,找到一种电视新闻自动拆条的方法,将新闻故事从整档新闻素材中截取出来,是非常有必要的。

在常规的工程应用中,通常是将新闻故事拆分的问题视为一个标注型问题,将新闻故事的片段标注为BS(Begin Scene)、MS(Middle Scene)、ES(End Scene)、SS(SingleScene),然后再利用标注算法进行标注从而完成切分。但是,传统的标注思路中应用的标注算法是有监督学习算法,需要大量的人工已标注好的标签,因此制约了标注算法的快速应用。

聚类算法作为一种无监督学习算法,通常上是缺乏数据标签的时候使用。而新闻故事拆条的本质就是从电视新闻节目素材中找到每个新闻故事的入点,只要新闻故事的入点找到了,新闻故事自然就确定了。所以,可以将入点视为一类,非入点视为另一类,从而将新闻故事拆条视为一个二分聚类问题。

然而,在新闻故事切条的实际工程应用中,传统的聚类算法效果受到一定的制约,主要是因为传统的聚类算法直接在原始的数据空间中直接进行聚类分析。例如,Kmeans算法就是直接在原始数据空间中,使用欧式距离不断迭代来判定数据所属类别。当原始数据空间中的入点数据和非入点数据分布本身就不是很清晰时,直接聚类往往会导致聚类效果不佳,从而使得新闻故事切条的入出点出现较大的误差。

发明内容

本发明的目的在于克服现有技术的不足,提供基于概率分布转换聚类的广播电视新闻拆条方法,解决了传统聚类算法在广播电视新闻拆条中存在误差较大,准确性较低的问题,对于提升聚类算法在电视新闻节目拆条应用中的准确率,具有非常重要的意义。

本发明的目的是通过以下方案实现的:

基于概率分布转换聚类的广播电视新闻拆条方法,包括步骤:

S1,提取新闻节目视频数据中的特征数据;

S2,计算提取的每个特征数据的重要度占比,然后将每个特征数据乘以该特征数据的重要度占比,得到带权重特征的数据;

S3,将每个带权重特征的数据归一化处理;

S4,用概率分布转换聚类将归一化后特征数据中的入点类数据和非入点类数据一次性聚类出来;

S5,根据聚类得到的入点类和非入点类数据,切分新闻故事。

进一步地,步骤S1包括步骤:

S101,从新闻节目中的音频停顿点将视频进行切割得到多个切割片段,所有的音频停顿点作为新闻故事的候选切割点;

S102,根据每个切割片段的视频信息,提取每个切割片段的视觉特征数据;所述视觉特征数据包括:当前切割片段是否出现演播室的判断结果数据、当前切割片段的前后两个切割片段是否包含演播室的判断结果数据、演播室出现人脸的数量数据、是否是连续演播室的判断结果数据、是否出现片花信息的判断结果数据;

S103,根据每个切割片段的音频信息,提取每个切割片段的音频特征数据;所述音频特征数据包括:当前切割片段是否出现音乐的判断结果数据、当前切割片段的前后两个切割片段是否包含音乐的判断结果数据和当前切割片段的ASR语音文字信息数据;

S104,人工判别当前每个切割片段和前一个切割片段是否属于不同的新闻故事,属于不同的新闻故事则置1,不属于不同的新闻故事则置0;人工判断结果将作为真实结果,在后续步骤S2中计算特征重要度中使用。

进一步地,步骤S2包括步骤:

S201,基于步骤S1中提取的特征数据按时间顺序编号,然后按编号顺序取某一特征,作为当前特征,判断当前特征是连续特征还是离散特征,如果是连续特征,则使用等频分箱法将连续值离散化为n箱,2<=n<=5;

S202,选择当前特征数据的某一箱,记作i箱,统计i箱的切条类即步骤S104中置1的数 据的个数

S203,计算步骤S202中当前特征当前箱的切条类占比和非切条类占比之差,然后用这 个差值乘以

S204,重复步骤S202-S203,将所有的箱计算完成,然后将所有箱即n箱的

S205,所有特征数据的

进一步地,步骤S3中,选择min-max算法作为带权重特征数据归一化方法,计算公式如下:

其中,j代表数据索引,

进一步地,步骤S4中,包括步骤:

S401,将步骤S3中经归一化后的某个新闻节目素材数据作为基础数据X,在基础数据X里面随机选出两个片段,作为初始中心片段,并将这两个初始中心片段作为当前最优中心片段;

S402,将这些基础数据X中的每一行作为一个片段,将这些片段分别与步骤S401中的两个初始中心片段计算欧式距离,这些片段距离哪个初始中心片段距离更近,就把这些片段分为哪个初始中心片段类,将这两个初始中心片段类分别记作a、b两类;

S403,求解数据转移矩阵A,使得a、b两类数据的边缘概率

S404,使用高斯核函数,将基础数据X进行升维,得到升维数据

S405,计算

S406,对于升维后新数据空间的数据

S407:根据步骤S406中

S408:根据基础数据X的新a、b两类,分别计算新a、b两类的聚类中心片段,并将这个新a、b两类的聚类中心片段和当前最优聚类中心片段对比;如果新a、b两类的聚类中心片段和当前最优聚类中心片段对比发生了移动,说明聚类存在迭代优化的空间,则转步骤S403;如果新a、b两类的聚类中心片段和当前最优聚类中心片段对比没有发生移动,则说明已经迭代找到最优聚类,则算法结束。

进一步地,在步骤S403中,MMD距离即a、b两个类的类中心的距离,其计算过程如下:

其中,n、m分别代表a、b两类的数据量,i、j分别代表a、b两类的数据索引;

然后,将MMD距离进行转化,并考虑到a、b两类的数据在变换前和变换后的方差不变的限制条件;同时,防止过拟合,增加一个正则项;综上,目标函数如下所示:

其中,tr()是矩阵的迹,M是一个MMD矩阵,H是中心矩阵,I是单位矩阵,

然后,使用拉格朗日法求解目标函数,则可求得转换矩阵A;求解公式为:

其中,

进一步地,步骤S5中,根据聚类结果a、b两类,统计每一类中演播室出现的个数,将出现演播室个数多的作为切条类,出现演播室个数少的作为非切条类,从而得到最终新闻节目切条结果。

进一步地,步骤S1中,采用音频停顿点作为新闻故事切分的候选点。

进一步地,包括步骤:

根据步骤S103中提取的ASR语音文字信息,利用多标签主题分类模型,提取每个片段的主题分布,然后利用当前片段以及前后两个片段的主题分布,计算当前片段和前后两个片段的主题cosine相似度,计算当前片段和前后两个片段的jaccard相似度;

根据步骤S103中提取的ASR语音文字信息,提取每个片段的关键词,然后利用当前片段以及前后两个片段的关键词,结合word2vect模型,计算当前片段和前后两个片段关键词相似度的平均值、最大值、最小值、方差;

根据步骤S103中提取的ASR语音文字信息,提取每个片段的实体时间,并判断是否能够提取得到实体时间。

本发明的有益效果是:

(1)本发明提成了一种新的聚类方法和新闻拆条方法,解决了传统聚类算法在广播电视新闻拆条中存在误差较大,准确性较低的问题;具体的,基于概率分布转换聚类的广播电视新闻拆条方法,首先将原始数据空间进行转换,从而使得入点数据和非入点数据的分布差异更大,然后利用转换数据空间后的数据再聚类,从而达到区分入点数据和非入点数据的目的;本发明能够根据入点数据和非入点数据的分布对原始的数据空间进行转换,使得相同类的数据的差异更小,然后再利用聚类方法计算所属类别,从而找准入点类和非入点类,对于提升聚类算法在电视新闻节目拆条应用中的准确率,具有非常重要的意义。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为概率分布转换聚类算法流程图;

图2为本发明的方法步骤流程图。

具体实施方式

本说明书中所有实施例公开的所有特征(包括任何附加权利要求、摘要和附图),或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。

如图1,2所示,基于概率分布转换聚类的广播电视新闻拆条方法,包括步骤:

S1,提取新闻节目视频数据中的特征数据;

S2,计算提取的每个特征数据的重要度占比,然后将每个特征数据乘以该特征数据的重要度占比,得到带权重特征的数据;

S3,将每个带权重特征的数据归一化处理;

S4,用概率分布转换聚类将归一化后特征数据中的入点类数据和非入点类数据一次性聚类出来;

S5,根据聚类得到的入点类和非入点类数据,切分新闻故事。

进一步地,步骤S1包括步骤:

S101,从新闻节目中的音频停顿点将视频进行切割得到多个切割片段,所有的音频停顿点作为新闻故事的候选切割点;

S102,根据每个切割片段的视频信息,提取每个切割片段的视觉特征数据;所述视觉特征数据包括:当前切割片段是否出现演播室的判断结果数据、当前切割片段的前后两个切割片段是否包含演播室的判断结果数据、演播室出现人脸的数量数据、是否是连续演播室的判断结果数据、是否出现片花信息的判断结果数据;

S103,根据每个切割片段的音频信息,提取每个切割片段的音频特征数据;所述音频特征数据包括:当前切割片段是否出现音乐的判断结果数据、当前切割片段的前后两个切割片段是否包含音乐的判断结果数据和当前切割片段的ASR语音文字信息数据;

S104,人工判别当前每个切割片段和前一个切割片段是否属于不同的新闻故事,属于不同的新闻故事则置1,不属于不同的新闻故事则置0;人工判断结果将作为真实结果,在后续步骤S2中计算特征重要度中使用。

进一步地,步骤S2包括步骤:

S201,基于步骤S1中提取的特征数据按时间顺序编号,然后按编号顺序取某一特征,作为当前特征,判断当前特征是连续特征还是离散特征,如果是连续特征,则使用等频分箱法将连续值离散化为n箱,2<=n<=5;

S202,选择当前特征数据的某一箱,记作i箱,统计i箱的切条类即步骤S104中置1的数 据的个数

S203,计算步骤S202中当前特征当前箱的切条类占比和非切条类占比之差,然后用这 个差值乘以

S204,重复步骤S202-S203,将所有的箱计算完成,然后将所有箱即n箱的

S205,所有特征数据的

进一步地,步骤S3中,选择min-max算法作为带权重特征数据归一化方法,计算公式如下:

其中,j代表数据索引,

进一步地,步骤S4中,包括步骤:

S401,将步骤S3中经归一化后的某个新闻节目素材数据作为基础数据X,在基础数据X里面随机选出两个片段,作为初始中心片段,并将这两个初始中心片段作为当前最优中心片段;

S402,将这些基础数据X中的每一行作为一个片段,将这些片段分别与步骤S401中的两个初始中心片段计算欧式距离,这些片段距离哪个初始中心片段距离更近,就把这些片段分为哪个初始中心片段类,将这两个初始中心片段类分别记作a、b两类;

S403,求解数据转移矩阵A,使得a、b两类数据的边缘概率

S404,使用高斯核函数,将基础数据X进行升维,得到升维数据

S405,计算

S406,对于升维后新数据空间的数据

S407:根据步骤S406中

S408:根据基础数据X的新a、b两类,分别计算新a、b两类的聚类中心片段,并将这个新a、b两类的聚类中心片段和当前最优聚类中心片段对比;如果新a、b两类的聚类中心片段和当前最优聚类中心片段对比发生了移动,说明聚类存在迭代优化的空间,则转步骤S403;如果新a、b两类的聚类中心片段和当前最优聚类中心片段对比没有发生移动,则说明已经迭代找到最优聚类,则算法结束。

进一步地,在步骤S403中,MMD距离即a、b两个类的类中心的距离,其计算过程如下:

其中,n、m分别代表a、b两类的数据量,i、j分别代表a、b两类的数据索引;

然后,将MMD距离进行转化,并考虑到a、b两类的数据在变换前和变换后的方差不变的限制条件;同时,防止过拟合,增加一个正则项;综上,目标函数如下所示:

其中,tr()是矩阵的迹,M是一个MMD矩阵,H是中心矩阵,I是单位矩阵,

然后,使用拉格朗日法求解目标函数,则可求得转换矩阵A;求解公式为:

其中,

进一步地,步骤S5中,根据聚类结果a、b两类,统计每一类中演播室出现的个数,将出现演播室个数多的作为切条类,出现演播室个数少的作为非切条类,从而得到最终新闻节目切条结果。

进一步地,步骤S1中,采用音频停顿点作为新闻故事切分的候选点。

进一步地,包括步骤:

根据步骤S103中提取的ASR语音文字信息,利用多标签主题分类模型,提取每个片段的主题分布,然后利用当前片段以及前后两个片段的主题分布,计算当前片段和前后两个片段的主题cosine相似度,计算当前片段和前后两个片段的jaccard相似度;

根据步骤S103中提取的ASR语音文字信息,提取每个片段的关键词,然后利用当前片段以及前后两个片段的关键词,结合word2vect模型,计算当前片段和前后两个片段关键词相似度的平均值、最大值、最小值、方差;

根据步骤S103中提取的ASR语音文字信息,提取每个片段的实体时间,并判断是否能够提取得到实体时间。

在本发明的其他实施例中,找到一种基于概率分布转换聚类的广播电视新闻拆条方法,包括以下步骤:

步骤一:新闻节目视频数据化。获取50个以上的新闻节目视频,根据新闻节目视频,提取特征数据(如:是否演播室、前后语义相似度、前后关键词相似度等)。

步骤二:新闻节目特征数据权重计算。利用Information Value算法,计算每个特征的重要度占比,然后将每个特征数据乘以该特征的重要度占比作为该特征的新数据。

步骤三:新闻节目特征数据归一化。利用min-max方法,将每个特征的数据归一化到0-1之间。

步骤四:新闻节目特征数据聚类。利用概率分布转换聚类算法,将特征数据中的入点类和非入点类聚类出来。

步骤五:切分新闻故事。根据聚类得到的入点类和非入点类数据,切分出新闻故事。

本发明的其他实施例中,提供一种基于概率分布转换聚类的广播电视新闻拆条方法,图1为从广播电视新闻视频数据提取到利用聚类算法进行切分的整个流程步骤,包括以下:

步骤一:新闻节目视频数据化;

步骤二:新闻节目特征数据权重计算;

步骤三:新闻节目带权重特征数据归一化;

步骤四:新闻节目特征数据聚类;

步骤五:基于聚类入点数据,切分新闻故事。

上述方案的步骤一中,新闻节目视频数据化是指从多个电视频道节目获取新闻节目历史视频素材。考虑到不同的新闻故事之间切换时,都会出现短暂的音频停顿,因此本实施例方案采用音频停顿点作为新闻故事切分的候选点。新闻故事拆条的本质就是从这些候选音频切割点中找到真实的新闻故事切割点。

根据上述考虑,步骤一的具体实现步骤如下:

步骤101:从新闻节目中的音频停顿点首先将该视频进行切割,所有的音频停顿点就是新闻故事的候选切割点。

步骤102:根据每个切割片段的视频信息,提取片段视觉特征数据。视觉特征数据包括:当前切割片段是否出现演播室;当前切割片段的前后两个切割片段是否包含演播室;演播室出现人脸的数量;是否是连续演播室;是否出现片花信息等信息。

步骤103:根据每个切割片段的音频信息,提取该片段音频特征数据。音频特征数据包括:当前切割片段是否出现音乐;当前切割片段的前后两个切割片段是否包含音乐;ASR语音文字信息。

步骤104:根据步骤103中提取的ASR语音文字信息,利用主题模型,提取每个片段的主题分布,然后利用当前片段以及前后两个片段的主题分布,计算当前片段和前后两个片段的主题cosine、jaccard相似度。

步骤105:根据步骤103中提取的ASR语音文字信息,利用关键词模型,提取每个片段的关键词,然后利用当前片段以及前后两个片段的关键词,结合word2vect模型,计算当前片段和前后两个片段关键词相似度的平均值、最大值、最小值、方差。

步骤106:根据步骤103中提取的ASR语音文字信息,利用实体识别模型,提取每个片段的实体时间,并判断是否能够提取得到实体时间。

步骤107:人工判别当前每个片段和前一个片段是否属于不同的新闻故事,如果属于不同的新闻故事,则置1,否则置0。人工判断结果将作为真实结果,在后续步骤二中计算特征重要度中使用。

上述方案的步骤二中,需要计算步骤一中提取出来的特征权重。提取特征权重的目的是为了在计算特征距离时,重要特征的作用被放大,不重要特征的作用被缩小。本发明使用Information Value方法计算各个特征的重要程度。具体计算公式和计算过程如下:

步骤201:判断当前特征是连续特征还是离散特征,如果是连续特征,需要使用等频分箱法将连续值离散化为n箱,2<=n<=5。

步骤202:选择当前特征的某一箱,记作i,统计该箱切条类(即步骤107中置1的数 据)的个数(

步骤203:计算步骤202中当前特征当前箱的切条类占比和非切条类占比之差,然后用 这个差值乘以

步骤204:重复202-203步骤,直接将所有的箱计算完成,然后将所有箱(一共n个箱)的

步骤205:所有特征的Information Value都计算出来后,计算每个特征的InformationValue占总的Information Value和的占比。将这个占比作为该特征的权重,乘以该特征的值作为该特征的新数据。

上述方案的步骤三中,需要对步骤二中计算的新闻节目带权重特征数据进行归一化。归一化的目的是为了让每个特征的数值缩放在0-1区间内,避免不同特征由于量纲不一致导致的计算距离出现较大偏差。选择min-max算法作为带权重特征数据归一化方法,计算方法如下:

其中,j代表数据索引,

上述方案的步骤四中,根据步骤三归一化之后的数据,使用概率分布转换聚类算法进行数据聚类,从而聚类区分出切条类和非切条类两类。步骤四的具体实现步骤分为以下几步。

步骤401:将步骤三中已经归一化后的某个新闻节目素材数据作为基础数据X,在这些基础数据X里面随机选出两个片段,作为初始中心片段,并将这两个初始中心片段作为当前最优中心片段。

步骤402:将这些基础数据中的片段与步骤401中的两个初始中心片段计算欧式距离,这些基础数据距离哪个初始中心片段距离更近就把该片段分为该中心片段类。将这两个类分别记作a、b两类。

步骤403:求解数据转移矩阵A,使得a、b两类数据的边缘概率

其中,n、m分别代表a、b两类的数据量,i、j分别a、b两类的数据索引。

然后,利用数学变化,将MMD距离进行转化,数学推理如下:

其中,M是一个MMD矩阵,如下所示:

这个MMD矩阵代表的含义是:当两个片段数据同时属于a类时,则

虽然a、b两类的数据在变换后的数据空间中尽可能的接近,可以使误聚类的数据更靠近正确的类,但也增加了已经正确聚类的数据被误聚类的风险。为了抵御这种风险,需要加上a、b两类的数据在变换数据空间前后各自的方差不变的限制条件。同时,为了防止过拟合,需要增加一个正则项。

综上,本实施例算法的目标函数如下所示:

其中,约束条件中,

然后,使用拉格朗日法求解该带约束的目标函数,则可求得转换矩阵A。求解为:

其中,

步骤404:使用高斯核函数,将基础数据X进行升维,得到升维数据

步骤405:由步骤404得到升维数据K,计算

步骤406:对于升维后新数据空间的数据

步骤407:根据步骤406中

步骤408:根据基础数据X的新a、b两类,分别计算新a、b两类的聚类中心片段。步骤409:将新a、b两类的聚类中心片段和当前最优聚类中心片段对比;如果新a、b两类的聚类中心片段和当前最优聚类中心片段对比发生了移动,说明聚类存在迭代优化的空间,则转步骤S403;如果新a、b两类的聚类中心片段和当前最优聚类中心片段对比没有发生移动,则说明已经迭代找到最优聚类,则算法结束。

步骤五:根据聚类结果a、b两类,统计每一类中演播室出现的个数,将出现演播室个数多的作为切条类,出现演播室个数少的作为非切条类。

综上5个步骤,即可从新闻节目中抽取数据并使用概率分布转换聚类算法得到切条类和非切条类,从而得到最终新闻节目切条结果。

本发明功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,在一台计算机设备(可以是个人计算机,服务器,或者网络设备等)以及相应的软件中执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、或者光盘等各种可以存储程序代码的介质,进行测试或者实际的数据在程序实现中存在于只读存储器(Random Access Memory,RAM)、随机存取存储器(Random Access Memory,RAM)等。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号