公开/公告号CN116825091A
专利类型发明专利
公开/公告日2023-09-29
原文格式PDF
申请/专利权人 中国信息通信研究院;
申请/专利号CN202310814449.0
申请日2023-07-04
分类号G10L15/08(2006.01);G10L15/16(2006.01);G10L15/26(2006.01);G10L21/10(2013.01);G10L25/51(2013.01);G06F40/279(2020.01);
代理机构北京瑞盛铭杰知识产权代理事务所(普通合伙) 11617;
代理人李绩
地址 100083 北京市海淀区花园北路52号
入库时间 2024-01-17 01:30:14
法律状态公告日
法律状态信息
法律状态
2023-09-29
公开
发明专利申请公布
技术领域
本发明涉及音频内容鉴定技术领域,具体涉及一种具备梳理文本内容优势的鉴伪分析系统。
背景技术
在公开号为CN110476206A提出的端到端文本到语音转换方案中,用于实现在帧级生成语音,该发明中描述的系统可以比其他系统更快地从文本生成语音,同时生成具有相当的质量或甚至更好质量的语音,此外,此系统可以减小模型大小、训练时间和推理时间,并且还可以显著提高收敛速度,该发明中描述的系统还可以生成高质量的语音,且不需要手动设计的语言特征或复杂组件,例如,不需要隐马尔可夫模型对准器,降低了复杂性并使用更少的计算资源,与此同时生成高质量的语音。
基于上述方案中,结合现有技术,发现现有技术仍存在以下不足:
1.对音频中的内容分析过程过于单一,具体过程为对音频内容进行分类,而内容优势无法进行判定分析;
2.在进行音频内容分析的过程中,鉴别音频中提及的优势内容是否为真实信息时存有一定的误差,即存在当音频由人耳听到时,与音频转化为文本进行文字分析的内容优势判定情况存有差异。
为解决上述所提及的问题,提出了一种具备梳理文本内容优势的鉴伪分析系统。
发明内容
本发明的目的是提供一种具备梳理文本内容优势的鉴伪分析系统,以解决背景技术中的不足。
为了实现上述目的,本发明提供如下技术方案:所述具备梳理文本内容优势的鉴伪分析系统包括以下模块:
音频输入模块,用于输入音频内容;
音频内容分析模块,用于对输入的音频内容进行预处理和语音处理,生成能对音频内容提及优势进行分析的语音内容系数;
音频内容转录模块,用于将输入的音频内容进行文本转录,并生成转录文本内容;
文本内容特征提取模块:用于对转录文本内容进行相关特征的提取和比对,并生成用于处理文本内容优点的文本内容系数;
模型分析模块:用于将语音内容系数和文本内容系数进行模型分析,并生成对音频内容与转录文本内容之间关联的比对系数;
真伪标记模块;用于将比对系数进行阈值比较,生成优势内容真伪标记,并对匹配音频进行优势内容进行标识,输出真实内容对象和虚假内容对象。
在一个优选的实施方式中,音频内容处理模块具体为音频分析平台,所述语音内容系数包括优点句段流畅度系数α和优点句段语态系数β。
在一个优选的实施方式中,所述优势内容句段的流畅度系数α的生成步骤为:
通过语音识别工具对音频内容进行识别,生成识别结果,所述识别结果包括优点关键词出现频数X、存有关键词的短语叙述总字数M和存有关键词的短语叙述总时长S;
通过存有关键词的短语叙述总字数M和存有关键词的短语叙述总时长S之间的商值来确定关键词出现时的音频内容的叙述流畅度,继续通过所述商值与优点关键词出现频数X的公式化处理获取句段流畅度系数α;
当α越大时,表示音频中在出现优势短语时的叙述流畅度越高,反之越小。
在一个优选的实施方式中,所述优势内容句段的语态系数β的生成步骤为:
通过音频处理工具结合关键词对音频内容进行分析,从而对段落中句子进行优势句和非优势句的分类,获取优势句中音调均值
当β越大时,表示音频中在出现优势短语时的音调变化数值较大,反之越小,从而从侧面表示进行优势阐述时的语调变化,进行优势内容阐述时,语态变化幅度情况。
在一个优选的实施方式中,所述语音内容系数生成步骤为:
通过所述语音转文本平台对优点句段流畅度系数α和优点句段语态系数β进行公式化整合分析,具体的,设语音内容系数为γ,通过公式γ=α*N1+β*N2,其中γ>0,N1+N2=0.8634,N1和N2皆大于0;
语音内容系数γ越大表示当优势内容音频进行展示时,语态变化越大,清晰度越高,二者进行整合分析得出着优势音频内容的真实度越大。
在一个优选的实施方式中,所述转录文本内容提取的相关特征包括词频H和词向量F;
所述文本内容系数的生成步骤为:
转录文本内容提取的相关特征包括段落中优势内容关键词、关键词出现词频H和词向量;
结合优势内容关键词对提取的词向量进行表现级数判定,并对所述表现级数进行赋值,具体赋值内容为K;
对提取的词向量进行表现级数判定,并对所述表现级数进行赋值具体包括:
根据转录文本内容数据,构建词汇表并训练词向量模型,得到每个单词或短语的词向量表示;
将文本内容根据每句话分为n个鉴定区域,确定评判标准和指标,定义评判优势等级的标准和指标,具体采用的标准和指标为词向量表现级数,所述词向量表现级数表示两句话之间的内容优势的表现程度,将词向量分配至每句话中的内容优势等级进行分级,分为高、中、低三个内容优势等级,设第一句话中的内容优势等级为W1,第二句话中的内容优势等级为W2,则两句话之间的内容优势的表现程度为W1-W2,即词向量表现级数为W1-W2;
若词向量表现级数W1-W2为高-中、高-高、中-高时,定义为第一优势表现级别;若W1-W2为中-中时,定义为第二优势表现级别;若W1-W2为低-中、低-低、中-低时,定义为第三优势表现级别;
其中第三优势表现级别相比于第二优势表现级别的优势表现级别较低,即评判为劣势内容,以此类推,第二优势表现级别为常规内容,第一优势表现级别为优势内容;
根据等级评判规则,将词向量分配到相应的内容优势等级中,结合相连两句的内容优势等级,生成对应的词向量表现级数。
对词向量表现级数进行等级赋值生成词向量表现等级数值K,所述词向量表现等级数值K包括K1、K2和K3,具体的,对词向量表现级数为第一优势表现级别的赋值为K1,对词向量表现级数为第二优势表现级别的赋值为K2,对词向量表现级数为第三优势表现级别的赋值为K3,其中K1>K2>K3>0;
设文本内容系数为δ,将H词频H与词向量表现级数K进行公式化分析处理,得出文本内容系数δ;
当δ数值越大时,表明文本优势内容鉴定的真实程度越高,而当δ数值越小时,表明文本优势内容鉴定的真实程度越低。
在一个优选的实施方式中,所述比对系数生成步骤为:
设比对系数为ζ,通过线性回归模型对语音内容系数γ和文本内容系数δ整合处理,生成比对系数ζ,生成比对系数ζ,具体公式为;
ζ=u1*γ+u2*δ,u1、u2为权重因子,u1<u2,u1+u2=2.463,u1、u2表示语音内容、文本内容的判定组成程度,通过文本内容获取和音频内容获取时的理解程度不同,从而决定设定权重因子数值的大小。
在一个优选的实施方式中,所述优势内容真伪标记包括虚假优势内容标记和真实优势内容标记,所述优势内容真伪标记的生成过程为:
通过真伪标记模型对比对系数ζ进行分析,设置比对阈值KH,KH大于0,将比对系数ζ代入比对阈值KH中进行分析处理,若比对系数ζ大于比对阈值KH,生成真实优势内容标记;若比对系数ζ小于比对阈值KH,生成虚假优势内容标记;
将真实优势内容标记匹配的音频标识为真实内容对象并输出,将虚假优势内容标记匹配的音频标识为虚假内容对象并输出。
在上述技术方案中,本发明提供的技术效果和优点:
通过对音频直接分析与音频转文本后的再分析,进行音频的听觉判定与音频转化文本后的文本判定,从而实现双向的音频优势内容的判定功能,并对二者进行关联处理,进一步进行整合分析,增强了分析的逻辑性与优势内容判定的严谨性,在对音频优势内容进行判定的过程中同时实现了对文本内容优势的梳理功能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本发明的一种具备梳理文本内容优势的鉴伪分析系统的模块流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1所示,本实施例所述一种具备梳理文本内容优势的鉴伪分析系统,所述具备梳理文本内容优势的鉴伪分析系统包括以下模块:
音频输入模块,用于输入音频内容;
音频内容分析模块,用于对输入的音频内容进行预处理和语音处理,生成能对音频内容提及优势进行分析的语音内容系数;
音频内容转录模块,用于将输入的音频内容进行文本转录,并生成转录文本内容;
文本内容特征提取模块:用于对转录文本内容进行相关特征的提取和比对,并生成用于处理文本内容优点的文本内容系数;
模型分析模块:用于将语音内容系数和文本内容系数进行模型分析,并生成对音频内容与转录文本内容之间关联的比对系数;
真伪标记模块;用于将比对系数进行阈值比较,生成优势内容真伪标记,并对匹配音频进行优势内容进行标识,输出真实内容对象和虚假内容对象。
音频内容处理模块具体为音频分析平台,所述语音内容系数包括优势内容句段的流畅度系数α和优势内容句段的语态系数β。
需要注意的是:音频输入模块具体为麦克风设备,音频内容处理模块具体为音频分析平台,音频分析平台内具体涵盖工具为语音识别工具和音频处理工具。
预处理过程包括音频采样率转换、降噪处理和杂音去除等步骤,对音频预处理可采用音频编辑软件进行处理,具体的,可采用Adobe Audition、Audacity、GarageBand等工具进行处理。
所述优势内容句段的流畅度系数α的生成步骤为:
通过语音识别工具对音频内容进行识别,生成识别结果,所述识别结果包括优点关键词出现频数X、存有关键词的短语叙述总字数M和存有关键词的短语叙述总时长S;
通过存有关键词的短语叙述总字数M和存有关键词的短语叙述总时长S之间的商值来确定关键词出现时的音频内容的叙述流畅度,继续通过所述商值与优点关键词出现频数X的公式化处理获取句段流畅度系数α;
当α越大时,表示音频中在出现优势短语时的叙述流畅度越高,反之越小。
需要注意的是:语音识别工具能将音频转录为文本,如Google Cloud Speech-to-Text、Microsoft Azure Speech to Text、IBM Watson Speech to Text,语音识别工具具体采用深度神经网络DNN模型作为一种机器学习模型,可以通过训练来学习输入数据和输出标签之间的映射关系,并用于建模声学特征和文本标签之间的关系,以实现语音到文本的转换。
但实现对语音识别中优点关键词出现频数X、存有关键词的短语叙述总字数M统计和存有关键词的短语叙述总时长S统计的功能,并不是DNN模型本身的功能,而是需要在DNN模型之上进行子技术添加处理,以下为对应数据获取的方法和技术:
优点关键词出现频数X:在语音识别结果得到文本后,可以使用文本处理技术来统计特定关键词在音频中的出现频率,常见的方法包括使用正则表达式、字符串匹配等技术来搜索和计数关键词出现的次数。
存有关键词的短语叙述总字数M统计:通过对识别得到的语音进行分词处理,可以统计语音中存有关键词的短语叙述总字数,分词技术可以使用传统的基于规则或统计的方法,也可以使用现代的深度学习模型,存有关键词的短语叙述总时长S统计:利用语音处理技术进行分词,并根据语音信号的采样率和帧率来估算存有关键词短语中的词或音节的时长,然后根据短语或句子中词的时长进行累加,即可得到存有关键词短语中短语的时长。
所述优势内容句段的语态系数β的生成步骤为:
通过音频处理工具结合关键词对音频内容进行分析,从而对段落中句子进行优势句和非优势句的分类,获取优势句中音调均值
当β越大时,表示音频中在出现优势短语时的音调变化数值较大,反之越小,从而从侧面表示进行优势阐述时的语调变化,进行优势内容阐述时,语态变化幅度情况。
音频处理工具可以对音频进行分析,包括、句法分析以及实体识别等,具体包括NLTK(Natural Language Toolkit)、SpaCy、Stanford CoreNLP此类工具,其中涉及的具体算法为:
结合一些算法或模型来进行关键词选取、段落分类和整句音调均值分析。以下是一些常用的算法和模型:
关键词选取:
利用深度学习模型,具体可通过卷积神经网络CNN或长短时记忆网络LSTM直接对音频进行处理,提取其中的关键信息和特征,包括关键词。这种方法需要大量的标注数据进行训练。
对段落中句子进行优势句和非优势句的分类:
文本分类模型:使用机器学习或深度学习模型,具体为朴素贝叶斯分类器、支持向量机或循环神经网络RNN,从而对音频中的段落进行优势句和非优势句的分类。
对优势句中音调均值
基频提取:使用算法如自相关法、基于HMM的声调模型等,从音频中提取基频或基音周期信息。
基频均值计算:对每个段落提取的基频进行均值计算,得到段落的音调均值。
基频音调分类器:建立一个音调分类模型,使用训练数据进行训练,根据段落的音调均值将其分类为不同的音调类型。。
所述语音内容系数生成步骤为:
通过所述语音转文本平台对优点句段流畅度系数α和优点句段语态系数β进行公式化整合分析,具体的,设语音内容系数为γ,通过公式γ=α*N1+β*N2,其中γ>0,N1+N2=0.8634,N1和N2皆大于0;
语音内容系数γ越大表示当优势内容音频进行展示时,语态变化越大,清晰度越高,二者进行整合分析得出着优势音频内容的真实度越大。
所述转录文本内容提取的相关特征包括词频H和词向量F;
所述文本内容系数的生成步骤为:
转录文本内容提取的相关特征包括段落中优势内容关键词、关键词出现词频H和词向量;
结合优势内容关键词对提取的词向量进行表现级数判定,并对所述表现级数进行赋值,具体赋值内容为K;
需要说明的是:词频可以使用词袋模型进行获取,具体使用的算法为词频统计,从而计算每个词在文档中出现频率,而词向量使用预训练的词向量模型Word2Vec进行特征提取,具体的,Word2Vec通过训练神经网络模型来学习词向量,它包括两种方法:连续词袋模型和跳字模型;
对结合优势内容关键词进行词向量分析的过程进行举例说明:
假设文本中涉及有以下两个特征内容语句:
语句A:"这个方案非常有趣,内容丰富,引人入胜。"
语句B:"这个方案枯燥乏味,内容空洞,不值一读。"
通过词向量模型,计算语句中的关键词的频率;
假设结合分析的关键词为下列几种:["有趣","丰富","引人入胜","枯燥","空洞","不值一读"]。
计算所述关键词在文本中的频率,例如,在语句A中,关键词出现的频率较高,表明文本A可能具有较高的优势,依次对文本中其他语句进行分析;
而在文本B中,这些关键词的频率较低或者为负,表明文本B可能存在缺乏优势或者存在负面评价。
此外,使用词向量计算关键词之间的相似度,例如,"有趣"和"引人入胜"可能具有较高的相似度,而"枯燥"和"空洞"可能具有较高的相似度,通过计算关键词之间的相似度,可以进一步分析文本的优势。
分析处理得出关于文本内容优势的结论,文本A可能被认为具有优势,因为它包含了频率较高的关键词,关键词之间具有较高的相似度,并且关键词的情感极性较积极,相反,文本B可能被认为缺乏优势,因为它包含了频率较低或消极的关键词。
对提取的词向量进行表现级数判定,并对所述表现级数进行赋值具体包括:
根据转录文本内容数据,构建词汇表并训练词向量模型,得到每个单词或短语的词向量表示;
将文本内容根据每句话分为n个鉴定区域,确定评判标准和指标,定义评判优势等级的标准和指标,具体采用的标准和指标为词向量表现级数,所述词向量表现级数表示两句话之间的内容优势的表现程度,将词向量分配至每句话中的内容优势等级进行分级,分为高、中、低三个内容优势等级,设第一句话中的内容优势等级为W1,第二句话中的内容优势等级为W2,则两句话之间的内容优势的表现程度为W1-W2,即词向量表现级数为W1-W2;
若词向量表现级数W1-W2为高-中、高-高、中-高时,定义为第一优势表现级别;若W1-W2为中-中时,定义为第二优势表现级别;若W1-W2为低-中、低-低、中-低时,定义为第三优势表现级别;
其中第三优势表现级别相比于第二优势表现级别的优势表现级别较低,即评判为劣势内容,以此类推,第二优势表现级别为常规内容,第一优势表现级别为优势内容;
根据等级评判规则,将词向量分配到相应的内容优势等级中,结合相连两句的内容优势等级,生成对应的词向量表现级数。
对词向量表现级数进行等级赋值生成词向量表现等级数值K,所述词向量表现等级数值K包括K1、K2和K3,具体的,对词向量表现级数为第一优势表现级别的赋值为K1,对词向量表现级数为第二优势表现级别的赋值为K2,对词向量表现级数为第三优势表现级别的赋值为K3,其中K1>K2>K3>0;
设文本内容系数为δ,将H词频H与词向量表现级数K进行公式化分析处理,得出文本内容系数δ,具体的;
当δ数值越大时,表明文本优势内容鉴定的真实程度越高,而当δ数值越小时,表明文本优势内容鉴定的真实程度越低。
所述比对系数生成步骤为:
设比对系数为ζ,通过线性回归模型对语音内容系数γ和文本内容系数δ整合处理,生成比对系数ζ,生成比对系数ζ,具体公式为;
ζ=u1*γ+u2*δ,u1、u2为权重因子,u1<u2,u1+u2=2.463,u1、u2表示语音内容、文本内容的判定组成程度,通过文本内容获取和音频内容获取时的理解程度不同,从而决定设定权重因子数值的大小;
需要说明的是,比对系数ζ越大,对音频优势内容进行综合分析的真实度越高,反之越低,线性回归模型中具体采用正规方程算法,通过求解矩阵的逆来直接计算回归系数的闭式解。
所述优势内容真伪标记包括虚假优势内容标记和真实优势内容标记,所述优势内容真伪标记的生成过程为:
通过真伪标记模型对比对系数ζ进行分析,设置比对阈值KH,KH大于0,将比对系数ζ代入比对阈值KH中进行分析处理,若比对系数ζ大于比对阈值KH,生成真实优势内容标记;若比对系数ζ小于比对阈值KH,生成虚假优势内容标记;
将真实优势内容标记匹配的音频标识为真实内容对象并输出,将虚假优势内容标记匹配的音频标识为虚假内容对象并输出。
需要说明的是:真伪标记模型具体采用SVM模型对不同系数进行分析处理,并在训练过程中,用训练好的SVM模型和设定的阈值,对测试集中的音频目标进行标记,其中涉及的基础算法包括核函数、优化算法、软间隔与正则化和决策函数。
通过对音频直接分析与音频转文本后的再分析,进行音频的听觉判定与音频转化文本后的文本判定,从而实现双向的音频优势内容的判定功能,并对二者进行关联处理,进一步进行整合分析,增强了分析的逻辑性与优势内容判定的严谨性,在对音频优势内容进行判定的过程中同时实现了对文本内容优势的梳理功能。
上述公式均是去量纲取其数值计算,公式是由采集大量数据进行软件模拟得到最近真实情况的一个公式,公式中的预设参数由本领域的技术人员根据实际情况进行设置。
应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况,其中A,B可以是单数或者复数。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系,但也可能表示的是一种“和/或”的关系,具体可参考前后文进行理解。
本申请中,“至少一个”是指一个或者多个,“多个”是指两个或两个以上。“以下至少一项(个)”或其类似表达,是指的这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b,或c中的至少一项(个),可以表示:a,b,c,a-b,a-c,b-c,或a-b-c,其中a,b,c可以是单个,也可以是多个。
应理解,在本申请的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
机译: 数字媒体内容提取系统,课程生成和演示,数字媒体内容提取和课程生成系统,视频传输及相关的音频或文本通道分析系统以及基于从通道中提取的数据的自动运动生成学习以及用于视频流分析和分析的系统根据从视频流中提取的数据自动生成课程
机译: (54)标题:一种扩展商务智能系统的形式和功能的基于内容的方法(57)摘要:商务智能(BI)系统具有通过以下方式将其功能扩展到项目生命周期之外的能力:具体内容。复杂的多维查询被解释为原子子表达式的树,这些原子子表达式组合成类似解析树的结构以形成整体查询。每个子树在提供适当的上下文时都是有效的。任何子树都可以是作为应用程序内容存储的表达模板,该表达模板在生成时使用带有实例特定参数的简单文本替换来生成多维表达语法。该系统包括一个复杂的类型系统和语义层,使用户摆脱了使用OLAP数据库所固有的复杂性。商业智能专家可以为每个作为内容的表达模板提供类型和语义提示。
机译: 网页内容,例如文本,一种打印方法,涉及在与网页进行逻辑互连之后浏览源代码,并就打印被调用网页的内容版本来分析与网页的逻辑互连。