首页> 中国专利> 用于设置包括音频的媒体内容的回放速度的计算机实施的方法、设备和计算机程序产品

用于设置包括音频的媒体内容的回放速度的计算机实施的方法、设备和计算机程序产品

页面导航

摘要
著录项
法律信息
说明书
相似文献

摘要

一种用于设置包括音频的媒体内容的回放速度的计算机实施的方法，该媒体内容具有定义的正常回放速度，该方法包括：接收要以不同于媒体内容的正常回放速度的速度播放媒体内容的指示，分析音频以确定音频类型；以及根据所确定的音频类型来确定不同于正常回放速度的回放速度，并将媒体内容的回放速度设置为所确定的回放速度。

著录项

公开/公告号CN114930865A

专利类型发明专利
公开/公告日2022-08-19

原文格式PDF
申请/专利权人杜比实验室特许公司;
展开▼

申请/专利号CN202180008486.1
发明设计人黄伟;文玮玮;林冰;白燕宁;
展开▼

申请日2021-01-06
分类号H04N21/439(2006.01);G10L21/043(2006.01);G10L25/93(2006.01);H04N21/485(2006.01);H04N21/2387(2006.01);G11B27/00(2006.01);H04N5/783(2006.01);
代理机构北京市汉坤律师事务所 11602;北京市汉坤律师事务所 11602;
代理人魏小薇;吴丽丽
地址美国加利福尼亚州
入库时间 2023-06-19 16:25:24

法律信息

法律状态公告日

法律状态信息

法律状态
2023-01-24

实质审查的生效 IPC(主分类):H04N21/439 专利申请号:2021800084861 申请日:20210106

实质审查的生效

说明书

本申请要求于2020年1月7日提交的国际专利申请PCT/CN 2020/070728、于2020年2月19日提交的美国临时专利申请62/978,477以及于2020年2月21日提交的欧洲专利申请20158755.7的优先权，这些专利申请中的每一个均通过引用以其全文特此并入。

技术领域

本公开涉及媒体内容的回放，并且特别地，本公开涉及一种用于设置包括音频的媒体内容的回放速度的计算机实施的方法、设备和计算机程序产品。

背景技术

如今，改变媒体内容的回放速度是智能电话、智能电视、计算机等上的现代媒体播放器应用程序(例如流媒体应用程序)的共同特征。例如，内容观看者通常使用快速回放(即，大于原始速度的1倍的回放速度)来快速浏览如视频、播客、有声读物等媒体内容。类似地，有时内容观看者出于不同的原因降低回放速度。然而，必须注意以使回放速度的改变不会在很大程度上使用户体验变差。

因此，需要在这方面进行改进。

发明内容

根据本公开的第一方面，提供了一种用于设置包括音频的媒体内容的回放速度的计算机实施的方法，该媒体内容具有定义的正常回放速度，该方法包括：

接收要以不同于媒体内容的正常回放速度的速度播放媒体内容的指示，

分析音频以确定音频类型；以及

根据所确定的音频类型来确定不同于正常回放速度的回放速度，并将该媒体内容的回放速度设置为所确定的回放速度。

在本说明书的上下文中，术语“正常回放速度”应当理解为媒体内容的预期的、未调整的回放速度，即1.0倍。换句话说，正常回放速度对应于在不调整媒体内容的回放速度的情况下媒体内容的回放。对于音频，正常回放速度对应于录制的音频的采样率。对于视频，正常回放速度对应于录制的视频的每秒帧数(FPS)。

有利地，本方面提供了根据音频类型来自动设置回放速度的效果。因此，本方面减少了用户在音频类型改变时必须改变回放速度的需要，从而带来了更好的用户体验。

根据一些实施例，确定不同于正常回放速度的回放速度包括：根据所确定的音频类型来选择一个或多个预定义回放速度之一。

例如，可以客观地设置预定义回放速度中的一个或多个，例如基于关于人类听觉系统通常如何工作的研究以及用户在何种回放速度下可以听见哪些类型的音频并仍获得良好的用户体验来设置。在其他实施例中，预定义回放速度中的一个或多个可以基于用户输入(例如由用户设置为要用于媒体内容中特定类型的所有音频的设置)。

根据一些实施例，分析音频以确定音频类型包括：分析该音频以确定该音频是否包括对话；和/或分析该音频以确定该音频是否包括音乐。

有利地，该实施例允许在例如媒体内容的快速回放模式期间改善用户体验。通常，在使用高回放速度的情况下，用户有时会发现难以理解媒体内容中的对话。此外，在媒体内容(对于用户来说)是外语电影的情况下，降低回放速度以允许用户理解对话可以是有利的。例如，如果媒体内容是电影(其中，对话通常对于理解电影情节至关重要)，则包括这种音频类型的媒体内容的所确定的回放速度通常可低于确定其他音频类型的情况。如果媒体内容涉及如《欧洲歌唱大赛(Eurovision Song Contest)》或类似的音乐表演，则对话可以被认为是不重要的并且可以通常将包括这种音频类型的媒体内容的回放速度设置为相对较高的值。此外，对于诸如电影或脱口秀的许多类型的媒体内容，音乐被用户认为是不太重要的，并且因此，可以提高包括这种音频类型的媒体内容的所确定的回放速度。

根据一些实施例，该方法进一步包括：如果不能确定音频类型，则将回放速度设置为默认回放速度。有利地，该默认回放速度可以是用于媒体内容的快速回放模式的预先确定的回放速度。

根据一些实施例，在播放媒体内容的同时重复执行以下步骤：分析音频以确定音频类型、根据所确定的音频类型来确定不同于正常回放速度的回放速度以及将媒体内容的回放速度设置为所确定的回放速度。

有利地，这允许根据媒体内容的当前部分是何种(哪些)音频类型来在运行时自动调整回放速度。

根据一些实施例，该方法进一步包括以下步骤：

根据所确定的音频类型来选择一个或多个预定义音频时间拉伸算法中之一，以及

将媒体内容的音频时间拉伸算法设置为所选择的音频时间拉伸算法。

在本说明书的上下文中，术语“音频时间拉伸算法”应该理解为用于改变音频的速度/持续时间的算法。音频时间拉伸算法可影响或可不影响音高。音频时间拉伸算法可以在音频的时域中或频域中应用。

在一些情况下，某种音频时间拉伸算法对于某些音频类型来说并不合适或不是最佳的。例如，允许音频的音高缩放的音频时间拉伸算法可能使得对话难以理解(花栗鼠效果(Chipmunk effect))。在这些实施例中，或在针对某些音频类型存在更优的音频时间拉伸算法的其他实施例中，基于所确定的音频类型来自动地改变用于媒体内容的音频的音频时间拉伸算法可以是有利的。

根据一些实施例，该方法进一步包括：如果不能确定音频类型，则将媒体内容的音频拉伸算法设置为默认音频拉伸算法。有利地，可以选择对于大多数音频类型来说具有平均性能的默认音频拉伸算法。

根据一些实施例，在播放媒体内容的同时重复执行以下步骤：分析音频以确定音频类型、根据所确定的音频类型来选择一个或多个预定义音频时间拉伸算法之一以及将媒体内容的音频时间拉伸算法设置为所选择的音频时间拉伸算法。

有利地，这允许根据媒体内容的当前部分是何种(哪些)音频类型来在运行时自动调整音频时间拉伸算法。

根据一些实施例，分析音频以确定音频类型的步骤包括：对于至少一种音频类型，确定与该音频包括所述音频类型相关的置信度得分；以及确定该置信度得分是否超过阈值置信度得分。

有利地，这可以增加此处所描述的方法的灵活性。

例如，所使用的音频分析方法或软件可以例如针对媒体内容的音频的每个(或每隔一个、每隔两个、每隔四个等)音频帧，输出该音频包括某一音频类型的置信度值，并且如果任何所分析的类型得到高于阈值的置信度得分，则可以认为该音频包括该音频类型。如果输出的一个或多个置信度得分中没有高于阈值的置信度得分，则可以认为该音频不包括所分析的音频类型。相应地，根据输出的一个或多个置信度得分，可以确定应该应用何种回放速度和可选地音频时间拉伸算法。如果多于一种音频类型得到高于阈值的置信度得分，则可以基于哪种音频类型得到最高置信度得分或哪组音频类型被认为是当前音频帧的一部分等来做出决定。

在第二方面，本公开提供了一种包括指令的计算机程序产品，该指令被适配成当由具有处理能力的设备执行时执行第一方面的方法。

在第三方面，本公开提供了一种被配置为确定包括音频的媒体内容的回放速度的设备，该设备包括被配置为执行第一方面的方法的电路。

第二方面和第三方面通常可以具有与第一方面相同的特征和优点。

附图说明

通过以下参考附图对本公开的各种实施例进行的说明性且非限制性的详细描述将更好地理解本公开的上述以及另外的目的、特征和优点，其中相同的附图标记将用于相似的要素，在附图中：

图1示出了根据实施例的用于设置包括音频的媒体内容的回放速度的方法，

图2示出了根据实施例的用于设置包括音频的媒体内容的回放速度的方法，

图3通过举例示出了根据实施例的用于设置包括音频的媒体内容的回放速度的设备，

图4示出了图3的设备的实施例。

具体实施方式

现将在下文中参考附图更全面地描述本公开，在附图中，示出了本公开的实施例。本文所公开的系统和设备将在操作期间进行描述。

本公开来自这样的认识，即许多用户例如在试图跟上电视连续剧或播客的进度时将加速媒体内容的回放以节约时间，而对于某些类型的场景，用户想要放慢速度以免错过任何重要内容。通常，用户必须手动地选择回放速度。典型的用例是当用户将速度设置为最快(例如2.0倍)以节约时间但涉及对话交谈场景时，用户可能发现对话的音频音高变得太高并且音频变得难以理解，或者发现对话太快了。然后，用户需要手动地将速度调整回正常速率或某个不那么快的其他速率(例如1.5倍，或者甚至低于正常回放速度，例如0.75倍)。在对话结束时，用户必须再次手动地将速度调整为最高以节约时间。许多用户将在一段时间后放弃手动速度调整，最终导致用户体验不佳。对于其他类型的媒体内容可以执行类似的对回放速度的手动选择，例如在播放音乐时或在媒体内容的音频有噪声时等。

发明人已经意识到用户将喜欢可以基于媒体内容的音频的当前音频类型来自动地调整回放速度的方法和设备。基于音频分类机制(音频分析方法/软件)，可以实现回放速度的智能和自动调整。这将在下面描述。

图1通过举例示出了用于设置包括音频的媒体内容的回放速度的计算机实施的方法的流程图。可选地，该方法还可以用于确定不是以正常速度(1.0倍)播放媒体内容时要使用的音频时间拉伸算法。在图1中，虚线部分是可选的。

该方法从接收S02要以不同于媒体内容的正常回放速度的速度播放媒体内容的指示开始。这可以基于用户输入，该用户输入例如指示应该以超过媒体内容的正常回放速度的速度(即，回放速度>1.0倍)或以低于正常回放速度的速度(即，回放速度<1.0倍)播放媒体内容。

下一个步骤涉及分析S03音频以确定音频类型。有利地，针对每个音频帧进行此步骤，然而，在一些实施例中，使用来自多个音频帧的音频进行分析，或者使用单个音频帧并且每隔一个音频帧、每隔两个音频帧、每隔四个音频帧等进行分析。

分析S03可以涉及确定以下列表中的至少一者：音频的音高、音频的谐波结构、音频的过零率、音频的周期性、音频的色度、音频的频谱宽度和音频的频谱包络。

分析S03可以针对一种或多种定义的音频类型进行分析。在本文的示例中，使用对话和音乐作为示例。例如，诸如一定的音高、一定的谐波结构、一定的线性预测编码和一定的过零率的音频特性可以指示对话。诸如一定的持续时间、一定的周期性、一定的色度和一定的频谱宽度的音频特性可以指示背景音乐。例如，音乐与对话之间最显著的差异在于音频的频谱宽度，其中，音乐的频谱范围可以比人类语音的频谱范围宽得多。

根据一些实施例，分析S03音频以确定音频类型包括：分析音频以确定音频是否包括对话；和/或分析音频以确定音频是否包括音乐。然而，应当理解，本文所描述的方法可以用于其他音频类型，例如掌声、森林声音、战争场景、色情场景、噪声、VOIP等。

分析S03音频以确定音频类型的步骤可以可选地包括，针对至少一种音频类型，确定与媒体内容的音频包括所述音频类型相关的置信度得分，并在置信度得分超过阈值置信度得分时确定该音频包括所述音频类型。例如，置信度得分可以对应于该音频包括所述音频类型的50％、66％、75％等的确定性。在多于一种音频类型得到高于阈值置信度得分的置信度得分的情况下，得到最高置信度得分的音频类型可以用于调整回放速度和/或音频时间拉伸算法。在其他实施例中，可以将回放速度和/或音频时间拉伸算法调整为针对具有高于阈值的置信度得分的所确定的音频类型的特定组合的值/算法。

在分析音频之后，根据所确定的音频类型确定S04不同于正常回放速度的回放速度。例如，确定S04不同于正常回放速度的回放速度可以包括根据所确定的音频类型来选择一个或多个预定义回放速度之一。预定义回放速度可以基于用户输入来设置，或者例如由内容提供商(例如在媒体内容的元数据中接收到)或实施本文所讨论的方法的软件的提供商设置为例如硬编码设置。预定义回放速度可以基于AI或机器学习算法，该AI或机器学习算法从多个用户接收输入并为某些类型的媒体内容确定特定音频类型的预定义回放速度(例如基于诸如内容类型、媒体内容长度等的元数据)。

该一个或多个预定义回放速度可以包括针对来自音频分析步骤S03的每个可能结果的一个回放速度。该一个或多个预定义回放速度可以包括与来自音频分析步骤S03的多个结果相关的一个回放速度、和/或要被用于未映射到该一个或多个预定义回放速度中的回放速度的音频类型的回放速度。

在已经确定S04回放速度之后，该方法包括将媒体内容的回放速度设置S06为所确定的回放速度。可选地，如果不能确定音频类型，则可以将回放速度设置S06为默认回放速度。默认回放速度例如可以是1.5倍、2.0倍或2.5倍。默认回放速度还可以基于媒体内容的元数据(在该元数据中所指示的)，其中，例如对于不同类型的媒体内容默认回放速度是不同的。默认回放速度还可以基于用户输入(如下文结合图3进一步描述的)。默认回放速度可以基于AI或机器学习算法，该AI或机器学习算法从多个用户接收输入并为某些类型的媒体内容确定优选的默认回放速度(例如基于诸如内容类型、媒体内容长度等的元数据(在该元数据中所指示的))。

现将通过举例来讨论不同回放速度的实施例。

例如，如果确定音频包括对话(或可能包括对话)，则与音频不包括对话的情况相比或与默认回放速度相比，可以改变回放速度。用于对话的预定义回放速度可以基于用户输入(例如由用户设置为要用于媒体内容中的所有对话的设置)，或者例如根据媒体内容的元数据自动设置。例如，如果媒体内容是电影(其中，对话可能对于理解电影情节至关重要)，则用于对话的预定义回放速度通常低于默认回放速度。如果媒体内容涉及音乐表演，则对话可以被认为是不重要的并且用于对话的预定义回放速度可以高于默认回放速度。在一些情况下，用于对话的预定义回放速度可以低于正常回放速度，例如在媒体内容(对于用户来说)是外语电影的情况下。

类似于关于对话的讨论，在某些情形下，为音频包括音乐的媒体内容定义特定回放速度可以是有益的。例如，在电影中，将音乐曲目作为音频包括在内的场景对于电影情节来说可能不太重要并可以以较高的速度播放。在其他情形下，媒体内容的包括音乐作为音频的部分被认为与媒体内容的不包括对话的所有其他部分同等重要、或比媒体内容的包括对话的部分更重要。用于音乐的预定义回放速度可以基于用户输入(例如由用户设置为要用于其中音频包括音乐的媒体内容的所有部分的设置)，或者例如根据媒体内容的元数据(在该元数据中所指示的)自动设置、或者可以是硬编码值。

可选地，还可以根据所确定的音频类型来选择S06音频拉伸算法并将该音频拉伸算法设置S07为媒体内容的音频时间拉伸算法。如上所述，某种音频时间拉伸算法对于某些音频类型来说可能并不合适或不是最佳的。有利地，根据所确定的音频类型来设置S07音频的音频时间拉伸算法允许改善用户体验。

现将通过举例来讨论音频时间拉伸算法的实施例。

根据一些实施例，如果不能确定音频类型，则可以使用默认音频拉伸算法。在一些实施例中，默认音频时间拉伸算法可以是影响音频的音高的算法，如对于大多数音频类型具有平均性能的WSOLA算法。在其他实施例中，可以使用另一算法，例如合适的基于帧的方法。默认音频时间拉伸算法可以是用户定义的或者是根据元数据(在该元数据中所指示的)自动设置的，如上文结合预定义回放速度所讨论的。在一些实施例中，默认音频时间拉伸算法可以是硬编码的且不能由用户改变。

在一些情况下，默认音频时间拉伸算法对于对话来说并不合适或不是最佳的。例如，默认音频时间拉伸算法可以允许音频的音高缩放，这使得对话难以理解(花栗鼠效果)。在这些实施例中，或在与用作默认音频时间拉伸算法的音频时间拉伸算法相比针对对话存在更优的音频时间拉伸算法的其他实施例中，在确定媒体内容的音频包括对话时自动改变用于该音频的音频时间拉伸算法可以是有利的。

根据一些实施例，在分析步骤S03中确定音频包括对话时，将媒体内容的音频时间拉伸算法设置为时域音高同步叠加TD-PSOLA算法或指针间隔控制叠加PICOLA算法。音频时间拉伸算法的这些示例在改变语音(即对话)的回放速度方面具有良好的性能，并且通过专门设计为保持对话的声音音色，仍然保持对所得到的经速度调整的音频的合理理解。

根据一些实施例，在分析步骤S03中确定音频包括音乐时，将媒体内容的音频时间拉伸算法设置S07为可以允许音频的音高改变的预定义音频时间拉伸算法，这可以使得经渲染的音频将听起来像音乐的音调被提高(或降低)例如一个八度但是音乐仍然清晰且流畅。可以使用针对音乐的经调整的回放速度的任何适合的音频时间拉伸算法。例如，用于音乐的预定义音频时间拉伸算法可以是基于波形相似度的叠加WSOLA算法。WSOLA算法在改变音乐的回放速度方面具有良好的性能，而不会导致声音模糊或听不清。

根据一些实施例，用于音乐的预定义音频时间拉伸算法因此不同于用于对话的预定义音频时间拉伸算法。这使得在改变媒体内容的回放速度时具有更大的灵活性。

如上文所讨论的，分析步骤S03可以输出音频对应于多个音频类型。在这些情况下，可以相应地设置回放速度和可选地音频时间拉伸算法。现将针对音频包括对话和音乐两者的情况举例说明这一点。然而，音频类型的其他混合同样是可能的。

通常，对话可以被认为是对观看者来说最重要的音频类型，并且因此，在音频包括对话和音乐两者时，可以使用用于对话的回放设置。如上文提到的，对于某些类型的媒体内容，这可以以不同的方式实施(例如基于用户偏好或基于媒体内容的元数据)。

因此，在一些实施例中，在分析步骤S03中确定音频对应于对话和音乐两者时，将媒体内容的音频时间拉伸算法设置S07为时域音高同步叠加TD-PSOLA算法或指针间隔控制叠加PICOLA算法。类似地，当确定音频包括对话和音乐两者时，也可以使用用于对话的预定义回放速度。

在其他实施例中，音乐被认为是最重要的音频类型，并且相应地，可以选择WSOLA算法作为音频时间拉伸算法，并且可以使用用于音乐的预定义回放速度。

根据一些实施例，在播放媒体内容的同时重复执行图1中的步骤，即步骤S03、S04和S06以及可选地步骤S05和S07。在媒体内容作为流媒体传输被接收的情况下，可以有利地实时执行分析S03音频的步骤。然而，如上所述，无需对每个音频帧执行分析步骤S03，以减少执行该方法所需的计算能力。

流媒体是以压缩形式通过因特网发送并立即播放而不是被保存到硬盘驱动器的视频或音频内容。使用本文所公开的方法，可以因此在流式传输的同时实时执行调整回放速度和/或设置音频拉伸算法，这可以改善用户体验。

在一些实施例中，在媒体内容作为流媒体传输被接收的情况下，该方法可以进一步包括基于媒体内容的所确定的回放速度来调整流媒体传输的流式传输速度。以这种方式，可以基于媒体内容的回放速度来优化流媒体传输所需的比特率。

图2示出了根据实施例的用于设置包括音频的媒体内容的回放速度的方法的另一个流程图。可选地，该方法还可以用于确定不是以正常速度(1.0倍)播放媒体内容时要使用的音频时间拉伸算法。在图2中，虚线部分是可选的。

该方法从接收S102要以不同于媒体内容的正常回放速度的速度播放媒体内容的指示开始。这可以基于用户输入，该用户输入例如指示应该以超过媒体内容的正常回放速度的速度(即，回放速度>1.0倍)播放媒体内容。

下一个步骤涉及分析S103媒体内容的一个或多个音频帧以确定音频类型。有利地，针对每个音频帧逐个地进行此步骤，然而，在一些实施例中，使用来自多个音频帧的音频一起进行分析，或者使用单个音频帧并且每隔一个音频帧、每隔两个音频帧、每隔四个音频帧等进行分析。

分析S103可以涉及确定以下列表中的至少一者：音频的音高、音频的谐波结构、音频的过零率、音频的周期性、音频的色度、音频的频谱宽度和音频的频谱包络。

分析S103可以针对一种或多种定义的音频类型进行分析。在本文的示例中，使用对话和音乐作为示例。例如，诸如一定的音高、一定的谐波结构、一定的线性预测编码和一定的过零率的音频特性可以指示对话。诸如一定的持续时间、一定的周期性、一定的色度和一定的频谱宽度的音频特性可以指示音乐。

应当理解，本文所描述的方法可以用于其他音频类型，例如掌声、森林声音等，其中，可以相应地调整该方法。

分析S103音频以确定音频类型的步骤可以可选地包括，针对至少一种音频类型，确定与媒体内容的音频包括所述音频类型相关的置信度得分，并在置信度得分超过阈值置信度得分时确定该音频包括所述音频类型。例如，置信度得分可以对应于该音频包括所述音频类型的50％、66％、75％等的确定性。在多于一种音频类型得到高于阈值置信度得分的置信度得分的情况下，得到最高置信度得分的音频类型可以用于调整回放速度和/或音频时间拉伸算法。在其他实施例中，可以将回放速度和/或音频时间拉伸算法调整为针对具有高于阈值的置信度得分的所确定的音频类型的特定组合的值/算法。

如果确定S104音频不包括定义的一个或多个音频类型中的任何音频类型，则使用S105默认回放速度和默认音频时间拉伸算法。默认回放速度例如可以是1.5倍、2.0倍或2.5倍。

在一些实施例中，默认音频时间拉伸算法可以是影响音频的音高的算法，如对于大多数音频类型具有平均性能的WSOLA算法。

如果在回放媒体内容期间的某个时刻确定S104要播放的音频包括定义的音频类型中的任何音频类型，则可以相应地调整用于播放媒体内容的回放速度以及可选地用于所播放的音频的音频时间拉伸算法。

在图2的示例中，定义的音频类型至少包括对话和可选地音乐。然而，如上文清楚指出的，这仅仅是作为示例并且可以定义其他/另外的音频类型。

在一个实施例中，在确定S106音频包括对话时，该方法包括将媒体内容的回放速度设置S109为预定义回放速度(下文称为第一预定义回放速度)，该预定义回放速度可以不同于默认回放速度。第一预定义回放速度可以低于默认回放速度。有利地，然后对话对于收听者/用户来说可更容易理解。在其他实施例中，视情况而定，第一预定义回放速度可以高于默认回放速度，例如在媒体内容对应于自然记录片或其中对话被视为不重要的其他内容的情况下(例如包括运动图片的媒体内容，其中图形内容是主要激励)。

可选地，该方法包括：在确定音频包括对话时，将用于回放媒体内容的音频时间拉伸算法设置S110为预定义音频时间拉伸算法(下文称为第一预定义音频时间拉伸算法)，该预定义音频时间拉伸算法可以不同于默认音频时间拉伸算法。有利地，第一预定义音频时间拉伸算法可以针对对话以改善用户体验。在一些实施例中，第一预定义音频时间拉伸算法是时域音高同步叠加TD-PSOLA算法，例如指针间隔控制叠加PICOLA算法。

可选地，指定的音频类型包括音乐，其中，当确定所分析S102的一个或多个音频帧包括音乐时，改变音频时间拉伸算法和回放速度中的至少一者。在加速其中音频包括音乐的媒体内容时，可以有利地允许音高变换以改善用户体验。音高变换使得提高/降低音乐的音调(例如一个八度)，但是听觉感受是具有经调整的回放速度后的音乐曲目仍然清晰且流畅。此外，对于某些媒体内容，音频中的音乐(如背景音乐)可以指示重要或不太重要的内容。因此，也可以调整回放速度。

因此，该方法可以包括，在确定S107音频包括音乐时，将媒体内容的回放速度设置S111为预定义回放速度(下文称为第二预定义回放速度)，该预定义回放速度不同于第一预定义回放速度和/或默认回放速度。可替代地或另外地，该方法可以包括，在确定S107音频包括音乐时，将用于回放媒体内容的音频时间拉伸算法设置S112为预定义音频时间拉伸算法(下文称为第二预定义音频时间拉伸算法)，该预定义音频时间拉伸算法可以不同于第一预定义音频时间拉伸算法。第二预定义音频时间拉伸算法还可以不同于默认音频时间拉伸算法。在其他实施例中，第二预定义音频时间拉伸算法与默认音频时间拉伸算法相同。在一些实施例中，第二预定义音频时间拉伸算法可以是基于波形相似度的叠加WSOLA算法。

在一些实施例中，该方法包括，在确定S108音频对应于对话和音乐两者时，将用于回放媒体内容的音频时间拉伸算法设置S111为第一预定义音频时间拉伸算法，并且将该媒体内容的回放速度设置S112为第一预定义回放速度。在此实施例中，对话被认为比音乐更重要，并且相应地选择回放速度和音频时间拉伸算法。在其他实施例(未包括在图2中)中，如上文所讨论的，得到最高置信度得分的音频类型被用于设置回放速度和/或音频时间拉伸算法。在另外的其它实施例(未包括在图2中)中，音乐被认为比对话更重要，并且相应地设置回放速度和/或音频时间拉伸算法。

如上文所讨论的，本公开可以用于基于媒体内容的音频的特性来持续更新回放速度和/或音频时间拉伸算法的实时场景。因此，图2的方法包括确定S113媒体内容中是否存在更多音频帧(即，正在播放的媒体内容尚未结束)的步骤。在这种情况下，通过再次分析S103音频(即媒体内容中的一个或多个新音频帧)以确定音频类型来重新迭代该方法。否则，该方法结束S114。

图3示意性地示出了实施图1和/或图2的方法的设备200。例如，设备200包括被配置用于执行图1和/或图2的方法的电路。该电路可以包括一个或多个处理器。通常，图1和/或图2的方法可以在设备200中实施为软件、固件、硬件或其组合。在图3中，该设备包括回放速度控制器202。回放速度控制器202接收包括音频的媒体内容201。可以在流媒体传输中接收媒体内容201，即作为流媒体内容。回放速度控制器202确定回放速度。该设备进一步包括解码器204，该解码器根据所确定的回放速度来对媒体内容进行解码。然后，将经解码的媒体内容发送到音频分析单元206，该音频分析单元分析媒体内容的音频并通知回放速度控制器媒体内容中当前包括何种(哪些)音频类型。随后，回放速度控制器202使用从音频分析单元206接收到的信息来确定用于媒体内容201的下一个或多个帧的回放速度。

在一些实施例中，可以根据媒体内容的回放速度来调整流媒体传输的流式传输速度。这可以通过设备200通知流媒体提供商当前应用的回放速度来完成，以根据回放速度来优化用于将媒体内容201传输到设备的比特率。

音频分析单元206可以实时操作，这在流媒体的情况下从用户角度来看可以是有利的。因此，每当媒体内容201中的音频类型指示应该这么做时，就可以调整回放速度和可选地音频拉伸算法。

可选地，音频分析单元还通知音频渲染器208媒体内容中当前包括何种(哪些)音频类型。然后，音频渲染器208选择合适的音频时间拉伸算法以用于渲染并输出经渲染的音频210以供回放。通过将音频分析单元206放在音频渲染器208之前，可以避免在音高改变期间引入的任何干扰。因此，音频分析单元206将仅处理原始音频数据以获得得分，而不会在音频时间拉伸期间引入任何可能的干扰作为应用的音频效果。

图4通过举例示出了图3的设备200，该设备进一步包括用于向用户回放媒体内容的装置302。装置302可以包括显示器和/或扬声器。图4的设备200进一步包括用户界面304。此处，用户可以选择应使用手动速度设置还是自动速度设置。针对每个设置(手动或自动)包括编辑符号306、308，其中用户可以定义例如要使用的回放速度。在手动的情况下，用户选择的回放速度直接应用于媒体内容。在自动的情况下，本文所描述的算法用于基于媒体内容的音频特性来确定应该应用哪种回放速度和可选地哪种音频时间拉伸算法。在这种情况下，用户界面304可以被配置用于(例如经由编辑符号308)设置以下的至少一项：第一预定义回放速度、第二预定义回放速度和默认预定义回放速度。在一些实施例中，还可以由用户设置第一/第二/默认音频时间拉伸算法。此外，设备200可以被实施为针对不同类型的内容呈现推荐的回放速度和/或音频时间拉伸算法。这种推荐的回放速度/音频时间拉伸算法可以基于AI或机器学习算法，该AI或机器学习算法从多个用户接收输入并为某些类型的媒体内容确定优选的回放速度/音频时间拉伸算法(例如基于诸如内容类型、媒体内容长度等的元数据)。

通过举例，在使用如本文所描述的方法/设备/计算机程序产品的情况下，以下场景可以适用：

·在用户设置了非常快的回放速度(例如2.0倍，高于阈值速度)的情况下，在检测到对话时自动放慢速度(例如1.5倍)。

·在PICOLA用作第二预先确定的音频时间拉伸算法的情况下，在场景不是对话时自动切换到WSOLA。

·在用户尝试通过观看外国电视/电影来学习外语的情况下，将对话回放速度放慢到低于正常速度(例如0.75倍)。

·在用户正在观看音乐表演的情况下，在评委进行评论时加速(例如2.0倍)对话场景，并在音乐表演本身期间重置为正常速度(1.0倍)或1.0倍到2.0倍之间的速度。

·在收听没有视频的内容(例如播客和FM)的情况下，可以根据对话是否正在进行来改变回放速度。

在研究了以上描述之后，本公开的进一步的实施例对于本领域技术人员将变得显而易见。尽管本说明书和附图公开了实施例和示例，但是本公开不限于这些具体示例。在不脱离由所附权利要求限定的本公开的范围的情况下，可以做出许多修改和变型。权利要求中出现的任何附图标记不应被理解为限制其范围。

另外地，根据对附图、本公开和所附权利要求的研究，本领域技术人员在实施本公开时可以理解和实现所公开的实施例的变型。在权利要求中，词语“包括”不排除其他要素或步骤，并且不定冠词“一个”或“一种”并不排除复数。在相互不同的从属权利要求中记载某些措施的简单事实并不表明不能有利地利用这些措施的组合。

上文所公开的系统和方法可以被实施为软件、固件、硬件或其组合。在硬件实施方式中，以上描述中所提及的功能单元之间的任务划分不一定对应于物理单元的划分；相反，一个物理部件可以具有多个功能，并且一个任务可以由多个物理部件协作地执行。某些部件或所有部件可以被实施为由数字信号处理器或微处理器执行的软件，或者被实施为硬件或专用集成电路。这种软件可以分布在计算机可读介质上，该计算机可读介质可以包括计算机存储介质(或非暂态介质)和通信介质(或暂态介质)。如本领域技术人员所熟知的，术语计算机存储介质包括任何方法或技术中实施的用于存储诸如计算机可读指令、数据结构、程序模块或其他数据的信息的易失性和非易失性、可移除和不可移除的介质。计算机存储介质包括但不限于：RAM、ROM、EEPROM、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光盘存储设备、磁带盒、磁带、磁盘存储设备或其他磁性存储设备、或可以用于存储期望信息并且可以由计算机访问的任何其他介质。进一步地，本领域技术人员所熟知的是，通信介质通常在诸如载波或其他传输机制的调制数据信号中体现计算机可读指令、数据结构、程序模块或其他数据，并且包括任何信息传递介质。

可以从以下枚举的示例实施例(EEE)中理解本公开的各个方面：

EEE 1.一种用于设置包括音频的媒体内容的回放速度的计算机实施的方法，所述媒体内容具有定义的正常回放速度，所述方法包括：

接收要以不同于所述媒体内容的所述正常回放速度的速度播放所述媒体内容的指示，

分析所述音频以确定音频类型；以及

根据所确定的音频类型来确定不同于所述正常回放速度的回放速度，并将所述媒体内容的所述回放速度设置为所确定的回放速度。

EEE 2.根据EEE 1所述的方法，其中，确定不同于所述正常回放速度的回放速度包括：根据所确定的音频类型来选择一个或多个预定义回放速度之一。

EEE 3.根据EEE 2所述的方法，其中，在所述媒体内容的元数据中接收所述一个或多个预定义回放速度。

EEE 4.根据EEE 1至3中任一项所述的方法，其中，分析所述音频以确定音频类型包括：

分析所述音频以确定所述音频是否包括对话；和/或

分析所述音频以确定所述音频是否包括音乐。

EEE 5.根据EEE 1至4中任一项所述的方法，进一步包括：

如果不能确定音频类型，则将所述回放速度设置为默认回放速度。

EEE 6.根据EEE 1至5中任一项所述的方法，其中，在播放所述媒体内容的同时重复执行以下步骤：分析所述音频以确定音频类型、根据所确定的音频类型来确定不同于所述正常回放速度的回放速度、以及将所述媒体内容的所述回放速度设置为所确定的回放速度。

EEE 7.根据EEE 1至6中任一项所述的方法，进一步包括以下步骤：

根据所确定的音频类型来选择一个或多个预定义音频时间拉伸算法之一，以及将所述媒体内容的音频时间拉伸算法设置为所选择的音频时间拉伸算法。

EEE 8.根据EEE 7所述的方法，其中，在所述媒体内容的元数据中接收对所述一个或多个预定义音频时间拉伸算法的指示。

EEE 9.根据EEE 7至8中任一项所述的方法，进一步包括：

如果不能确定音频类型，则将所述媒体内容的所述音频拉伸算法设置为默认音频拉伸算法。

EEE 10.根据EEE 9所述的方法，其中，所述默认音频时间拉伸算法影响所述音频内容的音高。

EEE 11.根据EEE 7至10中任一项所述的方法，其中，在确定所述音频包括对话时，将所述媒体内容的所述音频时间拉伸算法设置为时域音高同步叠加TD-PSOLA算法或指针间隔控制叠加PICOLA算法。

EEE 12.根据EEE 7至11中任一项所述的方法，其中，在确定所述音频包括音乐时，将所述媒体内容的所述音频时间拉伸算法设置为基于波形相似的叠加WSOLA算法。

EEE 13.根据EEE 7至12中任一项所述的方法，其中，在确定所述音频对应于对话和音乐两者时，将所述媒体内容的所述音频时间拉伸算法设置为时域音高同步叠加TD-PSOLA算法或指针间隔控制叠加PICOLA算法。

EEE 14.根据EEE 7至13中任一项所述的方法，其中，在播放所述媒体内容的同时重复执行以下步骤：分析所述音频以确定音频类型、根据所确定的音频类型来选择一个或多个预定义音频时间拉伸算法之一、以及将所述媒体内容的音频时间拉伸算法设置为所选择的音频时间拉伸算法。

EEE 15.根据EEE 1至14中任一项所述的方法，其中，分析所述音频以确定音频类型的步骤包括：针对至少一种音频类型，确定与所述音频包括所述音频类型相关的置信度得分以及确定所述置信度得分是否超过阈值置信度得分。

EEE 16.根据EEE 1至15中任一项所述的方法，进一步包括以下步骤：接收作为流媒体传输的所述媒体内容，其中，实时执行分析所述音频的步骤。

EEE 17.根据EEE 1至16中任一项所述的方法，进一步包括以下步骤：

接收作为流媒体传输的所述媒体内容；

基于所述媒体内容的所确定的回放速度来调整所述流媒体传输的流式传输速度。

EEE 18.一种包括指令的计算机程序产品，所述指令被适配成在由具有处理能力的设备执行时执行根据EEE 1至17中任一项所述的方法。

EEE 19.一种计算机可读存储介质，存储有根据EEE 18所述的计算机程序产品。

EEE 20.一种被配置为设置包括音频的媒体内容的回放速度的设备，所述设备包括被配置为执行根据EEE 1至17中任一项所述的用于设置所述回放速度的方法的电路。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 用于向授权用户分发内容项目的方法、内容拥有者设备、计算机程序和计算机程序产品 [P] . 中国专利： CN105493436A . 2016-04-13
2. 用于回放内容的装置、方法以及计算机程序产品 [P] . 中国专利： CN101185133A . 2008-05-21
3. A COMPUTER IMPLEMENTED METHOD, DEVICE AND COMPUTER PROGRAM PRODUCT FOR SETTING A PLAYBACK SPEED OF MEDIA CONTENT COMPRISING AUDIO [P] . 美国专利： WO2021142035A1 . 2021-07-15

机译：用于设置包括音频的媒体内容的播放速度的计算机实现的方法，设备和计算机程序产品
4. Method and apparatus for synthesizing a binaural audio signal; method;.Method for synthesizing a stereo audio signal; parametric audio decoder; product of computer program stored on a computer mu00ecdia legu00ecvel and executable in a data processing device for processing an audio signal parametricamente codific ADO which comprises, at least,A combined signal of a plurality of audio channels and one or more sets of corresponding information that describe a sound image of multiple channel; the method to generate an encoded audio signal parametricamente; audio encoder for generating a parametric audio signal. Etricamente encoded; the product of computer program.Stored in a mu00ecdia legu00ecvel by computer and executable in a data processing device to generate an encoded audio signal parametricamente [P] . BRPI0706306A2 . 2011-03-22

机译：用于合成双耳音频信号的方法和装置;一种合成立体声音频信号的方法;参数音频解码器;计算机程序上存储的计算机程序产品，可在数据处理设备中执行以执行用于处理音频信号参数编码ADO的数据处理设备，该信号至少包括多个音频通道的组合信号和一组或多组音频描述多声道声像的相应信息;产生编码音频信号参数的方法;音频编码器，用于生成参数音频信号。 Etricamente编码;计算机程序的产品。通过计算机存储在计算机中，并在数据处理设备中可执行以生成编码的音频信号参数
5. System for processing contents of multimu00cddia to transfer one or more networks, method for processing contents of multimu00cddia to transfer one or more networks, a computer program product that includes a media present utilizu00c1vel by computer has a program code. Utilizu00c1vel for computer to process the contents of multimu00cddia to transfer one or more networks.System for transferring contents of multimu00cddia and method for transferring contents of multimu00cddia [P] . NO342409B1 . 2018-05-14

机译：用于处理多媒体内容以传送一个或多个网络的系统，用于处理多媒体内容以传送一个或多个网络的方法，包括计算机可利用的媒体存在的计算机程序产品具有程序代码。用于计算机处理multim u00cddia的内容以传输一个或多个网络的Utiliz u00c1vel。multim u00cddia的内容传输系统和multim u00cddia的内容传输方法