首页> 中国专利> 用于使用域分类器进行神经网络中的域适配的系统和方法

用于使用域分类器进行神经网络中的域适配的系统和方法

摘要

域适配模块(1800)用于使用来自域的各个平行隐藏层的各个输出来优化从第二域(1804)导出的第一域(1802)。

著录项

  • 公开/公告号CN112970035A

    专利类型发明专利

  • 公开/公告日2021-06-15

    原文格式PDF

  • 申请/专利权人 索尼互动娱乐股份有限公司;

    申请/专利号CN201980072024.9

  • 发明设计人 R.陈;M-H.陈;J.俞;X.刘;

    申请日2019-08-27

  • 分类号G06N3/04(20060101);

  • 代理机构11105 北京市柳沈律师事务所;

  • 代理人张晓明

  • 地址 日本东京都

  • 入库时间 2023-06-19 11:26:00

说明书

技术领域

本申请总体上涉及技术上有创造性的非常规解决方案,这些解决方案必须植根于计算机技术并产生具体的技术改进。

背景技术

机器学习(有时称为深度学习)可用于与数据理解、检测和/或分类有关的各种有用应用,包括图像分类、光学字符识别(OCR)、对象识别、动作识别、语音识别以及情绪识别。然而,如本文中所理解的,机器学习系统可能不足以使用来自另一个域的训练数据集(例如,电影视频)来识别例如一个域(诸如计算机游戏)中的动作。

例如,在计算机游戏行业中,视频和音频是两个独立的过程。首先设计和制作没有音频的游戏,然后音频小组调查整个游戏视频,并从音效(SFX)数据库中插入对应SFX,这非常耗时。如本文所理解的,机器学习可以用于加速该过程,但是当前动作识别模型是在真实世界视频数据集上训练的,从而使它们在用于游戏视频时受到数据集移位或数据集偏差的影响。

发明内容

为了克服上述域不匹配问题,训练数据(图像或视频或音频)的至少两个通用域用于对目标数据集进行分类。可以通过例如真实世界视频和计算机游戏视频、第一和第二说话者语音(用于语音识别)、标准字体文本和草书(用于手写识别)等来建立一对训练数据域。

因此,由损失函数和/或实际神经网络建立的通用域适配模块从深度学习的两个训练域接收来自多个输出点的输入,并提供输出测度,使得可以对神经网络的两个轨迹中的一个以及可能两个进行优化。也可以使用通用的跨域特征归一化模块,并将其插入到神经网络的任一层中。

因此,在一个方面,设备包括至少一个处理器和至少一个计算机存储装置,所述计算机存储装置不是瞬时信号并且包括可由至少一个处理器执行的指令。所述指令能够执行以访问与第一数据类型相关联的第一神经网络,访问与不同于第一数据类型的第二数据类型相关联的第二神经网络,并将第一训练数据作为输入提供给第二神经网络。.所述指令还可执行以选择第一层,其中第一层是第二神经网络的隐藏层。所述指令然后可执行以识别基于第一训练数据生成的来自第一层的输出,并且使用第三神经网络确定来自第一层的输出是否来自第一神经网络。第三神经网络不同于第一神经网络和第二神经网络。所述指令还能够执行以基于确定来自第一层的输出不是来自第一神经网络而调整第一层的一个或多个权重。

在一些示例中,所述指令可能够执行以通过复制第一神经网络来初始地建立第二神经网络。

同样在一些示例中,所述指令可能够执行以基于确定来自第一层的输出是来自第一神经网络而拒绝调整第一层的一个或多个权重。在一些实施方案中,所述输出可以是第一输出,并且所述指令可能够执行以基于确定来自第一层的第一输出是来自第一神经网络而选择第二层,其中第二层也是第二神经网络的隐藏层。所述指令还可能够执行以识别第二输出,其中第二输出来自第二层,并且使用第三神经网络确定第二输出是否来自第一神经网络。所述指令然后可能够执行以基于确定第二输出不是来自第一神经网络而调整第二层的一个或多个权重。可以随机选择第二神经网络的第一层和第二层。

另外地,在使用第三神经网络确定来自第一层的输出是否来自第一神经网络之前,所述指令可能够执行以调整第三神经网络的一个或多个层的一个或多个权重,使得第三神经网络学习将来自第一神经网络和第二神经网络中的任一者的层的输出进行正确分类。第三神经网络甚至可以以无监督模式操作,以使用已标记数据学习将来自第一神经网络和第二神经网络中的任一者的层的输出进行正确分类。

在另一个方面,一种方法包括:访问与第一数据类型相关联的第一神经网络;访问与不同于第一数据类型的第二数据类型相关联的第二神经网络;以及将第一训练数据作为输入提供给第二神经网络。所述方法还包括:选择第一层,其中第一层是第二神经网络的隐藏层;识别基于第一训练数据生成的来自第一层的输出;以及使用第三神经网络确定来自第一层的输出是否来自第一神经网络。第三神经网络不同于第一神经网络和第二神经网络。所述方法还包括基于确定来自第一层的输出不是来自第一神经网络而调整第一层的一个或多个权重。

在又一个方面,一种设备包括至少一个计算机存储装置,所述计算机存储装置不是暂时信号并且包括指令,所述指令能够由至少一个处理器执行以:访问与第一域种类相关联的第一域;访问与不同于第一域种类的第二域种类相关联的第二域;以及使用提供给第一域和第二域的训练数据对目标数据集进行分类。所述指令还能够执行以输出目标数据集的分类,其中目标数据集由包括域分类器的域适配模块进行分类,以对梯度求逆并将梯度反向传播到主模型。

本申请的关于其结构和操作两者的细节可参考附图得到最好的理解,在附图中相同的附图标记指代相同的部分,并且在附图中:

附图说明

图1是符合本发明原理的示例系统的框图;

图2、图3、图5、图7、图9、图10、图14和图16是符合本发明原理的示例逻辑的流程图;

图4、图6、图8、图11、图13、图15和图18示出了根据本发明原理的各种域适配架构的示例;以及

图12和图17是示出了本发明原理的示例表。

具体实施方式

根据本发明原理,基于深度学习的域适配方法可以用于克服针对与图像或视频或音频有关的任务的域失配问题,诸如在给定任何源和目标域数据的情况下的理解/检测/分类。可以使用至少三种通用类型的数据(图像或视频或音频),并且可以使用所有类型的神经网络模块来改进系统性能。

如本文所述,深度学习处理流程的两个轨迹可以用于任何特定的输入到输出任务。一个轨迹可以用于一个数据域,而另一轨迹可以用于另一数据域,使得对于两个数据域可以至少存在深度学习的两个轨迹。例如,一对域可以是两种类型的视频,如真实世界视频和视频游戏世界视频、一个说话者的语音和另一个说话者的语音、标准字体文本和草书、语音识别域、文本到语音以及语音到文本。

通用域适配模块将在下面描述,有时会使用损失函数。通用域适配模块还可以使用实际神经网络连接,所述连接从深度学习的两个轨迹获取来自多个输出点的输入并提供输出测度,使得可以对神经网络的两个轨迹进行优化。通用域适配模块还可以使用通用跨域特征归一化模块,所述模块可以插入到神经网络的任一层中。

因此,本文描述的方法可以涉及多个对象以及与多个对象相关联的多个动作。例如,许多文本的图像文本块可以是“对象”,并且图像块的类型可以是“动作”。

本公开还总体上涉及计算机生态系统,所述计算机生态系统包括消费性电子(CE)装置网络的各方面,诸如但不限于分布式计算机游戏网络、增强现实(AR)网络、虚拟现实(VR)网络、视频广播、内容递送网络、虚拟机以及人工神经网络和机器学习应用。

本文的系统可包括服务器和客户端部件,所述服务器和客户端部件通过网络连接使得可在客户端和服务器部件之间交换数据。客户端部件可包括一个或多个计算装置,所述一个或多个计算装置包括AR耳机、VR耳机、游戏控制台(诸如Sony

服务器和/或网关可包括执行指令的一个或多个处理器,所述指令将服务器配置为通过诸如互联网的网络接收和传输数据。另外地或替代地,客户端和服务器可通过本地内联网或虚拟专用网络连接。服务器或控制器可由游戏控制台和/或其一个或多个母板(诸如Sony

可通过网络在客户端与服务器之间交换信息。为此并且为了安全起见,服务器和/或客户端可包括防火墙、负载平衡器、临时存储装置和代理,以及用于可靠性和安全性的其他网络基础设施。一个或多个服务器可形成实现根据本发明原理向网络用户提供诸如在线社交网站或视频游戏网站的安全社区以众包地通信的方法的设备。

如本文所使用,指令是指用于在系统中处理信息的计算机实现的步骤。指令可以在软件、固件或硬件中实现,并且包括由系统的部件实施的任何类型的已编程步骤。

处理器可以是能够借助于诸如地址线、数据线和控制线的各种线以及寄存器和移位寄存器执行逻辑的任何常规的通用单芯片处理器或多芯片处理器。

通过本文的流程图和用户界面描述的软件模块可包括各种子例程、程序等。在不限制本公开的情况下,被陈述为由特定模块执行的逻辑可被再分配到其他软件模块和/或一起组合在单个模块中和/或使得在可共享库中可用。

如上文所指示,本文所述的本发明原理可实现为硬件、软件、固件或它们的组合;因此,依据说明性部件、框、模块、电路和步骤的功能性对它们进行阐述。

除上文已经提到的内容之外,下文所述的逻辑块、模块和电路可用通用处理器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)或被设计来执行本文所述功能的其他可编程逻辑装置(诸如专用集成电路(ASIC)、离散门或晶体管逻辑、离散硬件部件或它们的任何组合)来实现或执行。处理器可由控制器或状态机或计算装置的组合实现。

下文描述的功能和方法可以以硬件电路或软件电路实现。当以软件实现时,功能和方法可以用诸如但不限于Java、C#或C++的适当语言编写,并且可以存储在计算机可读存储介质上或通过计算机可读存储介质传输,所述计算机可读存储介质诸如随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、光盘只读存储器(CD-ROM)或其他光盘存储装置(诸如数字通用光盘(DVD))、磁盘存储装置或包括可移除拇指驱动器的其他磁存储装置等。连接可以建立计算机可读介质。此类连接可以包括例如硬连线电缆,包括光纤和同轴线以及数字用户线(DSL)和双绞线。此类连接可以包括无线通信连接,包括红外和无线电。

一个实施方案中所包括的部件可以以任何适当的组合用于其他实施方案中。例如,可将本文所述和/或附图中所描绘的各种部件中的任一者组合、互换或从其他实施方案排除。

“具有A、B和C中的至少一者的系统”(类似地,“具有A、B或C中的至少一者的系统”和“具有A、B、C中的至少一者的系统”)包括以下系统:仅具有A;仅具有B;仅具有C;同时具有A和B;同时具有A和C;同时具有B和C;和/或同时具有A、B和C等。

现在具体地参考图1,示出了示例系统10,其可包括上文所提及和下文根据本发明原理进一步描述的示例装置中的一者或多者。系统10中包括的示例装置中的第一个是诸如音频视频装置(AVD)12的消费性电子(CE)装置,诸如但不限于带有TV调谐器的支持互联网的TV(等效地,控制TV的机顶盒)。然而,AVD 12替代地可以是家电或家居用品,例如,计算机化的支持互联网的冰箱、洗涤器或干燥器。替代地,AVD 12还可以是计算机化的支持互联网(“智能”)的电话、平板计算机、笔记本计算机、增强现实(AR)耳机、虚拟现实(VR)耳机、支持互联网的或“智能”眼镜、另一种类型的可佩戴的计算机化装置,诸如计算机化的支持互联网的手表、计算机化的支持互联网的手镯、计算机化的支持互联网的音乐播放器、计算机化的支持互联网的头戴式电话、计算机化的支持互联网的可植入装置(诸如可植入皮肤装置)、其他计算机化的支持互联网的装置等。无论如何,应理解,AVD 12被配置为实施本发明原理(例如,与其他消费性电子(CE)装置通信以实施本发明原理,执行本文描述的逻辑,以及执行本文描述的任何其他功能和/或操作)。

因此,为了实施此类原理,AVD 12可由图1所示的部件中的一些或全部建立。例如,AVD 12可包括一个或多个显示器14,所述一个或多个显示器可由高清晰度或超高清晰度(“4K”)或更高的平面屏幕实现,并且可以是支持触摸的,以用于通过显示器上的触摸来接收用户输入信号。AVD 12可包括:一个或多个扬声器16,其用于根据本发明原理输出音频;以及至少一个附加输入装置18(诸如音频接收器/传声器),其用于向AVD 12输入可听命令以控制AVD 12。示例AVD 12还可以包括一个或多个网络接口20,用于在一个或多个处理器的控制下通过至少一个网络22(诸如互联网、WAN、LAN等)进行通信。因此,接口20可以是但不限于Wi-Fi收发器,所述Wi-Fi收发器是无线计算机网络接口的示例,诸如但不限于网状网络收发器。此外,应注意,网络接口20可以是例如有线或无线调制解调器或路由器或其他适当接口(诸如例如无线电话收发器或如上所提及的Wi-Fi收发器等)。

应理解,一个或多个处理器控制AVD 12来实施本发明原理,包括本文所述的AVD12的其他元件,诸如控制显示器14来在显示器上呈现图像和从显示器接收输入。一个或多个处理器可以包括中央处理单元(CPU)24以及显卡25A上的图形处理单元(GPU)25。

除前述内容之外,AVD 12还可以包括一个或多个输入端口26,诸如例如用于物理地连接(例如,使用有线连接)到另一个消费性电子(CE)装置的高清晰度多媒体接口(HDMI)端口或USB端口和/或用于将耳机连接到AVD 12以用于通过耳机将来自AVD 12的音频呈现给用户的耳机端口。例如,输入端口26可以经由有线或无线地连接到音频视频内容的有线或卫星源26a。因此,源26a可以是例如单独的或集成的机顶盒或卫星接收器。或者,源26a可以是包含内容的游戏控制台或磁盘播放器,所述内容可以被用户视为用于信道分配目的的最喜爱之物。当被实现为游戏控制台时,源26a可以包括下面关于CE装置44描述的部件中的一些或全部,并且可以实现本文所描述的逻辑中的一些或全部。

AVD 12还可包括不是瞬时信号的一个或多个计算机存储器28,诸如基于磁盘的存储装置或固态存储装置,所述一个或多个计算机存储器在一些情况下在AVD的机壳中体现为独立装置,或者体现为AVD的机壳内部或外部的用于回放AV节目的个人视频记录装置(PVR)或视频磁盘播放器,或者体现为可移除存储器介质。此外在一些实施方案中,AVD 12可包括位置或地点接收器(诸如但不限于手机接收器、GPS接收器和/或高度计30),所述位置或地点接收器被配置为例如从至少一个卫星或手机塔接收地理位置信息并且向处理器24提供所述信息和/或结合处理器24确定AVD 12被设置处于的高度。然而,应理解,根据本发明原理,可以使用除手机接收器、GPS接收器和/或高度计之外的另一个合适的位置接收器,例如,以在所有的三个维度内确定AVD 12的地点。

继续对AVD 12的描述,在一些实施方案中,根据本发明原理,AVD 12可以包括一个或多个相机32,所述一个或多个相机可以是例如热成像相机、诸如网络摄像机的数码相机、红外线(IR)相机和/或集成到AVD 12中并且可由处理器24控制以生成图片/图像和/或视频的相机。AVD 12上还可包括蓝牙收发器34和其他近场通信(NFC)元件36,用于分别使用蓝牙和/或NFC技术与其他装置进行通信。示例NFC元件可以是射频识别(RFID)元件。

更进一步地,AVD 12可包括向处理器24提供输入的一个或多个辅助传感器37(例如,运动传感器,诸如加速计、陀螺仪、回转计或磁传感器、红外线(IR)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如,用于感测手势命令)等)。AVD 12可包括无线TV广播端口38,用于接收向处理器24提供输入的OTA TV广播。除前述内容之外,应注意,AVD 12还可包括红外线(IR)发射器和/或IR接收器和/或IR收发器42,诸如IR数据关联(IRDA)装置。可以提供电池(未示出)以用于为AVD 12供电。

仍参考图1,除AVD 12之外,系统10还可包括一个或多个其他消费性电子(CE)装置类型。在一个示例中,第一CE装置44可以用于经由直接发送到AVD 12的命令和/或通过下面描述的服务器向AVD 12发送计算机游戏音频和视频,而第二CE装置46可以包括与第一CE装置44类似的部件。在所示的示例中,第二CE装置46可以被配置为用户47所佩戴的AR或VR耳机,如图所示。在所示的示例中,仅示出两个CE装置44、46,应理解,根据本发明原理还可以使用更少或更大的装置。

在所示的示例中,假定所有三个装置12、44、46都是例如在家庭中的网络(诸如安全或加密网络、娱乐网络或Wi-Fi)的元件,或者至少在特定地点彼此接近出现并且能够彼此通信并与本文所述的服务器通信。然而,除非另有明确要求,否则本发明原理不限于特定地点或网络。

示例的非限制性第一CE装置44可以由上述装置(例如,智能电话、数字助理、便携式无线膝上型计算机或笔记本计算机或游戏控制器(也称为“控制台”))中的任一者来建立,并且因此可以具有下文描述的部件中的一个或多个。第二CE装置46可以但不限于由AR耳机、VR耳机、“智能”的支持互联网的眼镜、或者甚至视盘播放器(诸如蓝光播放器)、游戏控制台等来建立。更进一步地,在一些实施方案中,第一CE装置44可以是用于例如将AV播放和暂停命令发布到AVD12的遥控装置(RC),或者它可以是更复杂的装置,诸如平板计算机、经由有线或无线链路与由图1所示的装置中的另一个实现的游戏控制台通信并且控制AVD12上的视频游戏呈现的游戏控制器、个人计算机、无线电话等。

因此,第一CE装置44可以包括一个或多个显示器50,所述一个或多个显示器可以是支持触摸的,用于经由显示器50上的触摸来接收用户输入信号。另外地或替代地,(一个或多个)显示器50可以是被配置用于呈现AR和/或VR图像的至少部分透明的显示器,诸如AR耳机显示器或“智能”眼镜显示器或“抬头”显示器、以及VR耳机显示器或者其他显示器。

第一CE装置44还可以包括用于根据本发明原理输出音频的一个或多个扬声器52,以及用于向第一CE装置44输入可听命令以控制装置44的至少一个附加输入装置54,诸如例如音频接收器/麦克风。示例第一CE装置44还可包括一个或多个网络接口56,用于在一个或多个CE装置处理器58的控制下通过网络22进行通信。因此,接口56可以是但不限于Wi-Fi收发器,所述Wi-Fi收发器是无线计算机网络接口的示例,包括网状网络接口。应理解,处理器58控制第一CE装置44来实施本发明原理,包括本文所述的第一CE装置44的其他元件,诸如例如控制显示器50来在显示器上呈现图像和从显示器接收输入。此外,应注意,网络接口56可以是例如有线或无线调制解调器或路由器或其他适当接口(诸如无线电话收发器或者如上所提及的Wi-Fi收发器等)。

更进一步地,应注意,除(一个或多个)处理器58之外,第一CE装置44还可在图形卡55A上包括图形处理单元(GPU)55。图形处理单元55可以被配置为,除其他之外,用于在显示器50上呈现AR和/或VR图像。

除前述内容之外,第一CE装置44还可包括用于物理地连接(例如,使用有线连接)到另一个CE装置的一个或多个输入端口60(诸如例如HDMI端口或USB端口)和/或用于将耳机连接到第一CE装置44以用于通过耳机将来自第一CE装置44的音频呈现给用户的耳机端口。第一CE装置44还可包括一个或多个有形计算机可读存储介质62,诸如基于磁盘的存储装置或固态存储装置。此外在一些实施方案中,第一CE装置44可以包括位置或地点接收器(诸如但不限于手机和/或GPS接收器和/或高度计64),所述位置或地点接收器被配置为例如使用三角测量从至少一个卫星和/或手机塔接收地理位置信息并且向CE装置处理器58提供所述信息和/或结合CE装置处理器58确定第一CE装置44被设置处于的高度。然而,应理解,根据本发明原理,可以使用除手机和/或GPS接收器和/或高度计之外的另一个合适的位置接收器来例如确定第一CE装置44在所有三个维度中的地点。

继续第一CE装置44的描述,在一些实施方案中,根据本发明原理,第一CE装置44可以包括一个或多个相机66,所述一个或多个相机可以是例如热成像相机、IR相机、诸如网络摄像机的数码相机和/或集成到第一CE装置44中并且可由CE装置处理器58控制以生成图片/图像和/或视频的另一种类型相机。第一CE装置44上还可以包括蓝牙收发器68和其他近场通信(NFC)元件70,用于分别使用蓝牙和/或NFC技术与其他装置进行通信。示例NFC元件可以是射频识别(RFID)元件。

更进一步地,第一CE装置44可包括向CE装置处理器58提供输入的一个或多个辅助传感器72(例如,运动传感器,诸如加速计、陀螺仪、回转计或磁传感器、红外线(IR)传感器、光学传感器、速度和/或节奏传感器、手势传感器(例如,用于感测手势命令)等)。第一CE装置44可以包括向CE装置处理器58提供输入的其他传感器,诸如例如一个或多个气候传感器74(例如,气压计、湿度传感器、风传感器、光传感器、温度传感器等)和/或一个或多个生物计量传感器76。除前述内容之外,应注意,在一些实施方案中,第一CE装置44还可包括红外线(IR)发射器和/或IR接收器和/或IR收发器78,诸如IR数据关联(IRDA)装置。可以提供电池(未示出)以用于为第一CE装置44供电。CE装置44可以通过上述通信模式和相关部件中的任一者与AVD 12进行通信。

第二CE装置46可以包括针对CE装置44示出的部件中的一些或全部。任一个或两个CE装置可以由一个或多个电池供电。

现在参考前述至少一个服务器80,它包括至少一个服务器处理器82、至少一个有形计算机可读存储介质84(诸如基于磁盘的存储装置或固态存储装置)。在实现方式中,介质84包括一个或多个固态存储驱动器(SSD)。根据本发明原理,服务器还包括至少一个网络接口86,所述至少一个网络接口允许通过网络22与图1的其他装置进行通信,并且实际上可以促进服务器与客户端装置之间的通信。应注意,网络接口86可以是例如有线或无线调制解调器或路由器、Wi-Fi收发器或其他适当接口(诸如无线电话收发器)。网络接口86可以是远程直接存储器访问(RDMA)接口,其将介质84直接连接到诸如所谓的“结构”的网络而无需通过服务器处理器82。所述网络可以包括以太网网络和/或光纤信道网络和/或无线带宽网络。通常,服务器80包括多个计算机中的多个处理器,其称为可布置在物理服务器“堆栈”中的“刀片”。

因此,在一些实施方案中,服务器80可以是互联网服务器或整个“服务器场”,并且可以包括并且执行“云”功能,使得系统10的装置可在例如如本文所公开的域适配的示例性实施方案中经由服务器80访问“云”环境。另外地或替代地,服务器80可由与图1中示出的其他装置在同一房间或附近的一个或多个游戏控制台或其他计算机来实现。

在描述另外的附图之前,根据本发明原理应理解,为了优化人工智能系统,可以复制经过良好训练的数据的优化后的源域/模型以建立目标域/模型,所述目标域/模型将针对与源域不同类型的数据被进一步细化。例如,源域可以用于真实世界视频中的动作识别,而目标域可以用于视频游戏视频中的动作识别。由于视频类型和视觉效果的不同,源域可能不足以使用视频游戏数据执行动作识别,但仍可以为从视频游戏数据中适配足够的目标域来进行动作识别提供良好的起点。

因此,本发明原理描述了用于执行域适配和优化的系统和方法。根据本公开,这不仅可以通过一旦人类监督员或系统管理员已经识别出错误就从神经网络的输出/激活层反向传播来执行,还可以通过目标域和源域两者运行不同但相关的训练数据并为每个域选择彼此平行以确定输出是否相似或者甚至相同的任何给定隐藏层或中间层来执行。如果输出在统计上不相似(如监督员或管理员所定义),则可以如本文所述执行针对中间目标层的某些权重调整,以使来自平行层的输出的差异最小化(例如,以确保针对平行层的抽象是相似的/相同的)并且由此进一步优化针对不同类型数据的目标域。然后,在训练之后,还可以进行测试以确保优化已进行到可接受的程度。

就不同但相关的训练数据而言,所述数据可能是不同的,因为它是适合给定域的数据,但却是相关的,因为每个域的训练数据可能与相似概念或隐喻有关。例如,馈入源域的训练数据可以是正在进行穿孔的人类的真实世界视频,而馈入目标域的训练数据可以是进行穿孔的游戏角色的视频游戏视频。作为另一示例,这一次关于对象识别,馈入源域的训练数据可以是苹果的真实世界图片,而馈入目标域的训练数据可以是数字苹果的视频游戏视频。

另外地,如以上参考中所使用的,平行的源和目标中间/隐藏层是指相应源和目标中间层,它们由于源域被复制以初始地建立目标域而在开始时是相同的,其中这些层执行相同的(一个或多个)任务和/或具有相同目的。因此,例如中间源层500可以平行于中间目标层500,其中目标域是从源域复制的,两个域具有相同数量的中间层,并且目标层500初始地由源层500建立。

考虑到前述内容,现在将更详细地描述本发明原理。从参考以流程图形式示出的图2的逻辑开始,作为用于视频分类的神经网络(NN)的通用轨迹的修改的示例,可以如下修改用于视频分类的基线架构。在框200处开始,可以执行将公共卷积神经网络(CNN)修改为空间区域提取网络(SREN),使得可以提取整个视频场景和重要空间区域(例如,对象、身体部位等)的特征向量。然后,图2的逻辑可以进行到框202,在所述框中可以将两种类型的输出、区域特征和场景特征连接成帧级特征向量,并且然后在框204处将它们输入到视频模型中。

然后,图2的逻辑可以进行到框206,在所述框中可以将帧级特征向量输入到包括长短期存储器(LSTM)单元的递归神经网络(RNN)中,以对时间动态信息进行建模。逻辑然后可以进行到框208,在所述框中可以修改最终分类器以对(一个或多个)视频中的(A)整个场景和(B)所有重要区域两者进行分类。

图2的逻辑然后可以进行到框210,在所述框中可以针对第二域种类重复框200-208,以用来自不同视频类型/种类的数据利用和优化整个架构。然后,在框212处,可以将帧级特征向量、RNN之后的特征和分类器输出输入到域适配模块中作为输入。域适配模块可以使用以下三种方法中的一种或多种,每种方法分别在图3、图5和图7的不同流程图中示出,并参考视频数据进行描述:差异函数方法(图3)、域分类器方法(图5)和跨域批量归一化方法(图7)。

从参考图3的差异函数方法开始,应理解,差异函数可以用于计算源数据与目标数据之间的总体数据分布的距离。可以通过来自源/目标模型的层的任何子集的不同度量(诸如从模型的多个层中提取的源数据与目标数据之间的基于概率的距离(如参考下面将进一步描述的)),或通过规范化源模型与目标模型之间的参数差异(如下面也将进一步描述的)或这两种类型的损失的加权总和(如下面也将进一步描述的)来定义差异损失。通过与差异函数联合训练,将对模型进行优化,以减少分布差异,从而提高推广能力。

因此,自如上所述的框212,图3可以在框300处开始,在所述框中可以定义并添加另一个损失函数(不同于从输出层反向传播时使用的总体损失函数),其中这个附加损失函数是差异损失函数,所述差异损失函数计算为从相应平行层输出的源数据和目标数据中学习的特征之间的距离。

在没有差异损失的情况下,可以仅使用已标记源数据来计算总体损失函数,因此在优化期间,模型将逐步拟合源数据,这将增加两个域之间的分布差异。因此,可以使用无监督的域适配协议来减小源数据与目标数据之间的总体分布的差异,其中所使用的训练数据包括来自源域的已标记数据和来自目标域的未标记数据(通常指定为框302),并且其中所使用的测试数据全部来自目标域(通常指定为框304)。

在图3的框306处,逻辑可能在没有标记的情况下计算从相应平行层输出的源数据和目标数据学习的特征之间的距离。然后,在框308处,可以将与差异损失函数的联合训练用于模型,以减小源数据与目标数据之间的总体分布的差异。这可以在框310处通过使用来自时间模块和最后一个全连接层的输出的特征向量来计算差异损失来完成。图4示出了结合图3及其描述的这些原理的示例动作识别架构。

因此,如图4所示,实施本发明原理的装置可以访问与可以是源神经网络/域的第一数据类型相关联的第一神经网络/域400,访问与不同于可以是目标神经网络/域的第一数据类型的第二数据类型相关联的第二神经网络/域402,并将第一训练数据作为输入提供给第一神经网络。装置还可以将第二训练数据作为输入提供给第二神经网络,其中第一训练数据不同于第二训练数据但是仍然相关。

例如,第一神经网络/域400可以与使用真实世界视频的对象识别有关,而第二神经网络/域402可以与使用视频游戏视频的对象识别有关。因此,第一训练数据可以是来自真实生活视频记录的真实世界苹果的视频,而第二训练数据可以是来自视频游戏的视频游戏渲染的图形苹果的视频。

装置然后可以识别来自第一层的第一输出,其中第一层是第一神经网络的输出/激活层,并且其中第一输出是基于第一训练数据。装置还可以识别来自第二层的第二输出,其中第二层是第二神经网络的输出/激活层,并且其中第二输出是基于第二训练数据。装置然后可以基于第一输出和第二输出,确定对第三层的一个或多个权重的第一调整,其中第三层是第二神经网络的中间层。可以例如通过使用第一差异/损失函数从第二神经网络的第二层(第二神经网络的输出/激活层)进行的反向传播来确定第一调整。

此后,人类监督员可以提供命令以手动地选择,或者装置本身可以(例如,随机地)选择第三层和第四层(其中第四层是第一神经网络的中间层)。第三层和第四层可以是平行的中间/隐藏层。此后,可以使用第二差异/损失函数来测量来自第三层的第三输出并将其与来自第四层的第四输出进行比较,所述第二差异/损失函数被(例如,人类监督员)定制为测量第三输出与第四输出之间的相似性,而不管第二神经网络的对象标记(例如“苹果”)是否可用。在将第三输出和第四输出分别提供给相应的第二神经网络和第一神经网络的随后的相应中间层之前,第三输出和第四输出本身可以是相应的第三层和第四层的相应向量输出,其中第三输出和第四输出本身是分别基于第二训练数据和第一训练数据。

装置然后可以基于比较/第二函数确定对第三层的一个或多个权重的第二调整,其中权重变化的量与第二函数的大小成比例。此后,装置可以基于对第一调整和第二调整两者的考虑随后调整第三层(以及甚至第二神经网络的一个或所有先前层)的一个或多个权重。例如,可以通过将来自第一调整和来自第二调整的相应权重变化加在一起来调整第三层的一个或多个权重。然而,在一些示例中,如果由人类监督员或装置确定造成比来自第一调整和第二调整两者的权重变化的总和更少的损失,则仅可以应用来自第一调整或第二调整中的一者的权重变化。在其他示例中,如果由人类监督员或装置确定造成比以上替代方案更少的损失,可以将来自第一调整的(一个或多个)权重变化的一半和来自第二调整的(一个或多个)权重变化的一半加在一起。

另外地,应注意,在将第二训练数据提供给第二神经网络之前,可以通过第一神经网络的副本来建立第二神经网络。相应神经网络的第三层和第四层可以是除输出层之外的层,诸如相应神经网络的中间隐藏层。

另外地,第一训练数据可以与第二训练数据相关,诸如它们两者都与动作识别期间的相同类型的动作或对象识别期间的相同类型的对象有关。

现在将参考图5描述以上参考的域分类器方法,以描述示例性基于对抗的域适配。该方法可能在域分类器中使用梯度逆转层(GRL)来调整权重并因此混淆整个架构/域分类器,使得域分类器将逐渐失去区分来自不同域的输出的能力。域分类器本身可以至少部分地由与源神经网络和目标神经网络分开的第三神经网络建立。

考虑到前述内容,自如上所述的框212,通过经由如图6所示的框FC-2 600添加附加浅二进制分类器(称为“域分类器”)以识别或辨别在框212处输入到域适配模块的数据是来自源域还是来自目标域,图5的逻辑可以在框500处开始。此外,在装置将梯度反向传播到主模型(例如,主视频模型)之前,在框502处,一个或多个域分类器604可以使用梯度逆转层(GRL)602来对梯度求逆,使得可以将视频模型优化为相反的方向并且因此(一个或多个)域分类器将逐渐失去区分来自两个域的向量的能力。因此,模型将被推广到源域和目标域两者。

然后在框504处,可以在架构的空间模块605之后立即插入一个域分类器604,并且可以在架构的时间模块608之后立即插入另一个域分类器606,以便在空间和时间方向两者上进行域适配。然后,在框506处,装置可以将梯度反向传播到主模型(其在这种情况下可以是视频模型)。图6示出了该实施方案的示例架构本身。

因此,实施本发明原理的装置可以访问第一神经网络/域,所述第一神经网络/域与第一数据类型相关联并且可以是源神经网络/域。装置还可以访问第二神经网络/域,所述第二神经网络/域与不同于第一数据类型的第二数据类型相关联并且可以是目标神经网络/域。装置然后可以将第一训练数据作为输入提供给第二神经网络。

例如,第一神经网络/域可以与使用真实世界视频的动作识别有关,而第二神经网络/域可以与使用视频游戏视频的动作识别有关。因此,第一训练数据可以是来自视频游戏的视频游戏渲染的图形穿孔动作的一个帧。

此后,人类监督员可以提供命令以手动地选择,或者装置本身可以(例如,随机地)选择第二神经网络的第一中间/隐藏层,并且然后为相应视频帧识别来自第二神经网络的第一层的第一向量输出。然后,使用可以是域分类器的第三神经网络,装置可以确定第一向量输出是来自第一神经网络还是来自第二神经网络。

如果第三神经网络确定第一向量输出是来自第二神经网络(例如,视频游戏视频域),则第三神经网络不会被混淆,并且因此第二神经网络的第一层的一个或多个权重可以进行调整以随后使其在再次运行时混淆第三神经网络,从而使第三神经网络将来自第二神经网络的第一层的第二向量输出归类为实际上是来自第一神经网络的向量输出而不是来自第二神经网络的向量输出。但是,如果该第二向量输出仍被归类为是来自第二神经网络的向量输出,则可以将调整后的第一层的权重还原回其先前的值,并且相反地可以选择第二神经网络的另一层并重复该过程。

但是,如果不是紧接在上面的段落,第三神经网络将来自第二神经网络的第一层的第一向量输出归类为实际上是来自第一神经网络(例如,真实世界的视频域)的输出,则装置可以拒绝调整第二神经网络的第一层的一个或多个权重,因为第二神经网络的第一层已经至少进行了某种程度的优化(例如,优化到足以使第三神经网络混淆为认为来自第二神经网络的第一向量输出实际上来自第一神经网络)。如果需要,则可以选择另一个隐藏层,并且可以对第二神经网络的另一个隐藏层重复该过程。

因此,使用动作识别的示例,如果通过域分类器/第三神经网络将游戏数据输出归类为是来自游戏域,则可以使用“反”损失函数经由域分类器/第三神经网络的梯度逆转层调整游戏域的隐藏层的权重,以达到使域分类器/第三神经网络将后续游戏数据输出归类为是来自真实生活视频域的目的。

还应注意,与域分类器方法有关的前述内容可以在对第三神经网络本身(域分类器)进行了初始训练并针对精确度进行了优化之后执行。在训练第三神经网络的该初始阶段期间,当第三神经网络错误地将已标记数据的向量输出归类为是来自一个域,而实际上却是针对每个标签来自另一个域时,则第三神经网络可能会不受监督地进行自我校正。

因此,第三神经网络的权重最初可以是随机的,并且然后在自我校正期间,可以进行来自第三神经网络的输出层的反向传播以调整第三神经网络的权重并且因此优化(将建立域分类器的)第三神经网络本身,以将来自隐藏层或输出层的输出正确地归类为是来自一个域或另一个域。

现在将参考图7描述以上参考的跨域批量归一化(CDBN)方法,以阐明根据本发明原理的域适配的另一个版本,再次参考视频数据作为示例。本申请认识到,也可以对最初用于改进优化的批量归一化(BN)本身进行修改以对域适配有益。为此,CDBN方法可以将CBDN模块800(图8)应用于空间区域提取网络(SREN)802和视频模型804两者。使用CDBN,一种机制可以适应性地选择域统计信息以对输入进行归一化,这可以减少不同视频类型之间的分布差异。因此,该CDBN与普通BN的区别之一是CDBN计算两种统计信息:一种用于源分支,而另一种用于目标分支。如根据本实施方案的图8的示例架构所示,用比率为α(阿尔法)的源数据和目标数据的混合来计算两种统计信息。

现在描述用于CDBN方法的图7的示例逻辑,自如上所述的框212,逻辑可以在框700处通过在如图8所示的空间模块中的全连接层806之后添加CDBN而开始。然后,在框702处的训练期间,模型可以学习最佳比率α(阿尔法)以对源分支和目标分支两者的数据进行归一化。然后,在框704处的测试期间,可以使用α(阿尔法)和针对目标分支的统计信息来对针对源分支的统计信息和针对目标分支的统计信息进行归一化。然后,在框706处,可以将熵损失808相加以分离未标记的目标数据。

因此,实施本发明原理的装置可以访问与第一数据类型相关联的第一神经网络,访问与第二数据类型相关联的第二神经网络,并将第一训练数据作为输入提供给第一神经网络。装置还可以将第二不同训练数据作为输入提供给第二神经网络。装置然后可以基于第一训练数据来识别来自第一神经网络的中间层的第一输出,并且基于第二训练数据来识别来自第二神经网络的平行中间层的第二输出。装置然后可以识别用于对第一输出和第二输出进行归一化的比率,并应用将所述比率考虑在内的方程式来改变第二神经网络的中间层的一个或多个权重。

比率可以与平均值有关,并且在一些示例中,可以分析第一输出与第二输出之间的均值和方差两者以应用方程式。可以识别比率,并且可以使用跨域批量归一化(CDBN)来应用方程式,以在来自平行中间层的输出之间具有相似的均值和方差。

与其他方法一样,在将第二训练数据提供给第二神经网络之前,可以通过第一神经网络的副本来建立CDBN方法的第二神经网络。此外,在一些示例中,第一神经网络和第二神经网络可以与动作识别有关,并且第一训练数据可以与第二训练数据有关,因为第一训练数据和第二训练数据两者都可以与同一动作有关。在其他示例中,第一神经网络和第二神经网络可以与对象识别有关,并且第一训练数据可以与第二训练数据有关,因为第一训练数据和第二训练数据两者都可以与同一对象有关。

基于参考图2至图8的前述描述,现在应了解,所提出的(一个或多个)框架既是通用的又是灵活的。可以将许多说话者/用户适配算法应用于该框架,具有对域丢失中的一个或多个或者源/目标模型中的一部分的轻微修改。例如,在说话者适配中,可以将对抗损失定义为说话者分类错误,使得源模型学习的深层特征将变得对声学单位(例如诸如音素或单词)具有判别力并且对说话者具有不变性。

现在将描述结合了本发明原理的应用和示例。

可以在所有可能的基于深度学习的方法中使用本发明原理来进行图像、视频和音频数据处理等等。

对于游戏对象和/或动作检测,可以收集游戏视频并开发高效数据准备工具,以遵循协议用另一个现有视频数据集将原始视频转换为处理后的数据集。可以将其与真实世界视频数据集“Kinetics”结合起来,以形成用于域适配的第一动作识别数据集。本发明原理可用于识别真实世界和游戏世界两者中的多个对象和动作,并且还可用于评估数据集并增强数据集生成。

对于光学字符识别,可以使用本发明原理来识别不同的手写样式,包括标准字体、艺术体文本、游戏中的字体等。

对于语音转换,可以使用本发明原理将一个说话者的语音转换为另一说话者的语音。

为了使说话者适配于语音识别,通过用语音频谱图代替输入,可以将本发明原理用于与音频有关的任务。在说话者适配中,可以使用许多说话者的语音来预训练源模型,并且目标域可能仅包含来自新说话者的一些话语。在这种情况下,目标域模型可以由源模型初始化。在适配期间,可以对目标域数据的分类损失以及源模型与目标模型之间的差异损失进行联合优化。差异损失可以是源模型与目标模型之间的参数差异,也可以是源和目标模型输出之间的电话分布距离。

对于用于情绪识别的多模式用户适配(例如,输入为文本、图像、视频和具有情绪输出的语音),在给定用户的语音或视频片段(或两者)的情况下,域适配模块可以使一个用户的样式适配于另一个用户,因此用户适配可以改进不在训练集中的新说话者的情绪识别精确度。此外,空间区域提取网络可用于检测多种面部表情,因此可以从具有不同样式的多个人中识别出情绪。

现在将进一步详细论述用于游戏世界与真实世界之间的动作识别的域适配,其中已经在图4、图6和图8中示出了要根据这种类型的域适配使用的示例架构。

在游戏行业中,视频和音频可能是两个独立的过程。游戏通常初始地是在没有音频的情况下设计和制作的,并且然后音频小组调查整个游戏视频,并从游戏的音效(SFX)数据库中插入对应SFX。可以根据本发明原理开发算法,以使机器自动分析来自游戏视频的视觉内容,并且然后将对应SFX与分析结果进行匹配以优化过程。

深度学习技术还可用于分析游戏视频内容。动作识别是SFX匹配的重要任务,因为大多数重要音效都与角色的动作相关。对于使用深度学习方法的动作识别,可以将那些方法应用于识别游戏中的动作,并自动识别和定位与对应动作相关的SFX,以加快游戏制作过程。

不幸的是,大多数(如果不是全部)现有的动作识别系统都用于真实世界视频,这意味着它们都可以示出真实世界数据集的性能。那些训练后的模型不能直接用于游戏视频,因为存在巨大的分布差异,也称为数据集移位或数据集偏差。因此,通过使用本发明原理,可以使用从游戏视频中收集的数据来训练模型,使用域适配来减少针对视频任务包括针对动作识别的深层架构的数据集移位的影响。

下面将参考图9和图10的流程图所示的逻辑,将模型描述为学习游戏视频与真实世界视频之间的域关系。

对于真实动作数据集,可以收集游戏视频并且可以开发高效数据准备工具,以遵循公共协议用另一个现有视频数据集将原始视频转换为处理后的数据集,如图9的框900所反映。然后可以将其与真实世界视频数据集“Kinetics”结合起来以形成用于域适配的第一动作识别数据集,如图9的框902所反映。

然后,根据图9的框904,例如在没有任何域适配技术用于公平比较的情况下,可以提供基线方法用于动作识别。然后,对于视频域适配,可以开发将(例如,基于差异、基于对抗和基于归一化的)几个域适配技术集成到管线中以通过基线改进性能的第一动作识别架构,如图9的框906所反映。

因此,如图11所示,可以建立用于动作识别的基线架构。可以将输入的原始视频前馈到101层ResNet,以提取帧级特征向量。特征向量的数量可以对应于视频帧的数量。然后可以对特征向量进行均匀采样并将其馈入模型。如图11所示,整个模型可以分为两部分---空间模块1100和时间模块1102。空间模块可以包括一个全连接层1104、一个整流线性单元(ReLU)1106和一个脱落层1108。空间模块可以将通用特征向量1110转换为任务驱动特征向量,其可以是动作识别。时间模块1102旨在聚集帧级特征向量以形成单个视频级特征向量以表示每个视频。可以沿着时间方向为所有特征元件计算平均值,以生成视频级特征向量。有时将这种技术称为时间池。然后,可以将视频级特征向量馈送到最后一个全连接层1112作为分类器,以生成预测1114。预测可用于计算分类损失,并且然后用于优化整个模型。

然后,根据图10的框1000,可以将如本文所述的一种或多种域适配(DA)方法集成到基线架构中:基于差异的域适配,基于对抗的域适配和基于归一化的域适配(如图4、图6和图8中分别示出的)。然后可以遵循无监督域适配协议,其中训练数据包括来自源域的已标记数据和来自目标域的未标记数据(根据图10的框1002),而测试数据可以全部来自目标域(根据图10的框1004)。有关根据针对动作识别的该示例的域适配方法的进一步详细信息,请参考回图2至图8及其对应描述。

然后,为了评估各种域适配方法的性能,数据集可以包括虚拟域和真实域两者中的数据。然后可以从几个游戏中收集游戏视频,以构建用于虚拟域的游戏动作数据集。作为示例,视频的总长度可以为五个小时四十一分钟。可以根据注释将所有原始和未修剪的视频分割为视频片段。每个视频片段的总长度可以是10秒,并且最小长度可以是1秒。通过以7:2:1的比率随机选择每个类别中的视频,整个数据集也可以分为训练集、验证集和测试集。对于真实域,可以使用Kinetics-600。

通过遵循域适配的封闭设置,可以在虚拟域与真实域之间选择三十个重叠类别。类别可以包括例如休息、携带、清洁地板、攀爬、爬行、蹲下、哭泣、跳舞、喝酒、开车、摔倒、打架、拥抱、跳跃、踢、开灯、新闻主播、开门、油漆刷、滑翔伞、倒、推、阅读、跑步、射击、凝视、交谈、投掷、行走、洗碗。每个类别可以对应于Kinetics-600或虚拟/游戏数据集中的多个类别。例如,类别“阅读”可以对应于Kinetics-600中的阅读书籍和阅读报纸的类别。

然后,可以用两个域来构建视频游戏真实动作数据集。对于虚拟域,可能总共有2625个训练视频和749个验证视频。对于真实世界域,可以为每个类别随机选择100个视频,以在真实域与虚拟域之间保持相似规模的训练数据,并且可以使用来自原始Kinetics-600设置的所有验证视频。总共可能有3000个视频用于训练,而3256个视频用于验证。此外,可能还会有542个视频用于纯测试。

然后可以在自我收集的虚拟数据集上评估所提出的域适配方法。在一些示例中,实现方式可以基于PyTorch框架。可以利用在ImageNet原始视频1118上预训练的ResNet-101 1116模型作为帧级特征提取器。在馈入模型之前,可以对每个视频在时间方向上具有相等空间的固定数量的帧级特征向量进行采样。为了充分比较,可以通过遵循动作识别中的公共协议对二十五个帧进行采样以进行测试。对于训练,给定计算资源的任何限制,可以仅采样五个帧。为了优化,初始学习速率可以是0.1,并且可以遵循学习速率降低策略。随机梯度下降(SGD)可以用作优化器,其动量和权重衰减为0.9和1×10-4。批量大小可能是512,其中一半可能来自已标记的源数据,而一半可能来自未标记的目标数据。

然后,可以遵循无监督域适配的实验协议,并且具有以下实验设置(其中所有设置都可以在虚拟验证集上进行测试):Oracle,用已标记虚拟训练集进行训练,而无需任何域适配方法;仅源,用已标记真实动作训练集进行训练,而无需任何域适配方法;基于差异的域适配,用具有基于差异的域适配方法的已标记真实动作训练集和未标记虚拟训练集进行训练;基于对抗的域适配,用具有基于对抗的域适配方法的已标记真实动作训练集和未标记虚拟训练集进行训练;以及基于归一化的域适配,用具有基于归一化的域适配方法的已标记真实动作训练集和未标记虚拟训练集进行训练。

示例结果示出于图12中。Oracle 1200与仅源设置1202之间的区别是用于训练的域。首先,可以将Oracle设置视为没有域移位问题的上限,而仅源设置示出下限,所述下限直接应用使用来自不同域的数据训练的模型。如图所示,精确度差异为百分之五十。图12还示出了本文公开的三种域适配方法1204中的每一种都可以减轻域移位问题。其中,在该示例中,基于归一化的域适配具有最佳性能,从而将精确度提高了9.2%。

现在将进一步详细地论述用于情绪识别的域适配。在给定有限的用户特定音频和视频样本的情况下,可以改进多模式情绪识别精确度。使用例如仅音频、仅视频、或者音频和视频数据两者一起以及适合根据本发明原理的通用域适配框架的用户适配结构,用户适配可能有助于基于深度学习的情绪识别精确度。

图13描绘了该示例的基线模型结构,其中进一步参考了图14的流程图中反映的逻辑。相同的模型结构可用于音频和视频情绪识别。

首先,可以从原始数据1302提取特征序列1300(图13),如图14的框1400所反映。然后,可以由多个说话者训练数据集来训练说话者无关(SI)模型1304,如图14的框1402所反映。模型结构可以包含三个双向长短期存储器(BLSTM)层1306的堆栈,并且每个层1306在每个方向可以具有512个单元。可以逐帧将特征发送到模型,并且在图14的框1404处,时间平均层1308可以将最后LSTM层隐藏状态的时间平均当作话语嵌入。然后,在框1406处可以使用全连接层1310将1024维嵌入减少为256个维度,并且然后在框1408处使其穿过softmax分类器1312以将嵌入转换为后验情绪概率。可以通过使交叉熵误差最小化来训练模型。

因此,可以使用音频和视频数据来训练单独的模型。在测试期间,在预处理步骤中每个音频和视频测试数据对可以对相同话语对齐。对于每对,可以从两个模型中计算出情绪后验概率,并对其进行平均以获得进行决策的最终概率。该方法可以被称为“决策融合”。

图15描绘了该示例的用户适配结构,其中进一步参考了图16的流程图中反映的逻辑。为了使用来自该新说话者的有限适配数据来将预训练的SI模型适配给新用户,可以在图16的框1600处从SI模型1502初始化说话者相关(SD)模型1500(顶部分支)。对于用户适配,实际应用有时可能意味着在适配期间只能使用目标(新用户)适配数据。因此,可能不像通用结构那样使用源数据(用于训练SI模型的许多说话者)。

损失函数可以包括两项的和,其中一项是为目标域数据定义的交叉熵分类损失,而另一项是源模型与目标模型之间的模型参数L2距离,这可能类似于通用结构中的差异损失。通过分别在框1602和1604处联合优化这两项,目标模型可以在框1606处学习为每个新用户正确分类情绪,并且还可以避免被适配为与源模型相距太远。由于例如仅使用目标域数据,因此图15中的用户适配结构可以修改通用结构,使得可以仅针对目标数据定义分类错误。用户适配结构还可以经由采用特定形式的差异损失来修改通用结构,所述特定形式可以是源模型与目标模型之间的L2范数。

作为根据本发明原理的示例,可以收集八十四个说话者的音频情绪记录,以用于训练音频SI模型。为了测试,可以使用另外五个没有出现在训练集中的说话者。数据库中可能有十个情绪类别。可以将它们合并为六个类别,包括快乐、愤怒、悲伤、恐惧、惊喜及其他(包括例如兴奋、无聊、中立、失望、恶心),并且可以报告未加权的精确度,其可以计算为这六个类别的单独精确度的平均。对于视频数据,可以收集114个说话者以进行训练。为了测试,可以使用相同的五个说话者的测试集,其中音频和视频已对每个话语对齐。

然后,要进行用户适配,可以为五个测试说话者中的每一个随机选择多达150个话语作为最大适配集。剩余的话语可以用于测试。五个测试说话者总共可能有2661个话语,因此在为每个说话者删除150个适配话语之后,可能仍然有1911个话语用于测试,这可能会使结果在该示例中具有统计意义。

每个说话者的适配数据的数量也可以从五个到150个话语变化。为了比较结果,可以从150个话语中选择所有较小的适配集,使得测试集可以相同。

使用适配数据,可以分别适配音频和视频模型,并且在测试时,可以测试单独模型性能以及决策融合性能。可以使用四十维log-mel滤波器组音频特征,以及附加的帧能量、一阶和二阶增量(总共123个维度)。音频帧长度可以是25ms,并且每10ms移位一次。针对每帧可以从VGG模型的最后一层(1024个维度)中提取视频特征。VGG模型可以在FERPlus数据集上进行预训练,所述FERPlus数据集是用于面部表情识别的数据集。136维界标面部点也可以附加到每个帧。

为了模型训练和适配,可以使用40个话语/视频的小批量大小,具有用于使损失函数最小化的Adam优化器。训练SI模型时的初始学习率可以设置为0.001,并且当开发集上的分类精确度下降时,可以将其乘以0.1。为了适配,学习率可以固定在0.001,可以为5个历元适配音频模型,并且可以在适配集上为25个历元适配视频模型。

图17示出了用户适配之前和之后测试集上的示例六类情绪识别精确度的表格。SI_A、SI_V和SI_AV指的是SI模型的性能、仅使用音频、仅视频和决策融合。类似地,SD_A、SD_V和SD_AV示出适配之后的结果。应了解,对于每个单独的模态,用户适配可以改进基线性能,并且更多的适配数据产生更好的识别精确度。同样,与仅使用单一模态相比,决策融合可以提供更好的精确度。

继续到图18,它示出了根据本发明原理的域适配模块1800一起使用的所有三种域适配方法,以优化从第二(源)域1804导出的第一(目标)域1802。

从前面的详细描述中应了解,本发明原理因此通过本文描述的技术解决方案改进了神经网络的适配和训练。

应了解,虽然已经参考一些示例实施方案描述了本发明原理,但这些实施方案并不意图为限制性的,并且可使用各种替代布置来实现本文所要求保护的主题。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号