首页> 中国专利> 一种训练文本图像生成模型、文本图像生成的方法和装置

一种训练文本图像生成模型、文本图像生成的方法和装置

页面导航

摘要
著录项
说明书
相似文献

摘要

本申请公开了一种训练文本图像生成模型、文本图像生成的方法和装置，训练文本图像生成模型方法包括：将待训练文本输入文本编码器获得文本向量；利用文本向量和待训练文本的标签图像，训练多级生成式对抗网络获得文本图像生成模型。文本图像生成方法包括：确定待生成图像的目标文本；利用文本编码器处理目标文本获得目标文本向量；将目标文本向量输入上述文本图像生成模型，生成目标文本对应的目标图像。由于文本图像生成模型是多级生成式对抗网络，渐进式学习待训练文本到其标签图像之间的关联，能够生成高分辨率图像；因此，利用该文本图像生成模型处理目标文本对应的目标文本向量，获得的目标文本对应的目标图像分辨率较高。

著录项

公开/公告号CN112669215A

专利类型发明专利
公开/公告日2021-04-16

原文格式PDF
申请/专利权人北京金山云网络技术有限公司;
展开▼

申请/专利号CN202110008742.9
发明设计人李虎;
展开▼

申请日2021-01-05
分类号G06T3/40(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11227 北京集佳知识产权代理有限公司;
代理人储倩
地址 100085 北京市海淀区西二旗中路33号院4号楼6层006号
入库时间 2023-06-19 10:38:35

说明书

技术领域

本申请涉及数据处理技术领域，尤其涉及一种训练文本图像生成模型、文本图像生成的方法和装置。

背景技术

随着机器学习的快速发展，一般通过生成式对抗网络生成与文本内容相对应的图像。该生成式对抗网络包括生成网络和判别网络，将文本的特征输入生成式对抗网络，通过生成网络和判别网络互相博弈学习能够产生相当好的图像输出。

但是，发明人经过研究发现，上述生成式对抗网络是一级生成式对抗网络，仅通过一级生成式对抗网络生成文本内容相对应的图像，在生成图像时极其容易产生突变的纹理信息，生成的图像分辨率较低、图像质量较差。

发明内容

有鉴于此，本申请实施例提供一种训练文本图像生成模型、文本图像生成的方法和装置，使得训练获得的文本图像生成模型能够生成高分辨率图像，利用该文本图像生成模型得到的生成图像分辨率较高、图像质量较高。

第一方面，本申请实施例提供了一种训练文本图像生成模型的方法，所述方法包括：

利用文本编码器处理待训练文本获得文本向量；

基于所述文本向量和所述待训练文本的标签图像，训练多级生成式对抗网络获得文本图像生成模型。

可选的，所述基于所述文本向量和所述待训练文本的标签图像，训练多级生成式对抗网络获得文本图像生成模型，包括：

拼接所述文本向量和第一随机向量获得第一个拼接向量；

基于所述第一个拼接向量和所述待训练文本的标签图像，训练第一级生成式对抗网络；

基于所述文本向量和第k-1级生成式对抗网络输出的第k-1个生成图像，获得第k个拼接向量，k为正整数，k≥2；

基于所述第k个拼接向量和所述待训练文本的标签图像，训练第k级生成式对抗网络；

将训练完成的多级生成式对抗网络作为所述文本图像生成模型。

可选的，所述基于所述第一个拼接向量和所述待训练文本的标签图像，训练第一级生成式对抗网络，包括：

利用所述第一级生成式对抗网络中生成网络处理所述第一个拼接向量，生成第一个生成图像；

按照所述第一个生成图像的尺寸对所述待训练文本的标签图像进行采样，获得第一个标签图像；

利用所述第一级生成式对抗网络中判别网络处理所述第一个生成图像和所述第一个标签图像，获得所述第一个生成图像的判别概率和所述第一个标签图像判别概率；

基于所述第一个生成图像的判别概率和所述第一个标签图像判别概率，调整所述第一级生成式对抗网络的网络参数。

可选的，所述基于所述第k个拼接向量和所述待训练文本的标签图像，训练第k级生成式对抗网络，包括：

利用所述第k级生成式对抗网络中生成网络处理所述第k个拼接向量，生成第k个生成图像；

按照所述第k个生成图像的尺寸对所述待训练文本的标签图像进行采样，获得第k个标签图像；

利用所述第k级生成式对抗网络中判别网络处理所述第k个生成图像和所述第k个标签图像，获得所述第k个生成图像的判别概率和所述第k个标签图像判别概率；

基于所述第k个生成图像的判别概率和所述第k个标签图像判别概率，调整所述第k级生成式对抗网络的网络参数。

可选的，所述基于所述文本向量和第k-1级生成式对抗网络输出的第k-1个生成图像，获得第k个拼接向量，包括：

利用图像编码器处理所述第k-1个生成图像获得第k-1个图像向量；

拼接所述文本向量和所述第k-1个图像向量获得第k个拼接向量。

可选的，所述利用文本编码器处理待训练文本获得文本向量，包括：

利用所述文本编码器的嵌入层处理所述待训练文本获得文本嵌入向量；

利用所述文本编码器的全连接层压缩所述文本嵌入向量获得所述文本向量。

可选的，所述训练完成条件为所述多级生成式对抗网络收敛；或，所述训练完成条件为所述多级生成式对抗网络的训练迭代次数大于等于预设训练迭代次数。

第二方面，本申请实施例提供了一种文本图像生成的方法，所述方法包括：

确定待生成图像的目标文本；

利用文本编码器处理所述目标文本获得目标文本向量；

将所述目标文本向量输入文本图像生成模型，生成所述目标文本对应的目标图像；

其中，所述文本图像生成模型为第一方面任一项所述的文本图像生成模型。

可选的，所述将所述目标文本向量输入所述文本图像生成模型，生成所述目标文本对应的目标图像，包括：

拼接所述目标文本向量和第二随机向量获得第一个目标拼接向量；

利用所述文本图像生成模型中第一级生成式对抗网络处理所述第一个目标拼接向量，生成第一个目标生成图像；

基于所述目标文本向量和所述文本图像生成模型中第k-1级生成式对抗网络输出的第k-1个目标生成图像，获得第k个目标拼接向量，k为正整数，k≥2；

利用所述文本图像生成模型中第k级生成式对抗网络处理所述第k个目标拼接向量，生成第k个目标生成图像；

将所述文本图像生成模型中最后一级生成式对抗网络生成目标生成图像作为所述目标文本对应的目标图像。

可选的，所述基于所述目标文本向量和所述文本图像生成模型中第k-1级生成式对抗网络输出的第k-1个目标生成图像，获得第k个目标拼接向量，包括：

利用图像编码器处理所述第k-1个目标生成图像获得第k-1个目标图像向量；

拼接所述目标文本向量和所述第k-1个目标图像向量获得第k个目标拼接向量。

第三方面，本申请实施例提供了一种训练文本图像生成模型的装置，所述装置包括：

第一获得单元，用于利用文本编码器处理待训练文本获得文本向量；

第二获得单元，用于基于所述文本向量和所述待训练文本的标签图像，训练多级生成式对抗网络获得文本图像生成模型。

可选的，所述第二获得单元包括：

第一获得子单元，用于拼接所述文本向量和第一随机向量获得第一个拼接向量；

第一训练子单元，用于基于所述第一个拼接向量和所述待训练文本的标签图像，训练第一级生成式对抗网络；

第二获得子单元，用于基于所述文本向量和第k-1级生成式对抗网络输出的第k-1个生成图像，获得第k个拼接向量，k为正整数，k≥2；

第二训练子单元，用于基于所述第k个拼接向量和所述待训练文本的标签图像，训练第k级生成式对抗网络；

第一作为子单元，用于将训练完成的多级生成式对抗网络作为所述文本图像生成模型。

可选的，所述第一训练子单元包括：

第一生成模块，用于利用所述第一级生成式对抗网络中生成网络处理所述第一个拼接向量，生成第一个生成图像；

第一获得模块，用于按照所述第一个生成图像的尺寸对所述待训练文本的标签图像进行采样，获得第一个标签图像；

第二获得模块，用于利用所述第一级生成式对抗网络中判别网络处理所述第一个生成图像和所述第一个标签图像，获得所述第一个生成图像的判别概率和所述第一个标签图像判别概率；

第一调整模块，用于基于所述第一个生成图像的判别概率和所述第一个标签图像判别概率，调整所述第一级生成式对抗网络的网络参数。

可选的，所述第二训练子单元包括：

第二生成模块，用于利用所述第k级生成式对抗网络中生成网络处理所述第k个拼接向量，生成第k个生成图像；

第三获得模块，用于按照所述第k个生成图像的尺寸对所述待训练文本的标签图像进行采样，获得第k个标签图像；

第四获得模块，用于利用所述第k级生成式对抗网络中判别网络处理所述第k个生成图像和所述第k个标签图像，获得所述第k个生成图像的判别概率和所述第k个标签图像判别概率；

第二调整模块，用于基于所述第k个生成图像的判别概率和所述第k个标签图像判别概率，调整所述第k级生成式对抗网络的网络参数。

可选的，所述第二获得子单元包括：

第五获得模块，用于利用图像编码器处理所述第k-1个生成图像获得第k-1个图像向量；

第六获得模块，用于拼接所述文本向量和所述第k-1个图像向量获得第k个拼接向量。

可选的，所述第一获得单元包括：

第三获得子单元，用于利用所述文本编码器的嵌入层处理所述待训练文本获得文本嵌入向量；

第四获得子单元，用于利用所述文本编码器的全连接层压缩所述文本嵌入向量获得所述文本向量。

第四方面，本申请实施例提供了一种文本图像生成的装置，所述装置包括：

确定单元，用于确定待生成图像的目标文本；

第三获得单元，用于利用文本编码器处理所述目标文本获得目标文本向量；

生成单元，用于将所述目标文本向量输入文本图像生成模型，生成所述目标文本对应的目标图像；

其中，所述文本图像生成模型为第一方面任一项所述的文本图像生成模型。

可选的，所述生成单元包括：

第五获得子单元，用于拼接所述目标文本向量和第二随机向量获得第一个目标拼接向量；

第一生成子单元，用于利用所述文本图像生成模型中第一级生成式对抗网络处理所述第一个目标拼接向量，生成第一个目标生成图像；

第六获得子单元，用于基于所述目标文本向量和所述文本图像生成模型中第k-1级生成式对抗网络输出的第k-1个目标生成图像，获得第k个目标拼接向量，k为正整数，k≥2；

第二生成子单元，用于利用所述文本图像生成模型中第k级生成式对抗网络处理所述第k个目标拼接向量，生成第k个目标生成图像；

第二作为子单元，用于将所述文本图像生成模型中最后一级生成式对抗网络生成目标生成图像作为所述目标文本对应的目标图像。

可选的，所述第六获得子单元包括：

第七获得模块，用于利用图像编码器处理所述第k-1个目标生成图像获得第k-1个目标图像向量；

第八获得模块，用于拼接所述目标文本向量和所述第k-1个目标图像向量获得第k个目标拼接向量。

第五方面，本申请实施例提供了一种终端设备，所述终端设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行第一方面任一项所述的训练文本图像生成模型的方法或第二方面任一项所述的文本图像生成的方法。

第六方面，本申请实施例提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面任一项所述的训练文本图像生成模型的方法或第二方面任一项所述的文本图像生成的方法。

与现有技术相比，本申请至少具有以下优点：

采用本申请实施例的技术方案，将待训练文本输入文本编码器获得文本向量；利用文本向量和待训练文本的标签图像，训练多级生成式对抗网络获得文本图像生成模型。可见，通过多级生成式对抗网络中每一级生成式对抗网络，渐进式学习待训练文本到其标签图像之间的关联，使得每一级生成式对抗网络的生成图像的分辨率逐渐增大，避免产生突变的纹理信息，从而使得训练获得的文本图像生成模型能够生成高分辨率图像。

此外，在本申请另一实施例中，确定待生成图像的目标文本；利用文本编码器处理目标文本获得目标文本向量；将目标文本向量输入上述文本图像生成模型，生成目标文本对应的目标图像。由于文本图像生成模型是多级生成式对抗网络，能够生成高分辨率图像；因此，利用该文本图像生成模型处理目标文本对应的目标文本向量，获得的目标文本对应的目标图像分辨率较高，即，目标图像的图像质量较高。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本申请实施例中一种应用场景所涉及的系统框架示意图；

图2为本申请实施例提供的一种训练文本图像生成模型的方法的流程示意图；

图3为本申请实施例提供的一种训练文本图像生成模型的架构示意图；

图4为本申请实施例提供的一种文本图像生成的方法的流程示意图；

图5为本申请实施例提供的一种训练文本图像生成模型的装置的结构示意图；

图6为本申请实施例提供的一种文本图像生成的装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

现阶段，一般是通过一级生成式对抗网络生成与文本内容相对应的图像，仅由一级生成式对抗网络在学习文本与对应的图像之间关联，在生成图像时极其容易产生突变的纹理信息，生成的图像分辨率较低、图像质量较差。

为了解决这一问题，在本申请实施例中，将待训练文本输入文本编码器获得文本向量；利用文本向量和待训练文本的标签图像，训练多级生成式对抗网络获得文本图像生成模型。可见，通过多级生成式对抗网络中每一级生成式对抗网络，渐进式学习待训练文本到其标签图像之间的关联，使得每一级生成式对抗网络的生成图像的分辨率逐渐增大，避免产生突变的纹理信息，从而使得获得的文本图像生成模型能够生成高分辨率图像。

举例来说，本申请实施例的场景之一，可以是应用到如图1所示的场景中，该场景包括终端设备101和处理器102。终端设备101收集待训练文本和其标签图像并发送至处理器102，处理器102采用本申请实施例提供的实施方式获得文本图像生成模型并存储。当终端设备101将待生成图像的目标文本发送至处理器102时，处理器102利用上述文本图像生成模型采用本申请实施例提供的另一实施方式，生成该目标文本对应的目标图像并返回至终端设备101，以便终端设备101显示该目标图像。

首先，在上述应用场景中，虽然将本申请实施例提供的实施方式的动作描述由处理器102执行；但是，本申请实施例在执行主体方面不受限制，只要执行了本申请实施例提供的实施方式所公开的动作即可。

其次，上述场景仅是本申请实施例提供的一个场景示例，本申请实施例并不限于此场景。

下面结合附图，通过实施例来详细说明本申请实施例中训练文本图像生成模型、文本图像生成的方法和装置的具体实现方式。

参见图2，示出了本申请实施例中一种训练文本图像生成模型的方法的流程示意图。在本实施例中，所述方法例如可以包括以下步骤：

步骤201：利用文本编码器处理待训练文本获得文本向量。

在本申请实施例中，为了通过生成式对抗网络生成与文本内容相对应的图像，需要收集大量的文本和该文本的文本内容相对应的图像，作为待训练文本和待训练文本的标签图像；上述数据用于训练生成式对抗网络，以便生成式对抗网络学习待训练文本到其标签图像之间的关联，获得文本图像生成模型，该文本图像生成模型用于生成与文本内容相对应的图像。

其中，在待训练文本和待训练文本的标签图像训练生成式对抗网络过程中，首先需要提取待训练文本中文本内容的相关特征形成文本向量，一般是采用文本编码器处理待训练文本得到文本向量；即，执行步骤201。

在本申请实施例中，步骤201具体实施时，例如可以构建文本编码器包括嵌入层和全连接层，该嵌入层连接该全连接层，该嵌入层用于对待训练文本进行编码，以提取器文本内容的相关特征得到文本嵌入向量；该全连接层用于对文本嵌入向量进行压缩，以得到符合生成式对抗网络输入向量维度要求的文本向量。因此，在本申请实施例一种可选的实施方式中，所述步骤201例如可以包括以下步骤：

步骤A：利用所述文本编码器的嵌入层处理所述待训练文本获得文本嵌入向量。

步骤B：利用所述文本编码器的全连接层压缩所述文本嵌入向量获得所述文本向量。

在本申请实施例中，作为一种示例，所述文本编码器例如可以是字符级卷积神经网络-循环神经网络(英文：character-Convolutional Neural Networks-RecurrentNeural Network，缩写：char-CNN-RNN)。

步骤202：基于所述文本向量和所述待训练文本的标签图像，训练多级生成式对抗网络获得文本图像生成模型。

为了解决生成式对抗网络为一级生成式对抗网络时，仅由一级生成式对抗网络在学习文本与对应的图像之间关联，在生成图像时极其容易产生突变的纹理信息，生成的图像分辨率较低、图像质量较差的问题。在本申请实施例中，考虑采用多级生成式对抗网络，通过多级生成式对抗网络中每一级生成式对抗网络，渐进式学习待训练文本到其标签图像之间的关联，使得每一级生成式对抗网络的生成图像的分辨率逐渐增大，避免产生突变的纹理信息，从而使得获得的文本图像生成模型能够生成高分辨率图像。即，在步骤201之后，执行步骤202。

在本申请实施例中，步骤202具体实施时，对于多级生成式对抗网络中第一级生成式对抗网络而言，首先，获得第一级生成式对抗网络的训练数据，为了使得第一级生成式对抗网络中生成网络能够基于文本向量生成对应的图像，除文本向量之外，还需要获得一个随机向量，作为第一随机向量，以便第一级生成式对抗网络中生成网络基于第一随机向量能够生成图像中细节信息；具体地，将文本向量和第一随机向量拼接得到一个拼接向量，作为第一个拼接向量；其中，第一随机向量服从正态分布，其向量维度与文本向量的向量维度相同。然后，将第一个拼接向量和待训练文本的标签图像作为第一级生成式对抗网络的训练数据的训练数据，训练第一级生成式对抗网络。

对于多级生成式对抗网络中第二级生成式对抗网络、第三级生成式对抗网络等等而言，即，对于第k级生成式对抗网络而言，k为大于等于2正整数；首先，获得第k级生成式对抗网络的训练数据，为了使得第k级生成式对抗网络中生成网络能够基于文本向量生成对应的图像，除文本向量之外，还需要获得第k-1级生成式对抗网络输出的第k-1个生成图像，以便第k级生成式对抗网络中生成网络基于第k-1个生成图像能够生成图像中细节信息；具体地，通过文本向量和第k-1个生成图像，得到一个拼接向量作为第k个拼接向量。然后，将第k个拼接向量和待训练文本的标签图像作为第k级生成式对抗网络的训练数据的训练数据，训练第k级生成式对抗网络。

因此，在本申请实施例一种可选的实施方式中，所述步骤202例如可以包括以下步骤：

步骤C：拼接所述文本向量和第一随机向量获得第一个拼接向量。

步骤D：基于所述第一个拼接向量和所述待训练文本的标签图像，训练第一级生成式对抗网络。

其中，步骤D具体实施时，首先，将第一个拼接向量输入第一级生成式对抗网络中生成网络，该生成网络能够输出一个生成图像，作为第一个生成图像，该第一个生成图像的尺寸小于待训练文本的标签图像的尺寸。其次，基于上述说明，需要从待训练文本的标签图像中采样得到一个与第一个生成图像的尺寸大小相同的图像，作为第一个标签图像。然后，将第一个生成图像、第一个标签图像输入第一级生成式对抗网络中判别网络，该生成网络能够输出第一个生成图像的判别概率、第一个标签图像判别概率。最后，基于生成网络的目的是尽量生成足以欺骗判别网络的图像，判别网络的目的是区分生成网络所生成的图像为假、标签图像为真；需要通过第一个生成图像的判别概率、第一个标签图像判别概率以及对应的期望概率，调整第一级生成式对抗网络的网络参数，以实现对第一级生成式对抗网络的训练。因此，在本申请实施例一种可选的实施方式中，所述步骤D例如可以包括以下步骤：

步骤D1：利用所述第一级生成式对抗网络中生成网络处理所述第一个拼接向量，生成第一个生成图像。

步骤D2：按照所述第一个生成图像的尺寸对所述待训练文本的标签图像进行采样，获得第一个标签图像。

步骤D3：利用所述第一级生成式对抗网络中判别网络处理所述第一个生成图像和所述第一个标签图像，获得所述第一个生成图像的判别概率和所述第一个标签图像判别概率。

步骤D4：基于所述第一个生成图像的判别概率和所述第一个标签图像判别概率，调整所述第一级生成式对抗网络的网络参数。

步骤E：基于所述文本向量和第k-1级生成式对抗网络输出的第k-1个生成图像，获得第k个拼接向量，k为正整数，k≥2。

其中，步骤E具体实施时，第k-1个生成图像需要转化为向量后才能和文本向量进行拼接，得到第k个拼接向量。首先，需要提取待第k-1个生成图中图像内容的相关特征形成图像向量，作为第k-1个图像向量，一般是采用图像编码器处理第k-1个生成图像得到第k-1个图像向量，第k-1个图像向量的向量维度与文本向量的向量维度相同；然后，将文本向量和第k-1个图像向量拼接得到一个拼接向量，作为第k个拼接向量。因此，在本申请实施例一种可选的实施方式中，所述步骤E例如可以包括以下步骤：

步骤E1：利用图像编码器处理所述第k-1个生成图像获得第k-1个图像向量。

步骤E2：拼接所述文本向量和所述第k-1个图像向量获得第k个拼接向量。

步骤F：基于所述第k个拼接向量和所述待训练文本的标签图像，训练第k级生成式对抗网络。

其中，参见上述步骤D的具体实施方式，步骤F具体实施时，首先，将第k个拼接向量输入第k级生成式对抗网络中生成网络，该生成网络能够输出一个生成图像，作为第k个生成图像，该第k个生成图像的尺寸小于等于待训练文本的标签图像的尺寸。其次，基于上述说明，需要从待训练文本的标签图像中采样得到一个与第k个生成图像的尺寸大小相同的图像，作为第k个标签图像。然后，将第k个生成图像、第k个标签图像输入第k级生成式对抗网络中判别网络，该生成网络能够输出第k个生成图像的判别概率、第k个标签图像判别概率。最后，同样需要通过第k个生成图像的判别概率、第k个标签图像判别概率以及对应的期望概率，调整第k级生成式对抗网络的网络参数，以实现对第一级生成式对抗网络的训练。因此，在本申请实施例一种可选的实施方式中，所述步骤F例如可以包括以下步骤：

步骤F1：利用所述第k级生成式对抗网络中生成网络处理所述第k个拼接向量，生成第k个生成图像。

步骤F2：按照所述第k个生成图像的尺寸对所述待训练文本的标签图像进行采样，获得第k个标签图像。

步骤F3：利用所述第k级生成式对抗网络中判别网络处理所述第k个生成图像和所述第k个标签图像，获得所述第k个生成图像的判别概率和所述第k个标签图像判别概率。

步骤F4：基于所述第k个生成图像的判别概率和所述第k个标签图像判别概率，调整所述第k级生成式对抗网络的网络参数。

需要注意的是，其中，第k个生成图像的尺寸大于第一个生成图像的尺寸，第k个生成图像的尺寸随着k的增大而增大。作为一种示例，第一个生成图像的尺寸为4×4，第二个生成图像的尺寸为8×8，第二个生成图像的尺寸为16×16……，直到第k个生成图像的尺寸为待训练文本的标签图像的尺寸。

基于步骤C-步骤F的说明，通过多级生成式对抗网络中每一级生成式对抗网络，渐进式学习待训练文本到其标签图像之间的关联，第一级生成式对抗网络的输入为文本向量和第一随机向量拼接的第一个拼接向量，第k级生成式对抗网络的输入为通过文本向量和(k-1级)上一级生成式对抗网络的生成图像拼接的第k个拼接向量，例如，如图3所示的一种训练文本图像生成模型的架构示意图，该方式使得每一级生成式对抗网络的生成图像的分辨率逐渐增大，最终使得多级生成式对抗网络生成质量较高的高分辨率的生成图像。

步骤G：将训练完成的多级生成式对抗网络作为所述文本图像生成模型。

其中，当训练多级生成式对抗网络直至满足训练完成条件时，表示多级生成式对抗网络训练完成，则训练完成的多级生成式对抗网络即可作为文本图像生成模型。在本申请实施例一种可选的实施方式中，所述训练完成条件为所述多级生成式对抗网络收敛；或，所述训练完成条件为所述多级生成式对抗网络的训练迭代次数大于等于预设训练迭代次数。

通过本实施例提供的各种实施方式，将待训练文本输入文本编码器获得文本向量；利用文本向量和待训练文本的标签图像，训练多级生成式对抗网络获得文本图像生成模型。可见，通过多级生成式对抗网络中每一级生成式对抗网络，渐进式学习待训练文本到其标签图像之间的关联，使得每一级生成式对抗网络的生成图像的分辨率逐渐增大，避免产生突变的纹理信息，从而使得训练获得的文本图像生成模型能够生成高分辨率图像。

需要说明的是，在上述实施例得到文本图像生成模型是利用待训练文本的文本向量和标签图像，训练多级生成式对抗网络得到的，多级生成式对抗网络相较于一级生成式对抗网络，能够逐步学习待训练文本到其标签图像之间的关联，在生成图像时避免产生突变的纹理信息，使得生成图像的分辨率较高、图像质量较高。因此，当需要生成与目标文本的文本内容相对应的图像时，在采用文本编码器提取目标文本中文本内容的相关特征形成目标文本向量后，利用上述实施例得到文本图像生成模型处理目标文本向量，得到分辨率较高、图像质量较高的图像，作为目标文本对应的目标图像。

参见图4，示出了本申请实施例中另一种文本图像生成的方法的流程示意图。在本实施例中，在上述实施例所述的文本图像生成模型的基础上，所述方法例如可以包括以下步骤：

步骤401：确定待生成图像的目标文本。

步骤402：利用文本编码器处理所述目标文本获得目标文本向量。

步骤403：将所述目标文本向量输入文本图像生成模型，生成所述目标文本对应的目标图像。

在本申请实施例中，在步骤403具体实施时，拼接目标文本向量和第二随机向量获得第一个目标拼接向量，其中，第二随机向量服从正态分布，其向量维度与文本向量的向量维度相同；将第一个目标拼接向量输入文本图像生成模型中第一级生成式对抗网络，输出第一个目标生成图像；利用图像编码器处理第k-1个目标生成图像获得第k-1个目标图像向量，k为正整数，k≥2；拼接目标文本向量和第k-1个目标图像向量获得第k个目标拼接向量；将第k个目标拼接向量和所述待训练文本的标签图像输入文本图像生成模型中第k级生成式对抗网络，输出第k个目标生成图像；最终，文本图像生成模型中最后一级生成式对抗网络输出的目标生成图像，作为目标文本对应的目标图像。

因此，在本申请实施例一种可选的实施方式中，所述步骤403例如可以包括以下步骤：

步骤H：拼接所述目标文本向量和第二随机向量获得第一个目标拼接向量。

步骤I：利用所述文本图像生成模型中第一级生成式对抗网络处理所述第一个目标拼接向量，生成第一个目标生成图像。

步骤J：基于所述目标文本向量和所述文本图像生成模型中第k-1级生成式对抗网络输出的第k-1个目标生成图像，获得第k个目标拼接向量，k为正整数，k≥2。

其中，在本申请实施例一种可选的实施方式中，所述步骤J例如可以包括以下步骤：

步骤J1：利用图像编码器处理所述第k-1个目标生成图像获得第k-1个目标图像向量；

步骤J2：拼接所述目标文本向量和所述第k-1个目标图像向量获得第k个目标拼接向量。

步骤K：利用所述文本图像生成模型中第k级生成式对抗网络处理所述第k个目标拼接向量，生成第k个目标生成图像。

步骤L：将所述文本图像生成模型中最后一级生成式对抗网络生成目标生成图像作为所述目标文本对应的目标图像。

通过本实施例提供的各种实施方式，确定待生成图像的目标文本；利用文本编码器处理目标文本获得目标文本向量；将目标文本向量输入上述文本图像生成模型，生成目标文本对应的目标图像。由于文本图像生成模型是多级生成式对抗网络，能够生成高分辨率图像；因此，利用该文本图像生成模型处理目标文本对应的目标文本向量，获得的目标文本对应的目标图像分辨率较高，即，目标图像的图像质量较高。

参见图5，示出了本申请实施例中一种训练文本图像生成模型的装置的结构示意图。在本实施例中，所述装置例如具体可以包括：

第一获得单元501，用于利用文本编码器处理待训练文本获得文本向量；

第二获得单元502，用于基于所述文本向量和所述待训练文本的标签图像，训练多级生成式对抗网络获得文本图像生成模型。

在本申请实施例一种可选的实施方式中，所述第二获得单元502包括：

第一获得子单元，用于拼接所述文本向量和第一随机向量获得第一个拼接向量；

第一训练子单元，用于基于所述第一个拼接向量和所述待训练文本的标签图像，训练第一级生成式对抗网络；

第二获得子单元，用于基于所述文本向量和第k-1级生成式对抗网络输出的第k-1个生成图像，获得第k个拼接向量，k为正整数，k≥2；

第二训练子单元，用于基于所述第k个拼接向量和所述待训练文本的标签图像，训练第k级生成式对抗网络；

第一作为子单元，用于将训练完成的多级生成式对抗网络作为所述文本图像生成模型。

在本申请实施例一种可选的实施方式中，所述第一训练子单元包括：

第一生成模块，用于利用所述第一级生成式对抗网络中生成网络处理所述第一个拼接向量，生成第一个生成图像；

第一获得模块，用于按照所述第一个生成图像的尺寸对所述待训练文本的标签图像进行采样，获得第一个标签图像；

第一调整模块，用于基于所述第一个生成图像的判别概率和所述第一个标签图像判别概率，调整所述第一级生成式对抗网络的网络参数。

在本申请实施例一种可选的实施方式中，所述第二训练子单元包括：

第二生成模块，用于利用所述第k级生成式对抗网络中生成网络处理所述第k个拼接向量，生成第k个生成图像；

第三获得模块，用于按照所述第k个生成图像的尺寸对所述待训练文本的标签图像进行采样，获得第k个标签图像；

第二调整模块，用于基于所述第k个生成图像的判别概率和所述第k个标签图像判别概率，调整所述第k级生成式对抗网络的网络参数。

在本申请实施例一种可选的实施方式中，所述第二获得子单元包括：

第五获得模块，用于利用图像编码器处理所述第k-1个生成图像获得第k-1个图像向量；

第六获得模块，用于拼接所述文本向量和所述第k-1个图像向量获得第k个拼接向量。

在本申请实施例一种可选的实施方式中，所述第一获得单元501包括：

第三获得子单元，用于利用所述文本编码器的嵌入层处理所述待训练文本获得文本嵌入向量；

第四获得子单元，用于利用所述文本编码器的全连接层压缩所述文本嵌入向量获得所述文本向量。

在本申请实施例一种可选的实施方式中，所述训练完成条件为所述多级生成式对抗网络收敛；或，所述训练完成条件为所述多级生成式对抗网络的训练迭代次数大于等于预设训练迭代次数。

参见图6，示出了本申请实施例中一种训练文本图像生成模型的装置的结构示意图。在本实施例中，在上述实施例所述的文本图像生成模型的基础上，所述装置例如具体可以包括：

确定单元601，用于确定待生成图像的目标文本；

第三获得单元602，用于利用文本编码器处理所述目标文本获得目标文本向量；

生成单元603，用于将所述目标文本向量输入文本图像生成模型，生成所述目标文本对应的目标图像。

在本申请实施例一种可选的实施方式中，所述生成单元603包括：

第五获得子单元，用于拼接所述目标文本向量和第二随机向量获得第一个目标拼接向量；

第一生成子单元，用于利用所述文本图像生成模型中第一级生成式对抗网络处理所述第一个目标拼接向量，生成第一个目标生成图像；

第二生成子单元，用于利用所述文本图像生成模型中第k级生成式对抗网络处理所述第k个目标拼接向量，生成第k个目标生成图像；

第二作为子单元，用于将所述文本图像生成模型中最后一级生成式对抗网络生成目标生成图像作为所述目标文本对应的目标图像。

在本申请实施例一种可选的实施方式中，所述第六获得子单元包括：

第七获得模块，用于利用图像编码器处理所述第k-1个目标生成图像获得第k-1个目标图像向量；

第八获得模块，用于拼接所述目标文本向量和所述第k-1个目标图像向量获得第k个目标拼接向量。

此外，本申请实施例还提供了一种终端设备，所述终端设备包括处理器以及存储器：

所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

所述处理器用于根据所述程序代码中的指令执行上述方法实施例所述的训练文本图像生成模型的方法或上述方法实施例所述的文本图像生成的方法。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行上述方法实施例所述的训练文本图像生成模型的方法或上述方法实施例所述的文本图像生成的方法。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述，仅是本申请的较佳实施例而已，并非对本申请作任何形式上的限制。虽然本申请已以较佳实施例揭露如上，然而并非用以限定本申请。任何熟悉本领域的技术人员，在不脱离本申请技术方案范围情况下，都可利用上述揭示的方法和技术内容对本申请技术方案做出许多可能的变动和修饰，或修改为等同变化的等效实施例。因此，凡是未脱离本申请技术方案的内容，依据本申请的技术实质对以上实施例所做的任何简单修改、等同变化及修饰，均仍属于本申请技术方案保护的范围内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 一种训练文本图像生成模型、文本图像生成的方法和装置 [P] . 中国专利： CN112669215A . 2021-04-16
2. 一种文本图像生成方法、装置及电子设备 [P] . 中国专利： CN114091662A . 2022-02-25
3. METHOD FOR TRAINING IMAGE GENERATION MODEL, IMAGE GENERATION METHOD, DEVICE AND APPARATUS, AND STORAGE MEDIUM [P] . 世界知识产权组织专利： WO2020199478A1 . 2020-10-08

机译：图像生成模型的训练方法，图像生成方法，装置和装置以及存储介质
4. METHOD OF TRAINING A DESCRIPTIVE TEXT GENERATING MODEL, AND METHOD AND APPARATUS FOR GENERATING DESCRIPTIVE TEXT [P] . 美国专利： US2019384810A1 . 2019-12-19

机译：训练描述性文本生成模型的方法，以及生成描述性文本的方法和装置
5. METHOD OF TRAINING A DESCRIPTIVE TEXT GENERATING MODEL, AND METHOD AND APPARATUS FOR GENERATING DESCRIPTIVE TEXT [P] . 欧洲知识产权局专利： EP3582114A1 . 2019-12-18

机译：训练描述性文本生成模型的方法，以及生成描述性文本的方法和装置