首页> 中国专利> 关联关系预估模型的训练方法以及预估文件热度的方法

关联关系预估模型的训练方法以及预估文件热度的方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本公开公开了一种关联关系预估模型的训练方法，涉及人工智能领域，尤其涉及机器学习和大数据领域。具体实现方案为：获取样本数据，样本数据包括多个第一用户群的特征、多个第一文件群的特征以及各个第一用户群与各个第一文件群之间的关联度；使用样本数据来训练基于神经网络的关联关系预估模型，得到经训练的关联关系预估模型。本公开还公开了一种关联关系预估模型的训练装置、预估文件热度的方法和装置、电子设备和存储介质。

著录项

公开/公告号CN112784165A

专利类型发明专利
公开/公告日2021-05-11

原文格式PDF
申请/专利权人北京百度网讯科技有限公司;
展开▼

申请/专利号CN202110132791.3
发明设计人邹静;杨熙;
展开▼

申请日2021-01-29
分类号G06F16/9535(20190101);G06N3/04(20060101);G06N3/08(20060101);
代理机构11021 中科专利商标代理有限责任公司;
代理人王江选
地址 100085 北京市海淀区上地十街10号百度大厦2层
入库时间 2023-06-19 10:57:17

说明书

技术领域

本公开涉及人工智能技术领域，尤其涉及机器学习和大数据技术。更具体地，本公开提供了一种关联关系预估模型的训练方法和装置、预估文件热度的方法和装置、电子设备和存储介质。

背景技术

随着互联网规模的不断壮大，数据也在爆炸式的增长，数据存储的压力也越来越大。

一般地，数据以文件形式进行存储，可以根据文件的访问频率确定文件的热度，不同热度的文件按照不同策略进行存储，实现冷热数据的分类存储，使存储资源得到合理分配。

然而不同用户群体对于不同类型的文件的访问热度不同，仅通过访问频率确定文件热度，精确度低。

发明内容

本公开提供了一种关联关系预估模型的训练方法和装置、预估文件热度的方法和装置、设备以及存储介质。

根据本公开的一方面，提供了一种关联关系预估模型的训练方法，包括：获取样本数据，样本数据包括多个第一用户群的特征、多个第一文件群的特征以及各个第一用户群与各个第一文件群之间的关联度；使用样本数据来训练基于神经网络的关联关系预估模型，得到经训练的关联关系预估模型。

根据本公开的另一方面，提供了一种预估文件热度的方法，包括：获取输入数据，输入数据包括目标文件群的特征以及目标用户群的特征；使用关联关系预估模型根据目标文件群的特征以及目标用户群的特征来预估目标文件群与目标用户群之间的关联度；根据所预估的目标文件群与目标用户群之间的关联度，确定目标文件群中的目标文件的热度。

根据本公开的另一方面，提供了一种关联关系预估模型的训练装置，包括：

第一获取模块，用于获取样本数据，样本数据包括多个第一用户群的特征、多个第一文件群的特征以及各个第一用户群与各个第一文件群之间的关联度；

训练模块，用于使用样本数据来训练基于神经网络的关联关系预估模型，得到经训练的关联关系预估模型。

根据本公开的另一方面，提供了一种预估文件热度的装置，包括：第二获取模块，用于获取输入数据，输入数据包括目标文件群的特征以及目标用户群的特征；第一预估模块，用于使用关联关系预估模型根据目标文件群的特征以及目标用户群的特征来预估目标文件群与目标用户群之间的关联度；第一确定模块，用于根据所预估的目标文件群与目标用户群之间的关联度，确定目标文件群中的目标文件的热度。

根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，该计算机指令用于使计算机执行根据本公开提供的方法。

根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现根据本公开提供的方法。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开的一个实施例的可以应用关联关系预估模型的训练方法和装置的示例性系统架构示意图；

图2是根据本公开的一个实施例的关联关系预估模型的训练方法的流程图；

图3是根据本公开的另一个实施例的关联关系预估模型的训练方法的流程图；

图4是根据本公开的一个实施例的确定目标关联关系预估模型的方法的流程图；

图5是根据本公开的一个实施例的更新目标关联关系预估模型的方法的流程示意图；

图6是根据本公开的一个实施例的获取样本数据的方法的流程示意图；

图7是根据本公开的一个实施例的用户数据、文件数据和行为数据的存储系统的示意图；

图8是根据本公开的一个实施例的关联关系预估模型的训练方法的系统架构示意图；

图9是根据本公开的一个实施例的预估文件热度的方法的流程示意图；

图10是根据本公开的一个实施例的关联关系预估模型的训练装置的框图；

图11是根据本公开的一个实施例的预估文件热度的装置的框图；

图12是根据本公开的一个实施例的关联关系预估模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

随着互联网规模的不断壮大，数据也在爆炸式的增长。更快更完整地获取数据，充分地挖掘出数据价值，已成为大数据时代各行各业的共识。

图1是根据本公开一个实施例的可以应用关联关系预估模型的训练方法和装置的示例性系统架构示意图。需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示，根据该实施例的系统架构100可以包括终端设备101、网络102和服务器103。网络102用以在终端设备101和服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线和/或无线通信链路等等。

电子设备101中可以运行有文件日志系统，用于获取相关应用在运行过程中产生的文件日志，相关应用例如可以是网盘应用，文件日志例如可以包括用户对文件进行操作产生的操作记录。

服务器103可以是提供预估文件热度服务的电子设备。

具体地，服务器103可以获取电子设备101中的文件日志系统产生的文件日志，并可以对大量的文件日志进行清洗和过滤等预处理，从文件日志中提取出用户数据、文件数据、用户对文件的行为数据，其中，行为数据可以包括上传、下载、浏览、关注和转发等操作行为以及各个操作行为的次数。服务器103可以对用户数据、文件数据以及行为数据进行特征抽取，并对抽取出的特征进行聚类可以得到多个用户群的特征、多个文件群的特征以及各个用户群和各个文件群之间的关联度。其中，每个用户群的特征可以代表某一类用户的特征，每个文件群的特征可以代表某一类文件的特征，用户群与文件群之间的关联度例如可以是根据某一类用户对某一类文件的操作次数确定的，用户群与文件群之间的关联度可以表征用户群对文件群的感兴趣程度(或者用户群对文件群的消费率)，也可以表征文件本身的热度(也可以称为活跃度)。

根据本公开的实施例，服务器103可以结合用户群的特征和文件群的特征进行神经网络模型的训练，得到经训练的神经网络模型，该经训练的神经网络模型能够预估用户群和文件群之间的关联度，从而根据关联度确定文件群中的文件的热度。

根据本公开的实施例，上述获取文件日志，并对文件日志进行处理得到多个用户群的特征、多个文件群的特征以及各个用户群和各个文件群之间的关联度的操作以及利用上述特征数据训练神经网络的过程可以是在同一电子设备(如服务器103)中执行，也可以在不同的电子设备中执行，例如，利用上述特征数据训练神经网络的过程可以是在服务器103中执行，而对日志文件进行处理得到特征数据的过程可以在其他电子设备中进行，本公开实施例对此不做限制。

根据本公开的实施例，服务器103获取到多个用户群的特征、多个文件群的特征以及各个用户群和各个文件群之间的关联度之后，可以将这些数据进行存储，例如存储到UDW(UClould Data Warehouse，数据仓库)中。在利用上述特征数据进行神经网络的训练的时候，可以直接从数据仓库中获取。

图2是根据本公开的一个实施例的关联关系预估模型的训练方法的流程图。

如图2所示，该关联关系预估模型的训练方法200可以包括操作S210～操作S220。

在操作S210，获取样本数据。

根据本公开的实施例，样本数据包括多个第一用户群的特征、多个第一文件群的特征和各个第一用户群与各个第一文件群之间的关联度，第一用户群的特征例如可以包括地域、性别、年龄和职业等。第一文件群的特征可以包括类型、大小、扩展名等等。其中，每个第一用户群的特征可以表征某一类第一用户群体的特征，每个第一文件群的特征可以表征某一类第一文件群的特征，第一用户群与第一文件群之间的关联度例如可以是根据第一用户群对第一文件群的操作次数确定的，第一用户群与第一文件群之间的关联度可以表征第一用户群对第一文件群的感兴趣程度(或者第一用户群对第一文件群的消费率)，也可以表征第一文件群中的文件的热度(也可以称为活跃度)。

在操作S220，使用样本数据来训练基于神经网络的关联关系预估模型，得到经训练的关联关系预估模型。

根据本公开的实施例，基于神经网络的关联关系预估模型可以包括CNN(Convolutional Neural Networks，卷积神经网络)和LSTM(LongShort Term MemoryNetworks，长短记忆神经网络)等，本公开实施例对于神经网络的类型不做限制。

根据本公开的实施例，训练过程可以包括：使用关联关系预估模型根据任一第一用户群的特征以及任一第一文件群的特征来预估任一第一用户群与任一第一文件群之间的关联度；基于所预估的关联度与样本数据中任一第一用户群与任一第一文件群的关联度之间的差异来调整关联关系预估模型的参数。

根据本公开的实施例，使用关联关系预估模型可以将多个第一用户群的特征和多个第一文件群的特征进行向量化表达，得到各个第一用户群的特征的向量和各个第一文件群的特征的向量。可以计算任一第一用户群的特征和任一第一文件群的特征之间的向量距离，向量距离例如可以是通过欧式距离或余弦相似度等算法计算得到的。任一第一用户群的特征和任一第一文件群的特征之间的向量距离可以表征第一用户群和第一文件群之间的关联度。

根据本公开的实施例，可以根据关联关系预估模型预估出来的任一第一用户群和任一第一文件群之间的关联度与样本数据中任一第一用户群和任一第一文件群之间的关联度之间的差异来调整关联关系预估模型的参数，得到更新的关联关系预估模型。针对下一个第一用户群特征和第一文件群特征，返回计算第一用户群特征和第一文件群特征之间的向量距离的步骤，直至达到预设的停止条件。

根据本公开的实施例，可以使用预设的损失函数来计算预估出来的任一第一用户群和任一第一文件群之间的关联度与样本数据中任一第一用户群和任一第一文件群之间的关联度之间的差异，该差异表征当前的关联关系预估模型的损失。可以使用优化算法计算使得损失函数最优时关联关系预估模型的参数，将当前关联关系预估模型的参数调整为使得损失函数最优时关联关系预估模型的参数，得到更新的关联关系预估模型。损失函数例如可以是均方差损失、平均绝对误差损失和交叉熵损失等，优化算法例如可以是各种自适应学习率算法，如Adam(自适应矩估计)算法等。本公开的实施例对损失函数的类型和优化算法的类型不做限定。

根据本公开的实施例，预设的停止条件可以是预设的返回次数，即模型训练的次数，例如预设训练100次之后停止训练。预设的停止条件还可以是损失函数满足预设条件，例如损失函数收敛则停止训练。

根据本公开的实施例，停止训练后得到经训练的关联关系预估模型，使用经训练的关联关系预估模型可以根据输入的用户群的特征和文件群的特征，预估该用户群和文件群之间的关联度，根据关联度可以确定文件群中的文件的热度，根据文件的热度可以对该文件进行相应策略的存储。例如，如果该文件的热度大于一定的预设阈值，确定该文件为热文件，可以将该文件存储至出口带宽比较好的机房。如果该文件的热度不大于该预设阈值，则确定该文件为冷文件，可以将该文件存储至廉价设备中，或是将该文件直接压缩后存储，使存储资源得到合理分配。

根据本公开的实施例，使用第一用户群的特征、第一文件群的特征以及第一用户群的特征和第一文件群的特征之间的关联度来训练基于神经网络的关联关系预估模型，得到经训练的关联关系预估模型，使用经训练的关联关系预估模型能够根据输入的用户群的特征和文件群的特征预估用户群和文件群之间的关联度，根据预估的关联度可以确定文件群中的文件的热度，相比于根据访问频率预估文件热度的方式，能够提高文件热度的预估精确。

进一步地，精确预估文件的热度能够实现对文件的精细化分，并实现对冷热数据的分类存储，使存储资源得到合理分配。

根据本公开的实施例，多个第一用户群的特征例如可以表示为A1、A2......An，多个第一文件群的特征例如可以包括B1、B2......Bm。第一用户群的特征与第一文件群的特征之间的关联度可以表征第一用户群与第一文件群之间的关联度，例如，A1与B1之间的关联度可以表征A1的第一用户群与B1的第一文件群之间的关联度，A2与B2之间的关联度可以表征A2的第一用户群与B2的第一文件群之间的关联度等等。又例如，第一用户群的特征A8与每个第一文件群的特征之间均没有关联度，则A8的第一用户群与每个第一文件群之间没有关联度，第一文件群的特征B11与每个第一用户群的特征之间均没有关联度，则B11的第一文件群与每一个第一用户群之间没有关联度。

图3是根据本公开的另一个实施例的关联关系预估模型的训练方法的流程图。

根据本公开的实施例，任一第一用户群的特征和任一第一文件群的特征的选取可以是从样本数据中选取出来的具有一定关联度的第一用户群的特征和第一文件群的特征(如A1和B1，A2和B2等)，可以作为正样本进行训练，也可以是从样本数据中选取出来的不具有关联度的第一用户群的特征和第一文件群的特征(如A8和B2，A1和B11等)，作为负样本进行训练。

如图3所示，该关联关系预估模型的训练方法可以包括操作S321～操作S326。

在操作S321，确定各个第一用户群的特征的向量，并确定各个第一文件群的特征的向量。

根据本公开的实施例，可以对各个第一用户群的特征进行向量化表达，得到各个第一用户群的的向量。并对各个第一文件群的特征进行向量化表达，得到各个第一文件群的特征的向量。

在操作S322，计算任一第一用户群的特征与任一第一文件群的特征之间的向量距离。

根据本公开的实施例，以任一第一用户群的特征为A1，任一第一文件群的特征为B1为例，计算A1的向量和B1的向量之间的向量距离，向量距离例如可以是欧式距离或余弦相似度等。

在操作S323，根据向量距离，预估任一第一用户群与任一第一文件群之间的关联度。

根据本公开的实施例，根据A1的向量和B1的向量之间的向量距离，可以预估A1的第一用户群和B1的第一文件群之间的关联度。具体可以预设向量距离与关联度的对应关系，根据向量距离和对应关系可以确定关联度。例如，A1的向量和B1的向量之间的向量距离在第一区间时，确定A1的第一用户群和B1的第一文件群之间的关联度为第一关联度，A1的向量和B1的向量之间的向量距离在第二区间时，确定A1的第一用户群和B1的第一文件群之间的关联度为第二关联度等等。

在操作S324，使用预设损失函数基于所预估的关联度以及样本数据中任一第一用户群与任一第一文件群的关联度来计算关联关系预估模型的损失。

根据本公开的实施例，关联关系预估模型预估出来的A1的第一用户群和B1的第一文件群之间的关联度例如可以是D1，而样本数据中A1的第一用户群和B1的第一文件群之间的关联度例如是C1，则可以使用预设的损失函数基于D1和C1来计算关联关系预估模型的损失。损失函数例如可以是均方差损失、平均绝对误差损失和交叉熵损失等，本公开的实施例对损失函数的类型不做限定。

在操作S325，根据损失，调整关联关系预估模型的参数。

据本公开的实施例，可以使用优化算法来计算使得损失函数最优时的关联关系预估模型的参数，将当前关联关系预估模型的参数调整为使得损失函数最优时的参数，得到更新的关联关系预估模型。优化算法例如可以是各种自适应学习率算法，如Adam(自适应矩估计)算法等。本公开的实施例对优化算法的类型不做限定。

在操作S326，判断返回的次数是否达到第一预设阈值，如果是则停止训练，否则，针对下一个任一第一用户群的特征和下一个任一第一文件群的特征，返回操作S322，直至达到预设的返回次数。

根据本公开的实施例，在返回的次数达到第一预设阈值(如100次)的情况下，停止训练，得到经训练的关联关系预估模型。

根据本公开的实施例，在返回的次数没有达到第一预设阈值(如100次)的情况下，使用更新的关联关系预估模型计算下一个任一第一用户群的特征和下一个任一第一文件群的特征之间的向量距离，例如，下一个任一第一用户群的特征为A2，下一个任一第一文件群的特征为B2，则使用更新的关联关系预估模型计算A2和B2之间的向量距离。

图4是根据本公开的一个实施例的确定目标关联关系预估模型的方法的流程图。

如图4所示，该确定目标关联关系预估模型的方法可以包括操作S410～操作S440。

在操作S410，将样本数据划分为多个批次，各个批次中包括至少一个用户群的特征和至少一个文件群的特征。

根据本公开的实施例，由于文件日志的数据量较大，提取出的样本数据的数据量也较大，可以将样本数据划分为多个批次，分别使用各个批次的样本数据训练多个关联关系预估模型。

示例性地，可以将样本数据划分为10个批次，第一批次的样本数据中可以包括第一用户的群特征A1......A100以及第一文件的群特征B1......B100，第二批次的样本数据中可以包括第一用户群的特征A101......A200以及第二文件群的特征B101......B200，以此类推。

在操作S420，分别使用多个批次的样本数据来训练多个关联关系预估模型，得到多个经训练的关联关系预估模型。

根据本公开的实施例，使用第一用户群的特征A1......A100以及第一文件群的特征B1......B100进行训练，得到第一批次的关联关系预估模型，使用第一用户群的特征A101......A200以及第二文件群的特征B101......B200进行训练，得到第二批次的关联关系预估模型，以此类推，10个批次可以训练得到10个关联关系预估模型。

在操作S430，计算各个经训练的关联关系预估模型的精度。

根据本公开的实施例，针对得到的多个经训练的关联关系预估模型，可以使用验证数据来计算每个经训练的关联关系预估模型的精度。验证数据可以包括多个第二用户群的特征、多个第二文件群的特征以及各个第二用户群与各个第二文件群之间的关联度。其中，验证数据可以是从数据仓库中单独获取的，与样本数据不是相同的数据，此外，验证数据也可以是从样本数据中抽取出的一部分，则多个第二用户群的特征以及多个第二文件群的特征与样本数据中的一部分的第一用户群的特征以及第一文件群的特征是相同的数据。

根据本公开的实施例，针对各个经训练的关联关系预估模型，使用经训练的关联关系预估模型根据各个第二用户群的特征以及各个第二文件群的特征来预估各个第二用户群与各个第二文件群之间的关联度，并基于所预估的各个第二用户群与各个第二文件群之间的关联度与验证数据中各个第二用户群与各个第二文件群之间的关联度，计算经训练的关联关系预估模型的精度。

可以理解，基于所预估的各个第二用户群与各个第二文件群之间的关联度与验证数据中各个第二用户群与各个第二文件群之间的关联度，可以计算关联关系预估模型预估的关联度的正确性，根据关联关系预估模型预估的关联度的正确性可以确定关联关系预估模型的精度。

在操作S440，确定精度最高的关联关系预估模型作为目标关联关系预估模型。

根据本公开的实施例，可以选取10个经训练的关联关系预估模型中精度最高的关联关系预估模型作为最终的目标关联关系预估模型，该目标关联关系预估模型可以用来在线预估特定用户群的特征与特定文件群的特征之间的关联度。

图5是根据本公开的一个实施例的更新目标关联关系预估模型的方法的流程示意图。

如图5所示，该更新目标关联关系预估模型的方法包括操作S510～S540。

在操作S510，获取测试数据。

根据本公开的实施例，测试数据可以包括第三用户群的特征以及第三文件群的特征，该第三文件群可以是实际应用场景中的文件群，该第三用户群可以是实际应用场景中所针对的用户群。可以设置在线测试系统来根据实际应用场景中第三用户群与第三文件群之间的关联度验证目标关联关系预估模型预估的第三用户群与第三文件群之间的关联度的正确性。

在操作S520，使用目标关联关系预估模型根据第三用户群的特征以及第三文件群的特征来预估第三用户群与第三文件群之间的关联度。

根据本公开的实施例，使用目标关联关系预估模型预估第三用户群的特征与第三文件群的特征之间的关联度。可以根据预估的关联度来存储第三文件群，例如，预估出第三用户群的特征与第三文件群的特征之间的关联度较小，确定第三文件群的热度较低，可以将第三文件群压缩后进行存储。

在操作S530，测试第三用户群与第三文件群之间的实际关联度。

根据本公开的实施例，可以根据实际应用场景中第三用户群对第三文件群操作的次数，确定第三用户群与第三文件群之间的实际关联度。

在操作S540，在所预估的第三用户群与第三文件群之间的关联度与第三用户群与第三文件群之间的实际关联度之间的差异超过第二预设阈值的情况下，基于第三用户群的特征、第三文件群的特征以及第三用户群与第三文件群之间的实际关联度来更新样本数据。

根据本公开的实施例，如果所预估的第三用户群与第三文件群之间的关联度与第三用户群与第三文件群之间的实际关联度之间的差异超过第二预设阈值(例如50％)，则说明目标关联关系预估模型预估的正确性较低，即第三用户群对第三文件群的操作较为频繁，将第三文件群作为冷数据进行压缩存储是不合适的。因此，将第三用户群的特征与第三文件群的特征作为新的样本数据来训练关联关系预估模型，以更新关联关系预估模型。

图6是根据本公开的一个实施例的获取样本数据的方法的流程示意图。

如图6所示，该获取样本数据的方法包括操作S610～S650。

在操作S610，从文件日志中获取多个文件操作记录，各个文件操作记录包括用户数据、文件数据以及用户对文件的行为数据。

根据本公开的实施例，文件日志可以是用户对文件进行操作产生的操作记录，操作记录中包括用户数据、文件数据以及用户对文件的行为数据。行为数据可以包括上传、下载、浏览、关注和转发等操作行为以及各个操作行为的次数。从操作记录中可以提取出这些用户数据、文件数据以及行为数据。

在操作S620，对多个文件操作记录中的用户数据和文件数据分别进行特征提取，得到多个第一用户的特征和多个第一文件的特征。

根据本公开的实施例，可以对用户数据、文件数据以及行为数据进行清洗、过滤和归一化等预处理操作，得到规范化的用户数据、文件数据和行为数据。可以对规范化的用户数据进行特征提取，得到多个第一用户的特征，每个第一用户的特征可以包括地域、年龄和职业等。对规范化的文件数据进行特征提取，可以得到多个第一文件的特征，每个第一文件的特征可以包括类型、大小和扩展名等。根据行为数据可以确定第一用户和第一文件的关联关系。可以对行为数据进行提取得到第一用户对第一文件的操作次数等。

在操作S630，对多个第一用户的特征进行聚类，得到多个第一用户群的特征。

根据本公开的实施例，可以对多个第一用户的特征按照特征维度进行聚类，例如按照地域进行聚类或者按照年龄进行聚类等等，得到多个第一用户群的特征，每个第一用户群可以表征某一类用户群。

在操作S640，对多个第一文件的特征进行聚类，得到多个第一文件群的特征。

根据本公开的实施例，可以对多个第一文件的特征按照特征维度进行聚类，例如按照类型进行聚类或者按照大小进行聚类等等，得到多个第一文件群的特征，每个第一文件群可以表征某一类文件群。

在操作S650，根据用户对文件的行为数据，确定各个第一用户群与各个第一文件群之间的关联度。

根据本公开的实施例，根据行为数据可以确定各个第一用户群对每个第一文件群的操作的次数，该次数可以是某一类用户群中的所有用户对某一类文件群中的所有文件操作的所有次数，也可以是平均次数等。根据各个第一用户群对每个第一文件群的操作的次数可以确定各个第一用户群与各个第一文件群之间的关联度。

图7是根据本公开的一个实施例的用户数据、文件数据和行为数据的存储系统的示意图。

如图7所示，该系统可以包括AFS(Andrew File System，分布式文件系统)集群710和数据仓库720。数据仓库720包括第一存储空间721、第二存储空间722和第三存储空间723。

根据本公开的实施例，可以设置采集任务，采集任务在被执行时可以按照不同的采集周期从文件日志系统中获取文件日志，并存储至AFS集群710。不同的采集周期可以包括天、月和年。如图7所示，按照不同采集周期获取到的文件日志例如可以是文件日志1、文件日志2和文件日志3等，其中，文件日志1、文件日志2和文件日志3中均包括用户数据、文件数据和行为数据。

根据本公开的实施例，针对AFS集群710中的文件日志，可以按照不同的ETL(Extract-Transform-Load，抽取-转换-加载)规则进行数据的清洗、过滤、抽取和映射等预处理，得到用户数据、文件数据和行为数据，并将得到的用户数据、文件数据和行为数据存储至数据仓库720中。可以将不同采集周期的文件日志进行预处理后得到的用户数据、文件数据和行为数据按照不同采集周期存储至数据仓库720中的不同存储空间内，示例性地，可以将按天采集的文件日志进行预处理后得到的用户数据、文件数据和行为数据存储至第一存储空间721，将按月采集的文件日志进行预处理后得到的用户数据、文件数据和行为数据存储至第二存储空间722，将按年采集的文件日志进行预处理后得到的用户数据、文件数据和行为数据存储至第三存储空间723。

图8是根据本公开的一个实施例的关联关系预估模型的训练方法的系统架构示意图。

如图8所示，该系统架构可以包括数据处理系统810、关联关系预估模型训练系统820和关联关系预估模型测试系统830，其中，关联关系预估模型训练系统820包括模型训练子系统821和模型验证子系统822。

根据本公开的实施例，数据处理系统810用于对用户数据、文件数据和行为数据进行特征提取和聚类，得到多个用户群的特征、多个文件群的特征以及各个用户群和各个文件群之间的关联度。可以从多个用户群的特征和多个文件群的特征中选取出N个第一用户群的特征和N个第一文件群的特征作为训练数据。

根据本公开的实施例，关联关系预估模型训练系统820中的模型训练子系统821用于使用训练数据进行模型训练，具体地，可以计算任一第一用户群的特征和任一第一文件群的特征之间的向量距离，根据向量距离预估任一第一用户群的特征和任一第一文件群的特征之间的关联度，根据预估的任一第一用户群的特征和任一第一文件群的特征之间的关联度与任一第一用户群的特征和任一第一文件群的特征之间的实际关联度，使用预设损失函数计算关联关系预估模型的损失，根据损失调整关联关系预估模型的参数，得到更新的关联关系预估模型，针对下一个任一第一用户群的特征和任一第一文件群的特征，重复上述训练过程，直至训练次数达到预设数值，得到经训练的关联关系预估模型。

根据本公开的实施例，N个第一用户群的特征和N个第一文件群的特征作为训练数据可以划分为多个批次进行训练，例如划分为M个批次进行训练，每个批次的训练数据可以训练得到一个经训练的关联关系预估模型，则可以得到M个经训练的关联关系预估模型。

根据本公开的实施例，可以从数据处理系统810中的多个用户群的特征和多个文件群的特征中选取出k个第二用户群的特征和k个第二文件群的特征作为验证数据。关联关系预估模型训练系统820中的模型验证子系统822用于使用验证数据从M个经训练的关联关系预估模型中选择出精度最高的模型作为最优的关联关系预估模型。具体地，可以针对各个经训练的关联关系预估模型，使用经训练的关联关系预估模型根据各个第二用户群的特征以及各个第二文件群的特征来预估各个第二用户群与各个第二文件群之间的关联度，并基于所预估的各个第二用户群与各个第二文件群之间的关联度与验证数据中各个第二用户群与各个第二文件群之间的关联度，计算经训练的关联关系预估模型的精度。从M个经训练的关联关系预估模型中精度最高的关联关系预估模型作为最优的关联关系预估模型。

根据本公开的实施例，关联关系预估模型测试系统830可以用于对关联关系预估模型预估关联度的准确性进行测试。具体地，可以获取S个第三用户群的特征以及S个第三文件群的特征，该第三文件群可以是实际应用场景(如网盘应用场景)中的文件群，该第三用户群可以是实际应用场景中所针对的用户群。关联关系预估模型测试系统830可以使用最优的关联关系预估模型来预估第三用户群与第三文件群之间的关联度，并根据实际应用场景中第三用户群与第三文件群之间的关联度验证最优的关联关系预估模型所预估关联度的准确性。针对所预估的关联度的准确性较低的第三用户群的特征以及第三文件群的特征，可以作为反馈数据来更新关联关系预估模型。具体地，可以将第三用户群的特征以及第三文件群的特征作为更新的训练数据再次进行模型训练。

图9是根据本公开的一个实施例的预估文件热度的方法的流程示意图。

如图9所示，该预估文件热度的方法900包括操作S910～S930。

在操作S910，获取输入数据。

根据本公开的实施例，输入数据可以包括目标文件群的特征以及目标用户群的特征，目标文件群可以是真实业务场景中的文件群，目标用户群可以是真实业务场景中所针对的用户群。

在操作S920，使用关联关系预估模型根据目标文件群的特征以及目标用户群的特征来预估目标文件群与目标用户群之间的关联度。

根据本公开的实施例，可以使用关联关系预估目标文件群的特征与目标用户群的特征之间的向量距离，根据向量距离预估目标文件群与目标用户群之间的关联度。

在操作S930，根据所预估的目标文件群与目标用户群之间的关联度，确定目标文件群中的目标文件的热度。

根据本公开的实施例，可以预设关联度和热度之间的对应关系，例如，目标文件群与目标用户群之间的关联度在第一区间(如0-10％)，则目标文件群中的目标文件的热度为第一热度(例如为2)，目标文件群与目标用户群之间的关联度在第二区间(如11％-20％)，则目标文件群中的目标文件的热度为第二热度(例如为4)，以此类推。

根据本公开的实施例，如果确定的目标文件群中的目标文件的热度大于第三阈值(例如4)，则可以确定目标文件为热数据，可以将该目标文件进行预处理后存储，可以加快文件的访问速度，提高用户体验。如果确定的目标文件群中的目标文件的热度不大于第三阈值(例如4)，则可以确定目标文件为冷数据，可以将该目标文件进行压缩后存储，或者将目标文件存储至不常用的存储设备中，使得存储资源得到合理利用。

图10是根据本公开的一个实施例的关联关系预估模型的训练装置的框图。

如图10所示，该关联关系预估模型的训练装置1000可以包括第一获取模块1001和训练模块1002。

第一获取模块1001用于获取样本数据，样本数据包括多个第一用户群的特征、多个第一文件群的特征以及各个第一用户群与各个第一文件群之间的关联度。

训练模块1002用于使用样本数据来训练基于神经网络的关联关系预估模型，得到经训练的关联关系预估模型。

根据本公开的实施例，训练模块1002包括预估单元和调整单元。

预估单元用于使用关联关系预估模型根据任一第一用户群的特征以及任一第一文件群的特征来预估任一第一用户群与任一第一文件群之间的关联度。

调整单元用于基于所预估的关联度与样本数据中任一第一用户群与任一第一文件群的关联度之间的差异来调整关联关系预估模型的参数。

根据本公开的实施例，预估单元包括第一确定子单元、第二确定子单元、第一计算子单元和预估子单元。

第一确定子单元用于确定任一第一用户群的特征的向量。

第二确定子单元用于确定任一第一文件群的特征的向量。

第一计算子单元用于计算任一第一用户群的特征与任一第一文件群的特征之间的向量距离。

预估子单元用于根据向量距离，预估任一第一用户群与任一第一文件群之间的关联度。

根据本公开的实施例，调整单元包括第二计算子单元和调整子单元。

第二计算子单元用于使用预设损失函数基于所预估的关联度以及样本数据中任一第一用户群与任一第一文件群的关联度来计算关联关系预估模型的损失。

调整子单元用于根据损失，调整关联关系预估模型的参数，针对下一个任一第一用户群的特征和下一个任一第一文件群的特征，返回预估单元，直至返回次数达到第一预设阈值。

根据本公开的实施例，关联关系预估模型的数量为多个。训练模块1002包括划分单元和训练单元。

划分单元用于将样本数据划分为多个批次，各个批次中包括至少一个第一用户群的特征和至少一个第一文件群的特征。

训练单元用于分别使用多个批次的样本数据来训练多个关联关系预估模型，得到多个经训练的关联关系预估模型。

根据本公开的实施例，关联关系预估模型的训练装置1000还包括计算模块和第二确定模块。

计算模块用于计算各个经训练的关联关系预估模型的精度。

第二确定模块用于确定精度最高的关联关系预估模型作为目标关联关系预估模型。

根据本公开的实施例，计算模块包括获取单元和第一验证单元。

获取单元用于获取验证数据，验证数据包括多个第二用户群的特征、多个第二文件群的特征以及各个第二用户群与各个第二文件群之间的关联度。

第一验证单元用于针对各个经训练的关联关系预估模型，使用经训练的关联关系预估模型根据各个第二用户群的特征以及各个第二文件群的特征来预估各个第二用户群与各个第二文件群之间的关联度，并基于所预估的各个第二用户群与各个第二文件群之间的关联度与验证数据中各个第二用户群与各个第二文件群之间的关联度，计算经训练的关联关系预估模型的精度。

根据本公开的实施例，关联关系预估模型的训练装置1000还包括第三获取模块、第二预估模块、测试模块和更新模块。

第三获取模块用于获取测试数据，测试数据包括第三用户群的特征以及第三文件群的特征。

第二预估模块用于使用目标关联关系预估模型根据第三用户群的特征以及第三文件群的特征来预估第三用户群与第三文件群之间的关联度。

测试模块用于测试第三用户群与第三文件群之间的实际关联度。

更新模块用于在所预估的第三用户群与第三文件群之间的关联度与第三用户群与第三文件群之间的实际关联度之间的差异超过第二预设阈值的情况下，基于第三用户群的特征、第三文件群的特征以及第三用户群与第三文件群之间的实际关联度来更新样本数据。

根据本公开的实施例，第一获取模块1001具体用于从文件日志中获取多个文件操作记录，各个文件操作记录包括用户数据、文件数据以及用户对文件的行为数据；对多个文件操作记录中的用户数据和文件数据分别进行特征提取，得到多个第一用户的特征和多个第一文件的特征；对多个第一用户的特征进行聚类，得到多个第一用户群的特征；对多个第一文件的特征进行聚类，得到多个第一文件群的特征；根据用户对文件的行为数据，确定各个第一用户群与各个第一文件群之间的关联度。

图11是根据本公开的一个实施例的预估文件热度的装置的框图。

如图11所示，该预估文件热度的装置1100可以包括第二获取模块1101、第一预估模块1102和第一确定模块1103。

第二获取模块1101用于获取输入数据，输入数据包括目标文件群的特征以及目标用户群的特征。

第一预估模块1102用于使用关联关系预估模型根据目标文件群的特征以及目标用户群的特征来预估目标文件群与目标用户群之间的关联度。

第一确定模块1103用于根据所预估的目标文件群与目标用户群之间的关联度，确定目标文件群中的目标文件的热度。

根据本公开的实施例，预估文件热度的装置1100还可以包括存储模块。

存储模块用于根据目标文件的热度，将目标文件进行存储。

根据本公开的实施例，存储模块具体用于在确定目标文件的热度大于第三预设阈值的情况下，将目标文件进行预加载后存储；在确定目标文件的热度小于或等于第三预设阈值的情况下，将目标文件进行压缩后存储。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图12示出了可以用来实施本公开的实施例的示例电子设备1200的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图12所示，设备1200包括计算单元1201，其可以根据存储在只读存储器(ROM)1202中的计算机程序或者从存储单元1208加载到随机访问存储器(RAM)1203中的计算机程序，来执行各种适当的动作和处理。在RAM 1203中，还可存储设备1200操作所需的各种程序和数据。计算单元1201、ROM 1202以及RAM 1203通过总线1204彼此相连。输入/输出(I/O)接口1205也连接至总线1204。

设备1200中的多个部件连接至I/O接口1205，包括：输入单元1206，例如键盘、鼠标等；输出单元1207，例如各种类型的显示器、扬声器等；存储单元1208，例如磁盘、光盘等；以及通信单元1209，例如网卡、调制解调器、无线通信收发机等。通信单元1209允许设备1200通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1201可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1201的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1201执行上文所描述的各个方法和处理，例如关联关系预估模型的训练方法。例如，在一些实施例中，关联关系预估模型的训练方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1208。在一些实施例中，计算机程序的部分或者全部可以经由ROM1202和/或通信单元1209而被载入和/或安装到设备1200上。当计算机程序加载到RAM1203并由计算单元1201执行时，可以执行上文描述的关联关系预估模型的训练方法的一个或多个步骤。备选地，在其他实施例中，计算单元1201可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行关联关系预估模型的训练方法。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 关联关系预估模型的训练方法以及预估文件热度的方法 [P] . 中国专利： CN112784165A . 2021-05-11
2. 事件触发概率预估模型训练方法及事件触发概率预估方法 [P] . 中国专利： CN111047009A . 2020-04-21
3. Speech recognition training method for audio and video file indexing on a search engine [P] . 欧洲知识产权局专利： EP1927927A3 . 2009-01-14

机译：在搜索引擎上为音频和视频文件建立索引的语音识别训练方法
4. SPEECH RECOGNITION TRAINING METHOD FOR AUDIO AND VIDEO FILES INDEXING ON A SEARCH ENGINE [P] . CA2612513A1 . 2008-06-01

机译：搜索引擎中索引的音频和视频文件的语音识别训练方法
5. Speech recognition training method for audio and video file indexing on a search engine [P] . 欧洲知识产权局专利： EP1927927A2 . 2008-06-04

机译：在搜索引擎上为音频和视频文件建立索引的语音识别训练方法