首页> 中国专利> 车载内容中心网络下基于联邦学习的边缘预缓存策略

车载内容中心网络下基于联邦学习的边缘预缓存策略

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明属于车载内容中心网络技术领域，提出了一种车载内容中心网络下基于联邦学习的边缘预缓存策略。RSU将车辆的历史移动路径和可能请求的内容作为依据，对所处状态和采取的动作进行建模，再利用深度强化学习求解最优的内容分配方式，提前将所需内容存储到对应的RSU，从而降低车辆从RSU获取内容所需的时延。各个RSU根据本地收集到的数据自行训练模型，随后利用联邦学习对各RSU训练得到的模型进行汇总，根据数据量对模型加权平均，将汇总后的模型统一分发到各RSU上。最后，根据邻居节点的缓存列表降低重复内容在缓存替换中的优先级，从而减少缓存冗余。

著录项

公开/公告号CN113158544A

专利类型发明专利
公开/公告日2021-07-23

原文格式PDF
申请/专利权人大连理工大学;
展开▼

申请/专利号CN202110149492.0
发明设计人姚琳;李兆洋;吴国伟;
展开▼

申请日2021-02-03
分类号G06F30/27(20200101);G06N20/00(20190101);
代理机构21200 大连理工大学专利中心;
代理人温福雪
地址 116024 辽宁省大连市甘井子区凌工路2号
入库时间 2023-06-19 11:57:35

说明书

技术领域

本发明涉及一种车载内容中心网络下基于联邦学习的边缘预缓存策略，属于车载内容中心网络技术领域。

背景技术

车载自组网(vehicular ad-hoc network，VANET)是一种特殊类型的移动自组网，它包含了若干固定的基础设施和车辆。在VANET中，每一辆车都可以与其他车辆或固定的路边基础单元进行通信。在过去的几十年里，VANET逐渐成为了一个无关来源的内容共享平台，即VANET更多的是关注内容本身，而不是内容的实际载体。面向内容的应用涵盖了诸如娱乐、体育、购物等不同领域。为满足VANET面向内容的特点，提出了一种新的网络结构——内容中心网络 (content-centric networking，CCN)。与IP网络不同，内容名称是CCN中的基本元素，它的特征是内容请求包(称为Interest)和内容响应包(称为Data)的基本交换。 CCN的网络内缓存有助于在车辆的移动性和时断时续的连通性下有效地分发流行内容，从而产生了以内容为中心的车载网络(vehicular content centric network，VCCN)。VCCN可以在安全应用、流量应用和内容应用(如文件共享和商业广告)下获得较好的网络性能。

与车载网类似，VCCN主要包含两类节点，即车辆等移动节点，也称为OBU (OnBoard Unit)，和路边的固定基础设施(Road Side Unit,RSU)。这些节点都具备转发兴趣包和缓存内容的功能，而RSU作为边缘节点，承载着从移动节点接收请求并向云端数据源请求内容的功能，因此合理配置RSU的缓存策略对提升用户获取内容的效率有着至关重要的作用。对于车载网边缘缓存，操作环境非常复杂，移动节点附近的本地内容流行度受到各种因素的影响。具体来说，用户在内容方面的偏好在复杂的模式中受用户上下文(如位置、个人特征和设备多样性)的影响。此外，为满足特定用户请求而选择的边缘节点受到网络条件(如网络拓扑、无线信道和BSs之间的协作)的复杂影响。由于无线网络天然的动态性，车载网的缓存环境会随着时间的推移而变化。边缘节点应具有学习新状态和新动作的智能，并对其进行匹配，以便采取最优或接近最优的动作。通过执行其行为的反馈，了解其行为的智能性。然后，智能缓存策略应该能够接受反馈，从而能够适应操作环境的动态变化。

发明内容

为了有效的提高车载内容中心网络下的边缘缓存系统性能，本发明提出了一种基于联邦学习的边缘预缓存策略。RSU将车辆的历史移动路径和可能请求的内容作为依据，对所处状态和采取的动作进行建模，再利用深度强化学习求解最优的内容分配方式，提前将所需内容存储到对应的RSU，从而降低车辆从 RSU获取内容所需的时延。各个RSU根据本地收集到的数据自行训练模型，随后利用联邦学习对各RSU训练得到的模型进行汇总，根据数据量对模型加权平均，将汇总后的模型统一分发到各RSU上。最后，根据邻居节点的缓存列表降低重复内容在缓存替换中的优先级，从而减少缓存冗余。

本发明的技术方案：

一种车载内容中心网络下基于联邦学习的边缘预缓存策略，步骤如下：

(1)首先在车载网的动态环境下采集内容请求的数据和对应车辆移动信息，对部署在RSU上的深度增强学习智能体进行训练，在给定条件下做出最有利于降低请求时延的决策。DRL智能体的训练过程首先需要对状态空间(state space)、动作空间(actionspace)和回报函数(reward function)进行定义：

(1.1)状态空间主要由两部分组成，一部分是车辆的移动状态，一部分是内容的请求概率。其中车辆的移动状态主要包含当前车辆当前的位置和一个时间片后可能到达的位置。当前的位置是容易获得的，但可能到达的位置并不能准确预测，因此我们采用马尔可夫链根据车辆的历史路径对车辆可能到达的位置进行预测，并将预测结果作为状态空间的组成部分。内容的请求概率也分为两类，一类是内容的流行度，另一类是基于车辆当前请求的内容预测的下一个可能请求的内容。

(1.2)为了避免动作空间过于膨胀，DRL智能体被限制一次只能选择一个内容预存入缓存当中，再把这个选择重复多次以达到将高优先级的内容都存入缓存。为了进一步提高效率，根据内容流行度进一步缩小可选内容的范围，只有流行度高于阈值的内容才能作为预缓存的对象。

(1.3)用缓存命中率来表征DRL智能体的工作效率，为了兼顾短期收益与长期收益，回报函数通过指数加权平均命中率表示：

其中r

(2)在定义了状态空间、动作空间和回报函数之后，就可以构建智能体的深度学习框架并进行训练了。本专利采用的深度强化学习框架由以下几部分组成：

(2.1)actor网络定义为一个参数为θ

(2.2)原始动作的生成能够有效降低由大规模动作空间带来的计算复杂度，但降低动作空间的维度同时也容易导致决策结果的不准确。因此采用K-最近邻(K-NearestNeighbor,KNN)的方法将生成的动作扩展为一组动作，即一个动作空间中有效动作的集合，其中的每一个元素都可能作为将要执行的动作。

(2.3)为了避免选取到低Q值的动作，还需要定义一个critic网络对actor 网络的输出进行限制，并更新actor网络的参数。对critic网络对每个动作的Q 值计算如下：

其中s

随后随机选取N条回放池中的状态转移记录，通过最小化损失函数对critic网络进行更新，损失函数L的定义为：

其中y

利用采样策略梯度对actor网络的参数进行更新，采样策略梯度的计算如下：

即根据链式法则对actor网络的参数θ

(3)深度强化学习智能体的训练需要大量的数据作为训练集，通常这些数据都是从不同RSU处收集到的，如果要将这些数据统一上传到一个中心节点，如一个特定RSU或者远程服务器，一方面会造成带宽被大量占用的情况，另一方面这个单一节点的计算性能将会成为瓶颈限制，同时大量边缘节点的计算资源得不到有效利用。因此本专利采用联邦学习的架构，由各个RSU分别在本地采集数据并对给定的网络进行训练，而后定期上传模型参数至远程服务器。远程服务器进行联邦平均，得到更新后的模型参数并重新下发给各RSU。联邦学习的流程如下：

(3.1)首先远程服务器初始化一个深度增强学习智能体的模型，为当前actor 网络和critic网络赋予随机的参数初值。随后远程服务器将这个模型分发给区域内各个RSU。

(3.2)RSU在接收到模型后开始进行模型训练，训练过程如步骤(2)所介绍的，如果有可供采用的历史数据，可以处理后用于模型训练，同时接收到模型之后系统运行中获得的新数据也可以对模型进一步更新。

(3.3)经过一段时间的训练之后，各个RSU将自己训练过的模型回传到远程服务器，由远程服务器进行联邦平均(federated averaging)，考虑到不同的 RSU所处位置不同，因此车流量也其具体计算方式如下：

其中θ

(3.4)远程服务器将训练后的模型重新分发给各RSU，各RSU用统一的智能体指导缓存操作。

(4)在步骤(1)中提到，DRL智能体一次只选择一个内容进行预缓存，然后通过多次重复将多个可能的内容进行预缓存。因此实际上一个预缓存内容即对应一个动作的Q值。在此基础上，为了降低多个临近RSU存储相同内容造成的空间浪费，每个RSU在计算各个动作的Q值时，首先与临近RSU交换自己的缓存列表，如果一个内容存在于多个临近RSU，则额外降低该动作的优先级，具体计算方式为：

本发明的有益效果：对于车载的移动网络而言，操作环境非常复杂，移动节点附近的本地内容流行度受到各种因素的影响。深度增强学习能够对复杂的操作环境进行建模，通过移动预测和用户请求内容预测表征缓存环境，通过大量数据的训练得到最优的预缓存选择结果。

由于RSU所处地区不同，用户密度和请求数量也都各不相同，一般来说训练集越大取得的模型越准确，但是如果RSU将训练数据全部上传到一个特定的 RSU或者远程服务器，那么数据传输将会占用大量带宽资源，同时单点性能瓶颈也会制约整个模型的训练效率。联邦学习能够有效解决上述问题，通过传输模型参数的方式降低带宽占用，同时充分利用RSU的计算资源进行模型训练，避免了单点性能瓶颈。

最后，根据临近RSU的缓存列表额外降低重复内容的优先级，能够有效降低冗余缓存造成的空间浪费，从而提高缓存效率。

附图说明

图1为本发明所述的预缓存策略的组织结构图。

图2为本发明所述的深度强化学习建模的流程图。

图3为本发明所述的深度强化学习智能体训练的流程图。

图4为本发明所述的联邦学习的流程图。

图5为本发明所述的RSU进行预缓存的流程图。

具体实施方式

为了将本发明的目的，技术方案和优点表达的更清晰明了，接下来将通过实施例和附图，对本发明做进一步的详尽的说明。

一种车载内容中心网络下基于联邦学习与深度强化学习的边缘预缓存策略，本方法包括深度强化学习对边缘缓存环境进行建模、利用联邦学习架构对训练后的模型参数进行统合、RSU通过本地智能体进行预缓存。

参照图2，深度强化学习所需的对边缘缓存环境建模的具体执行过程如下：

步骤1.在预热阶段RSU统计各个车辆的历史移动路径。

步骤2.根据各车辆的历史移动路径分别建立基于马尔可夫链的移动预测模型。

步骤3.每个车辆定期上传自己所在的位置，RSU将车辆的当前位置l

步骤4.RSU将车辆的最近两个时间片的位置代入移动预测模型中计算各个车辆下一个时间片最有可能到达的位置l

步骤5.基于用户在访问视频流数据时基本会按顺序请求的假设，可以计算用户可能访问的内容，例如t时刻访问的内容为c

Δi＝Δt/d

其中Δt表示一个时间片的时长，d

步骤6.RSU按如下方式计算内容的流行度：

其中λ∈[0,1]为衰减因数以表征历史请求次数相对于近期请求次数的权重，n

步骤7.根据内容流行度对内容进行筛选，只有流行度高于阈值ρ

步骤8.DRL智能体被限制一次只能选择一个内容预存入缓存当中，再把这个选择重复多次以达到将高优先级的内容都存入缓存。单次操作的动作空间为经过步骤7筛选后的所有内容：

其中N表示流行度达到阈值的内容个数。

步骤9.用缓存命中率来表征DRL智能体的工作效率，为了兼顾短期收益与长期收益，回报函数通过指数加权平均命中率表示：

其中r

参照图3，RSU上深度强化学习智能体的具体训练过程如下：

步骤10.初始化actor网络μ(s|θ

步骤11.基于t时刻的状态选择一个原始动作

步骤12.利用KNN算法选取最近的k个有效动作记为

步骤13.根据当前策略选择Q值最大的动作

步骤14.从经验回放集合R中选取一定大小的状态转移记录(s

步骤15.通过最小化损失函数更新critic网络：

利用参数梯度更新actor网络：

步骤16.更新目标网络：

其中τ＜＜1为更新系数。

步骤11至步骤16为一个时间片执行的模型更新，每个时间片都要循环重复一次。

参照图4，基于深度强化学习的联邦学习的具体流程如下：

步骤17.远程服务器初始化一个深度强化学习智能体的模型，为当前actor 网络和critic网络赋予随机的参数初值。

步骤18.远程服务器将这个模型分发给区域内各个RSU。

步骤19.RSU基于步骤10至步骤16对深度强化学习智能体进行在线训练。

步骤20.训练一段时间后，各个RSU将自己训练过的模型回传到远程服务器，由远程服务器进行联邦平均(federated averaging)，具体计算方式见技术方案(3.3).

步骤21.远程服务器将训练后的模型重新分发给各RSU，各RSU用统一的智能体指导缓存操作。然后重复步骤19至步骤21直至模型收敛。

参照图5，RSU进行预缓存的具体流程如下：

步骤22.临近RSU定期交换各自的缓存列表。

步骤23.在模型训练完成之后，每个时间片开始的时候，RSU收集环境信息并构建对应状态，包括车辆的移动状态和内容的请求概率。

步骤24.按照步骤11-12的描述，选取一个有效动作集合。

步骤25.对集合中各个动作对应的内容，首先剔除掉流行度达不到阈值的内容。

步骤26.如果集合中还有可选的内容，则执行步骤27-29；否则结束当前时间片的预缓存操作。

步骤27.每个RSU在利用critic网络计算各个动作的Q值时，如果一个内容存在于多个临近RSU，则额外降低该动作的优先级，具体计算方式为：

步骤28.如果缓存已满，采用LRU缓存替换策略选择内容丢弃掉，然后将预缓存内容置入缓存中。

步骤29.如果已经预缓存的内容数量达到了缓存空间的3/5，则结束当前时间片的预缓存操作；否则跳转回步骤24重复执行上述操作。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 车载内容中心网络下基于联邦学习的边缘预缓存策略 [P] . 中国专利： CN113158544A . 2021-07-23
2. 移动边缘环境下基于联邦学习和移动感知的QoS优化方法 [P] . 中国专利： CN111756848B . 2021.05.11
3. CONTENT CENTRIC NETWORK SYSTEM FOR DIFFERENTIATED SERVICES, EDGE ROUTER CONNECTED WITH CLIENT TERMINAL IN CONTENT CENTRIC NETWORK AND DIFFERENTIATED SERVICES PROVIDING METHOD IN CONTENT CENTRIC NETWORK [P] . 韩国专利： KR101465451B1 . 2014-11-26

机译：差异化服务的内容中心网络系统，内容中心网络中与客户端连接的边缘路由器和内容中心网络中的差异化服务提供方法
4. CONTROLLING METHOD FOR DATA TRAFFIC IN CONTENT CENTRIC NETWORK PROVIDING DIFFERENTIATED SERVICES AND EDGE ROUTER CONNECTED WITH CLIENT TERMINAL IN CONTENT CENTRIC NETWORK PROVIDING DIFFERENTIATED SERVICES [P] . 韩国专利： KR101465934B1 . 2014-11-26

机译：内容中心网络提供差异服务的内容中心网络和与客户终端相连的边缘路由器的数据流量控制方法
5. Configuring Cache Policies for a Cache Based on Combined Cache Policy Testing [P] . US2021406145A1 . 2021-12-30

机译：基于组合缓存策略测试配置缓存的缓存策略