首页> 中国专利> 一种用于机器类通信系统的有序竞争大规模接入学习方法

一种用于机器类通信系统的有序竞争大规模接入学习方法

摘要

本发明公开了一种用于机器类通信系统的有序竞争大规模接入学习方法,包括:新接入的设备采用多智能体强化学习算法来协作选择满足自身的需求的信道;设备在物理随机接入信道上发送前导码,基站接受请求之后发送应答,应答里包括对该设备在选择的前导码下的特定编号,该特定编号根据设备自身的优先级来确定,编号最小的设备在物理随机接入信道上发送数据,其余编号的设备都处于等待状态,每过一个单位时刻,等待中的设备编号自动缩减。本发明弱化了竞争过程中的随机性,新接入的设备可以通过多智能体强化学习算法进行协作选择合适的前导码并按照优先级划分,同时确保还未成功接入设备的最低时延要求。

著录项

  • 公开/公告号CN114980353A

    专利类型发明专利

  • 公开/公告日2022-08-30

    原文格式PDF

  • 申请/专利权人 南京邮电大学;

    申请/专利号CN202210472683.5

  • 发明设计人 孙君;郭兴康;

    申请日2022-04-29

  • 分类号H04W74/08(2009.01);H04W74/00(2009.01);H04W74/02(2009.01);H04W4/70(2018.01);

  • 代理机构南京经纬专利商标代理有限公司 32200;

  • 代理人陈月菊

  • 地址 210023 江苏省南京市栖霞区文苑路9号

  • 入库时间 2023-06-19 16:36:32

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-09-16

    实质审查的生效 IPC(主分类):H04W74/08 专利申请号:2022104726835 申请日:20220429

    实质审查的生效

说明书

技术领域

本发明属于无线通信技术领域,具体涉及物联网大规模机器类通信M2M(Machine-to-Machine)中的一种有序竞争大规模接入学习方法。

背景技术

随着通信技术的飞速发展,通信业务已经从传统的人与人之间的通信逐渐发展到物与物之间的通信,这种通信方式叫做物联网(Internet of Things,IoT),预计到2023年,全球实现M2M(Machine-to-Machine)之间通信的设备将在350亿以上,这给现有的蜂窝网络带来的严峻的挑战,于是第五代移动通信(5G)技术成为了研发的焦点,其中mMTC(massiveMachine Type Communication)是5G三大应用场景之一。为了满足机器类设备的海量接入需求,需要在当前拥塞控制机制的基础上进一步进行控制优化。同时,考虑到不同业务类型的机器类通信设备(Machine Type Communication Device,MTCD)服务质量(Quality ofService,QoS)的差异性,不同业务类型MTCD的接入需求不一样。因此,还应解决多种业务类型的MTCD接入蜂窝网络时的前导资源划分问题。对于多种业务类型MTCD同时进行随机接入的场景,在提高系统吞吐量的同时必须考虑各种业务类型MTCD的接入时延、碰撞数和接入公平性。然而大多数传统的接入方案都是基于随机竞争的,通常采用动态调整ACB(AccessClass Barring)因子来优化碰撞,即退避预测,虽然可以有效的缓解碰撞问题,但依然会有碰撞发生。因此需要一种新的有序竞争接入方案来解决碰撞问题。

发明内容

解决的技术问题:本发明针对传统基于竞争的随机接入碰撞问题提出了一种新的有序竞争接入方案,与传统方案不一样的是,该方案不是盲目竞争,而是有目标的竞争,从而弱化了竞争过程中的随机性。每个设备都有不同的优先级以及最低时延要求,设备在发生碰撞时会进入排队状态,新接入的设备可以通过多智能体强化学习算法进行协作选择合适的前导码并按照优先级划分,同时需要确保还未成功接入设备的最低时延要求。

技术方案:

一种用于机器类通信系统的有序竞争大规模接入学习方法,所述有序竞争大规模接入学习方法包括以下步骤:

S1,在随机接入开始前,基站分配物理随机接入信道、物理上行链路共享信道的无线资源并广播给所有移动设备;每个物理随机接入信道均对应有独有的前导码;

S2,在随机接入开始时,基站广播每个前导码下对应等待的设备数量,新接入的设备采用多智能体强化学习算法来协作选择满足自身的需求的信道;具体地,设备在物理随机接入信道上发送前导码,基站接受请求之后发送应答,应答里包括对该设备在选择的前导码下的特定编号,该特定编号根据设备自身的优先级来确定,编号最小的设备在物理随机接入信道上发送数据,其余编号的设备都处于等待状态,每过一个单位时刻,等待中的设备编号自动缩减;

所述多智能体强化学习算法同时结合前导码序列等待的设备数量、自身的信道要求、延迟容忍度、设备优先级,使每个设备都处于自身最大时延容忍度内且每个前导码序列preamble

进一步地,步骤S2中,根据下述设备的优先级函数确定每个新接入设备的编号:

priorityfunc(t)=P

式中,t≥t

进一步地,步骤S3中,假设有m个前导码,第i个前导码对应的设备队列为preamble

所述多智能体强化学习算法的目标函数表示为:

其中,x

进一步地,步骤S3中,新接入的设备采用多智能体强化学习算法来协作选择满足自身的需求的信道的过程包括以下步骤:

S31,构建状态集S:状态集S用来表示整个接入环境的状态,由t+1个状态组成,S={s

S32,构建动作集A:动作集A用于表示每个智能体根据当前状态s

S33,构建奖励R:智能体采取动作后,当前环境的状态会发生改变,同时会产生环境收益,对应的奖励r

S34,采用深度强化学习构建神经网络,该网络的输入为动作a

其中α

S35,采用梯度下降法来更新神经网络的权重θ。

进一步地,步骤S35中,采用梯度下降法来更新神经网络的权重θ的过程包括以下步骤:

S351,随机初始化神经网络的权重θ和智能体j的动作

S352,计算出新接入设备的优先级,设置损失函数E的收敛阈值,初始化α

S353,每个智能体根据当前状态信息并使用ε贪婪策略做出决策;

S354,更新环境的状态s

S355,存储s

S356,重复步骤S353至步骤S355,累计经验;从累计的经验中随机抽取一定数量的样本,根据这些样本计算出损失函数E,并更新权重θ;

S357,重复步骤S353至步骤S356,直至损失函数E到达收敛条件或者达到最大迭代次数T。

有益效果:

(1)与传统随机竞争接入方式不同,本发明的用于机器类通信系统的有序竞争大规模接入学习方法,采用的有序竞争接入可以解决碰撞问题,并且同规模下可以让更多的移动设备(MTCD)进行接入。

(2)本发明的用于机器类通信系统的有序竞争大规模接入学习方法,移动设备(MTCD)进行决策时,采用了基于多智能体强化学习算法来协作选择合适的前导码,采用该学习算法可以更好的适应环境变化提高收敛速度。

附图说明

图1是本发明实施例的基于有序竞争的接入模型图。

图2是本发明实施例的基于多智能体强化学习的模型图.

图3是本发明实施例的每个前导码序列的模型图。

图4是本发明实施例的多智能体的神经网络结构图。

具体实施方式

下面的实施例可使本专业技术人员更全面地理解本发明,但不以任何方式限制本发明。

本实施例提出一种用于机器类通信系统的有序竞争大规模接入学习方法,该有序竞争大规模接入学习方法包括以下步骤:

S1,在随机接入开始前,基站分配物理随机接入信道、物理上行链路共享信道的无线资源并广播给所有移动设备;每个物理随机接入信道均对应有独有的前导码。

S2,在随机接入开始时,基站广播每个前导码下对应等待的设备数量,新接入的设备采用多智能体强化学习算法来协作选择满足自身的需求的信道;具体地,设备在物理随机接入信道上发送前导码,基站接受请求之后发送应答,应答里包括对该设备在选择的前导码下的特定编号,该特定编号根据设备自身的优先级来确定,编号最小的设备在物理随机接入信道上发送数据,其余编号的设备都处于等待状态,每过一个单位时刻,等待中的设备编号自动缩减。

所述多智能体强化学习算法同时结合前导码序列等待的设备数量、自身的信道要求、延迟容忍度、设备优先级,使每个设备都处于自身最大时延容忍度内且每个前导码序列preamble

在单基站(Base Station BS)的场景下,有若干个移动设备MTCD,传统方案下用户可细分为新接入的设备和发生碰撞进行退避的设备,在本发明下发生碰撞进行退避的设备并不会再一次的随机竞争前导码而是处于排队状态。在随机接入(Random Access RA)开始前,基站分配物理随机接入信道(Physical Random Access Channel PRACH)、物理上行链路共享信道(Physical Uplink Shared Channel PUSCH)的无线资源并广播给所有MTCD。

参见图1,在RA开始时,基站会广播每个前导码下对应等待的设备数量,以供新接入的设备根据自身的需求来决策选择合适的信道。与传统的随机接入方式不同,设备在PRACH上发送前导码,基站接受请求之后会发送应答,应答里包括对该设备在选择的前导码下的特定编号,编号是根据设备自身的优先级来确定的。编号最小的设备在PUSCH上发送数据,每过一个单位时刻,设备编号都会自缩减。其余编号的设备都处于等待状态。设备的优先级函数如下:

priorityfunc(t)=P

式中,t≥t

与传统的随机接入方式相比,由于设备在时间维度上都是独自在PUSCH发送数据,因此没有碰撞也就没有冲突避免这一步骤。假设MTCD的到达模型服从Beta分布,如下所示:

其中α=3、β=4。

参见图2,在设备决策这方面,采用多智能体强化学习算法来彼此协作,每一个设备都可以当作一个智能体,每个智能体的决策都会影响其余的智能体,因为前导码的队长会随着新加入的设备而变化。设备决策将考虑前导码序列等待的设备数量、自身的信道要求、延迟容忍度、设备优先级这几个方面。

参见图3,假设有m个前导码,用编号可以分别表示为1,2,3,...,i,...,m,每个前导码下都有一定数量的队列,用preamble

新接入的设备在使用多智能体进行协作决策的时候,还需要尽可能均匀每个前导码序列preamble

其中,x

状态集S:用来表示整个接入环境的状态包括每个前导码序列下的设备信息s

动作集A:根据当前状态,每个智能体根据自身的决策策略π采取动作a

奖励R:智能体采取动作后,当前环境的状态会发生改变,同时会产生环境收益也就是回报。为了简化计算,我们希望每个处于队尾的设备在其排队等待的过程中都能满足自身的时延容忍度,因此奖励r

式中,1≤j≤n

其中α

损失函数E:要使得Q

采用梯度下降法来更新神经网络的权重θ。

参见图4,根据前面技术方案所提到的内容,具体的实施步骤如下:

步骤1:随机初始化神经网络的权重θ和智能体j的动作

步骤2:计算出新接入设备的优先级,设置损失函数E的收敛阈值,初始化α

步骤3:每个智能体根据当前状态信息并使用ε贪婪策略做出决策。

步骤4:更新环境的状态s

步骤5:将s

步骤6:从累计的经验中随机抽取一定数量的样本,根据这些样本计算出损失函数E,并更新权重θ,重复步骤3,直至损失函数E到达收敛条件或者程序本身达到最大迭代次数T。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。本实施例中未明确的各组成部分均可用现有技术加以实现。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号