首页> 中国专利> 基于深度强化学习的投资组合管理方法

基于深度强化学习的投资组合管理方法

页面导航

摘要
著录项
说明书
相似文献

摘要

本发明揭示了一种基于深度强化学习的投资组合管理方法，通过构建多层式卷积神经网络模型,将经过多层激活函数为ReLU的卷积层和池化层的数据集张量转化为一维数据，插入上一交易周期结束后的资产分配比，通过SoftMax激活函数输出当前策略网络做出的组合决策，训练多层式卷积神经网络模型使其参数最优化，加载训练好的多层式卷积神经网络模型参数，接收加密货币的历史价格和特征值数据，通过所述多层式卷积神经网络模型获取下一交易周期初的资产分配权重，并根据资产分配权重调整资产在加密货币市场中的分配，从而得到最优投资策略。本发明引入了额外的特征值数据，使神经网络能够接收更多的有效信息，加深了神经网络的深度，提高了神经网络的性能。

著录项

公开/公告号CN112991059A

专利类型发明专利
公开/公告日2021-06-18

原文格式PDF
申请/专利权人西交利物浦大学;
展开▼

申请/专利号CN202110235493.7
发明设计人苏炯龙;顾封琛;蒋正雍;
展开▼

申请日2021-03-03
分类号G06Q40/04(20120101);G06Q40/06(20120101);G06K9/62(20060101);G06N3/04(20060101);G06N3/08(20060101);
代理机构32297 南京艾普利德知识产权代理事务所(特殊普通合伙);
代理人陆明耀
地址 215121 江苏省苏州市工业园区独墅湖科教创新区仁爱路111号
入库时间 2023-06-19 11:29:13

说明书

技术领域

本发明涉及人工智能技术领域，尤其是机器学习中的基于深度强化学习的投资组合管理方法。

背景技术

随着人工智能技术的发展，强化学习算法已经被应用于金融领域。目前，通过搭建合适的交互环境，基于卷积神经网络的强化学习模型已经被初步地应用于资产管理，例如申请号为201910321426.X所示方法。

但是由于资产管理中动作空间过于庞大，单个卷积无法对其充分探索，因此单个卷积模型的收益状况并不出色。在资产管理的卷积模型中，动作被定义为每一交易周期初所确定的资产分配权重，在此定义下，再规定最小权重单位便可得到离散化的动作空间。然而，如果最小权重单位太小或者资产数量太多，就会导致资产权重向量(动作)数量过多。这样一来，不仅对于动作空间的探索效率很低，而且神经网络的训练也会变得非常困难。

因此，如果使用单个卷积模型进行资产管理，通常需要限制资产个数，并且忽略手续费，以此来减少权重向量的个数。这严重影响了该模型的应用价值和泛化能力。

发明内容

本发明的目的就是为了解决现有技术中存在的上述问题，提供一种适用于资产数量较多且效率较高的基于深度强化学习的投资组合管理方法。

本发明的目的通过以下技术方案来实现：

一种基于深度强化学习的投资组合管理方法，包括如下步骤：

S1,构建加密货币交易场景的多层式卷积神经网络模型；

所述多层式卷积神经网络模型包括多层卷积神经网络，所述每个卷积神经网络的输入为第t个交易周期的价格和特征值张量,将经过多层激活函数为ReLU的卷积层和池化层的数据集张量转化为一维数据，插入上一交易周期结束后的资产分配比，通过SoftMax激活函数输出当前策略网络做出的组合决策；

其中，第t个交易周期的时间区间为[t-1，t)，t为自然数；

S2，训练所述多层式卷积神经网络模型使其参数最优化；

S3，加载训练好的卷积神经网络模型参数，接收加密货币的历史价格和特征值数据，通过所述多层式卷积神经网络模型获取下一交易周期初的资产分配权重，并根据资产分配权重调整资产在加密货币市场中的分配，从而得到最优投资策略。

优选的，所述基于深度强化学习的投资组合管理方法中，所述S1中，所述第t个交易周期的价格和特征值张量通过如下方法得到：

S11，分别提取所要管理加密货币的前t个周期的收盘、最高、最低价格和额外特征值，所述额外特征值为网络价值-交易量比率，形成四个(m*t)的矩阵，m为该投资组合管理的加密货币的个数，对于前t个周期非交易日的数据，用上一个交易日的收盘、最高、最低价格和额外特征值如网络价值-交易量比率对相应指标分别进行填充；

S12，将S11中得到的四个矩阵分别进行max-abs标准化；

S13，将经过S12得到的四个矩阵组合成一个(m,t,4)维的价格和特征值张量，即为第t个交易周期的价格和特征值张量。

优选的，所述基于深度强化学习的投资组合管理方法中，所述S2中，每层卷积神经网络的训练过程如下：

S21，提取记忆批次

其中，s

S22,计算该批次对应的平均对数累积收益

其中，y

S23，计算时间间隔

S24,使用公式

S25，将最优参数赋给卷积神经网络。

优选的，所述基于深度强化学习的投资组合管理方法中，所述多层式卷积神经网络的结构如下：

S311，接收(64,m,3)维的价格和特征值张量，所述m为投资产品个数；

S312，通过卷积核为1*3，神经元的激活函数为ReLU的卷积层对输入的张量进行特征提取，形成一个(32*m*3)的张量；

S313，将S312中获得的(32*m*3)张量，通过一层卷积层和一层池化层，形成一个(32*m*2)的张量；

S314，将S313中获得的(32*m*2)张量，通过两层卷积层和一层池化层，形成一个(16*m*4)的张量；

S315，将S314中获得的(16*m*4)张量，通过两层卷积层和一层池化层，形成一个(8*m*8)的张量；

S316，将S315中获得的(8*m*8)张量，通过两层卷积层和一层池化层，形成一个(4*m*16)的张量；

S317，将S316中获得的(4*m*16)张量，通过一层卷积核为1*4，神经元的激活函数为ReLU卷积层，形成一个(1*m*(20+1))的张量；

S318，将S317中获得的(1*m*(20+1))张量，通过一层卷积核为1*1卷积层，将多维数据转化为一维数据；

S319，在S318得到的一维数据中插入上一交易周期结束后的资产分配比，通过SoftMax激活函数，输出向量为当前策略网络做出的组合决策。

优选的，所述基于深度强化学习的投资组合管理方法中，所述S312包括：

S3121，通过一层卷积核规模为1*3的卷积层输出一个(64*m*3)的张量，其中选用ReLU函数作为神经元的激活函数；

S3132，将S3131得到的(64*m*3)张量输入到池化层输出一个(32*m*3)的张量。

优选的，所述基于深度强化学习的投资组合管理方法中，所述S313包括：

S3131，通过一层卷积核规模为1*2的卷积层输出一个(32*m*3)的张量，其中选用ReLU函数作为神经元的激活函数；

S3132，将S3131得到的(32*m*3)张量输入到池化层输出一个(32*m*2)的张量。

优选的，所述基于深度强化学习的投资组合管理方法中，所述S314包括：

S3141，通过两层卷积核规模为1*4的卷积层输出一个(32*m*4)的张量，其中选用ReLU函数作为神经元的激活函数；

S3142，将S3141得到的(32*m*4)张量输入到池化层输出一个(16*m*4)的张量。

优选的，所述基于深度强化学习的投资组合管理方法中，所述S315包括：

S3151，通过两层卷积核规模为1*8的卷积层输出一个(16*m*8)的张量，其中选用ReLU函数作为神经元的激活函数；

S3152，将S3151得到的(16*m*8)张量输入到池化层输出一个(8*m*8)的张量。

优选的，所述基于深度强化学习的投资组合管理方法中，所述S316包括：

S3161，通过两层卷积核规模为1*18的卷积层输出一个(8*m*16)的张量，其中选用ReLU函数作为神经元的激活函数；

S3162，将S3161得到的(16*m*8)张量输入到池化层输出一个(4*m*16)的张量。

优选的，所述基于深度强化学习的投资组合管理方法中，还包括S4,定期或不定期使用不同的数据对卷积神经网络模型进行叠加训练及参数微调。

本发明技术方案的优点主要体现在：

本发明引入了额外的特征值数据，使神经网络能够接收更多的有效信息，采用多层式结构进行建模，加深了神经网络的深度，提高了神经网络的性能，使神经网络能够有效地进行训练，并找出每个状态下的最优动作。

附图说明

图1是本发明所述基于深度强化学习的投资组合管理方法的流程示意图；

图2是多层卷积神经网络的结构及工作原理示意图；

图3 2018.02.01-2020.02.01时间段的测试数据集进行不同模型测试的结果比对图。

具体实施方式

本发明的目的、优点和特点，将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例，凡采取等同替换或者等效变换而形成的技术方案，均落在本发明要求保护的范围之内。

在方案的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。并且，在方案的描述中，以操作人员为参照，靠近操作者的方向为近端，远离操作者的方向为远端。

下面结合附图对本发明揭示的一种基于深度强化学习的投资组合管理方法进行阐述，其包括如下步骤：

S1,构建加密货币交易场景的多层式卷积神经网络模型；

具体的，通过深度神经网络构建智能代理，所述智能代理与使用加密货币收盘、最高、最低价格和额外特征值的时间序列数据构建的环境进行交互，环境会产生状态转移和即时回报，通过状态转移和即时回报的数据，训练深度神经网络，再次采取动作，依照上述过程循环，使智能代理每次采取动作的累计折扣即时回报最大化。其中，所述额外特征值为网络价值-交易量比率。

其中，代理的状态空间{S

所述第t个交易周期的价格和特征值张量作为深度神经网络的每个卷积神经网络的输入，通过如下方法得到：

S11，分别提取所要管理加密货币的前t个周期的收盘、最高、最低价格和额外特征值，形成四个(m*t)的矩阵，m为该投资组合管理的加密货币的个数，对于前t个周期非交易日的数据，用上一个交易日的收盘、最高、最低价格和额外特征值如网络价值-交易量比率对相应指标分别进行填充；

S12，将S11中得到的四个矩阵分别进行max-abs标准化；

S13,将经过S12得到的四个矩阵组合成一个(m,t,4)维的价格和特征值张量，即为第t个交易周期的价格和特征值张量。

S2，训练所述多层式卷积神经网络模型使其参数最优化：

S21，提取记忆批次

其中，s

S22,计算该批次对应的平均对数累积收益

其中，y

S23，计算时间间隔

S24,使用公式

S25，将最优参数赋给卷积神经网络。

训练好的模型能够直接用于加密货币交易，即根据不同的实时加密货币价格，输出对应的资金分配情况。

S3，加载训练好的多层式卷积神经网络模型参数，接收加密货币的历史价格和特征值数据，通过所述多层式卷积神经网络模型获取下一交易周期初的资产分配权重，并根据资产分配权重调整资产在加密货币市场中的分配，从而得到最优投资策略。

如附图2所示，所述多层式卷积神经网络处理投资组合的过程如下：

S311，接收(64,m,3)维的价格和特征值张量，所述m为投资产品个数；

S312，通过卷积核为1*3，神经元的激活函数为ReLU的卷积层对输入的张量进行特征提取，形成一个(32*m*3)的张量；该步骤具体包括：

S3121，通过一层卷积核规模为1*3的卷积层输出一个(64*m*3)的张量，其中选用ReLU函数作为神经元的激活函数；

S3132，将S3131得到的(64*m*3)张量输入到池化层输出一个(32*m*3)的张量。

S313，将S312中获得的(32*m*3)张量，通过一层卷积层和一层池化层，形成一个(32*m*2)的张量；该步骤具体包括：

S3131，通过一层卷积核规模为1*2的卷积层输出一个(32*m*3)的张量，其中选用ReLU函数作为神经元的激活函数；

S3132，将S3131得到的(32*m*3)张量输入到池化层输出一个(32*m*2)的张量。

S314，将S313中获得的(32*m*2)张量，通过两层卷积层和一层池化层，形成一个(16*m*4)的张量；该步骤具体包括：

S3141，通过两层卷积核规模为1*4的卷积层输出一个(32*m*4)的张量，其中选用ReLU函数作为神经元的激活函数；

S3142，将S3141得到的(32*m*4)张量输入到池化层输出一个(16*m*4)的张量。

S315，将S314中获得的(16*m*4)张量，通过两层卷积层和一层池化层，形成一个(8*m*8)的张量；该步骤具体包括：

S3151，通过两层卷积核规模为1*8的卷积层输出一个(16*m*8)的张量，其中选用ReLU函数作为神经元的激活函数；

S3152，将S3151得到的(16*m*8)张量输入到池化层输出一个(8*m*8)的张量。

S316，将S315中获得的(8*m*8)张量，通过两层卷积层和一层池化层，形成一个(4*m*16)的张量；该步骤具体包括：

S3161，通过两层卷积核规模为1*18的卷积层输出一个(8*m*16)的张量，其中选用ReLU函数作为神经元的激活函数；

S3162，将S3161得到的(16*m*8)张量输入到池化层输出一个(4*m*16)的张量。

S317，将S316中获得的(4*m*16)张量，通过一层卷积核为1*4，神经元的激活函数为ReLU卷积层，形成一个(1*m*(20+1))的张量；

S318，将S317中获得的(1*m*(20+1))张量，通过一层卷积核为1*1卷积层，将多维数据转化为一维数据；

S319，在S318得到的一维数据中插入上一交易周期结束后的资产分配比，通过SoftMax激活函数，输出向量为当前策略网络做出的组合决策。

最终投资策略是通过模型获取下一交易周期初的资产分配权重，并根据资产分配权重调整资产在加密货币市场中的分配，从而得到最优投资策略。

在模型训练完成后，投入使用前，可以采用测试数据集进行模型的性能检测，具体的，以11支加密货币为例构成测试数据集，11支加密货币代码分别为：reversed_USDT、reversed_USDC、ETH、XRP、LTC、STR、BCHSV、BCHABC、XMR、ATOM和DASH。具体是通过Pol oniex下载11支加密货币的时间序列数据，分别提取所选加密货币的前t个周期的收盘、最高、最低价格，再通过coinmetrics下载11支加密货币的额外特征，形成4个11*N的价格和特征值矩阵。将得到的11组数据合并上无风险资产(现金)，处理成规模为四个12*N的包含12种投资产品的价格矩阵。对于前t个周期中非交易日的数据，用上一个交易日的开盘价，收盘、最高、最低价格和额外特征值如网络价值-交易量比率相对应的指标分别进行填充。并且通过四个矩阵分别进行max-abs标准化，使每个矩阵都标准化。实际将2017.11.01-2019.11.01、2018.02.01-2020.02.01和2018.08.01-2020.08.01的加密货币时间序列数据分别设定为测试数据集。

将测试数据集输入本方案的所述多层式卷积神经网络模型后所得的结果和传统资产管理方法结果的对比呈现如附图3所示，其中涉及的传统方法如下：

Moving Average Reversion(OLMAR),

Passive Aggressive Mean Reversion(PAMR),

Confidence Weighted Mean Reversion(CWMR),

Online Newton Step(ONS),

Weighted Moving Average Mean Reversion(WMAMR),

Robust Median Reversion(RMR).

从比对图可以看出，本方案的方案相对其他方法，其获得的收益水平最佳，取得了更好的效果。

最后,针对复杂多变的加密货币市场，模型需要进行增量式的训练，因此，本发明所述的基于深度强化学习的投资组合管理方法，还包括S4,定期或不定期使用不同特征的价格时间序列数据对多层式卷积神经网络模型进行叠加训练及参数微调。这也是一种迁移学习的过程，使得模型更加完善和健壮，使模型拥有更好的扩展性和鲁棒性，此处具体的训练过程与上述S21-S25的过程相同，在此不作赘述。

本发明所述的基于深度强化学习的投资组合管理方法引入了额外的特征值数据，使神经网络能够接收更多的有效信息，采用多层式结构进行建模，加深了神经网络的深度，提高了神经网络的性能，使神经网络能够有效地进行训练，并找出每个状态下的最优动作。所以，本发明所述的基于深度强化学习的投资组合管理方法能够适用于资产数量较多的情形，而且效率较高。

本发明尚有多种实施方式，凡采用等同变换或者等效变换而形成的所有技术方案，均落在本发明的保护范围之内。

去获取专利，查看全文>

相似文献

专利
中文文献
外文文献

1. 基于深度强化学习的投资组合管理方法 [P] . 中国专利： CN112991059A . 2021-06-18
2. 一种基于深度强化学习算法的燃料电池汽车能量管理方法 [P] . 中国专利： CN112287463B . 2022.02.11
3. PORTFOLIO MANAGEMENT SYSTEM AND PORTFOLIO MANAGEMENT METHOD [P] . 世界知识产权组织专利： WO02082333A2 . 2002-10-17

机译：投资组合管理系统和投资组合管理方法
4. INTERNET-BASED SYSTEM FOR IDENTIFICATION, MEASUREMENT AND RANKING OF INVESTMENT PORTFOLIO MANAGEMENT, AND OPERATION OF A FUND SUPERMARKET, INCLUDING "BEST INVESTOR" MANAGED FUNDS [P] . 欧洲知识产权局专利： EP1292907A4 . 2005-11-09

机译：基于Internet的投资组合管理，投资组合管理的识别，测量和排名系统，包括“最佳投资者”管理的基金
5. INTERNET-BASED SYSTEM FOR IDENTIFICATION, MEASUREMENT AND RANKING OF INVESTMENT PORTFOLIO MANAGEMENT, AND OPERATION OF A FUND SUPERMARKET, INCLUDING "BEST INVESTOR" MANAGED FUNDS [P] . 欧洲知识产权局专利： EP1292907A1 . 2003-03-19

机译：基于Internet的投资组合管理，投资组合管理的识别，测量和排名系统，包括“最佳投资者”管理的基金