首页> 中国专利> 基于深度强化学习的组合投资方法及智能体

基于深度强化学习的组合投资方法及智能体

摘要

本发明提供一种基于深度强化学习的组合投资方法及智能体,所述基于深度强化学习的组合投资方法,包括:S1,构建加密货币交易场景的基于深度强化学习的策略神经网络,所述策略神经网络使用深度多通道卷积神经网络,并结合了瓶颈注意力机制;S2,训练所述策略神经网络使得其参数最优化;S3,加载训练好的所述策略神经网络,接受实时的加密货币数据,通过所述策略神经网络获得下一个交易周期的资产分配权重,并根据资产分配权重来调整资金在加密货币市场中各个投资标的间的分配,从而实现最优的投资策略。本发明所述基于深度强化学习的组合投资方法及智能体,使用深度多通道卷积神经网络,并结合了瓶颈注意力机制,所以能力较佳。

著录项

  • 公开/公告号CN114677224A

    专利类型发明专利

  • 公开/公告日2022-06-28

    原文格式PDF

  • 申请/专利权人 西交利物浦大学;

    申请/专利号CN202210213887.7

  • 发明设计人 苏炯龙;任晓天;姚伟业;

    申请日2022-03-04

  • 分类号G06Q40/06;G06Q40/04;G06N3/04;G06N3/08;

  • 代理机构南京艾普利德知识产权代理事务所(特殊普通合伙);

  • 代理人陆明耀

  • 地址 215121 江苏省苏州市工业园区独墅湖科教创新区仁爱路111号

  • 入库时间 2023-06-19 15:47:50

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-06-28

    公开

    发明专利申请公布

说明书

技术领域

本发明涉及了机器学习中的深度强化学习技术领域,尤其是基于深度强化学习的组合投资方法和智能体。

背景技术

随着人工智能技术的发展,强化学习算法已经被广泛运用于金融领域。目前,通过搭建适合的交互环境,基于强化学习的投资组合管理模型已经被初步地应用于资产管理,例如申请号为201810030006.1所示方法,运用Q Learning的强化学习Deep Q-network(DQN)模型进行投资组合的管理。

由于Deep Q-network只适用于离散的行动空间,需要对于投资组合的动作空间进行离散化处理,这会导致智能体在随机动作探索阶段无法对每个动作进行充分探索,并且使Deep Q-network的全连接层出现大量神经元。这样一来,不仅对于动作空间的探索效率很低,而且神经网络的训练也会变得非常困难。并且,对于行动空间进行离散化处理通常需要限制投资标的的个数,并且忽略手续费,以此来减少权重向量的个数。这严重影响了该模型的应用价值和泛化能力。

发明内容

本发明的目的在于提供一种能力较佳的基于深度强化学习的组合投资方法及智能体。

本发明的目的通过以下技术方法来实现:

一种基于深度强化学习的组合投资方法,包括如下步骤:

S1,构建加密货币交易场景的基于深度强化学习的策略神经网络;

所述策略神经网络使用深度多通道卷积神经网络,并结合了瓶颈注意力机制,包括两个部分,所述策略神经网络的第一部分的输入为第N个交易周期的价格张量和上一个交易周期的资金分配权重,转化为投资组合中各个加密货币在下一个交易周期中的价格增长潜力的打分输出;所述策略神经网络的第二部分将所述策略神经网络的第一部分输出的各个加密货币在下一个交易周期中的价格增长潜力的打分转化为各个加密货币在下一个交易周期中资金分配权重,以此实现下一个交易周期中的所述加密货币投资组合的最高收益,所述策略神经网络的决策对应着一个马尔可夫策略过程;

S2,训练所述策略神经网络使得其参数最优化;

S3,加载训练好的所述策略神经网络,接受实时的加密货币数据,通过所述策略神经网络获得下一个交易周期的资产分配权重,并根据资产分配权重来调整资金在加密货币市场中各个投资标的间的分配,从而实现最优的投资策略。

优选的,所述S1中,所述第N个交易周期的价格张量通过如下方法得到:

S11,以三十分钟为一个交易周期,分别提取所要管理的加密货币的前0.5N小时中每个交易周期的收盘价、最高价和最低价,并根据收盘价计算出过去六期收盘价的引动平均,形成三个(N*M)的矩阵,M为该马尔可夫策略所管理的投资组合中的加密货币的数量;

S12,将S11中得到的三个矩阵分别除以上一个交易周期的收盘价,使每个矩阵都标准化;

S13,将S12中,对于价格张量中由于价格数据缺失无法计算得到数据的位置,用相对价格1进行填充;

S14,将经过S13得到的三个矩阵组合成一个(N*M*3)维的价格张量,即为第N个交易周期的价格张量。

优选的,所述S2中,所述策略神经网络的训练过程如下:

S21,提取记忆批次

S22,计算该批次对应时间内的累计收益

S23,对于累计收益函数

从而找到最优参数θ

S24,将最优参数赋值给策略神经网络π

S25,重复上述步骤直到训练集的累计收益率最大化。

优选的,所述S3中,所述策略神经网络的第一部分执行的过程包括:

S31,接受三维的价格张量;

S32,通过所述策略神经网路进行特征提取,输出64个特征矩阵;

S33,获得S32中得到的特征矩阵的第二个维度的大小,将S32中得到的64个特征矩阵通过一层卷积核数量为10,卷积规模为1*该张量第二个维度的大小,步长为1*1,填充为0的卷积层输出一个(M,1,10)的张量;

S34,将S33得到的(M,1,10)的张量输入一层卷积规模为1*1的卷积层输出一个(M,1)的向量,该(M,1)向量中的数值是对于投资组合中M个投资标的在下一个交易周期中的增长潜力的打分。

优选的,所述S32包括:

S321,对S31得到的价格张量,通过一层卷积核数量为16,卷积规模为1*7,步长为1*2,填充属性为1的卷积层得到16个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S322,将S321得到的16个特征矩阵输入到一层池化核规模为1*3,步长为1*1,填充属性为1的最大池化层输出16个的特征矩阵并进行一次局部响应归一化;

S323,将S322得到的16个特征矩阵输入到一层卷积核数量为64,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到64个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S324,将S323得到的64个特征矩阵输入到一层卷积核数量为192,卷积规模为1*4,步长为1*2,填充属性为0的卷积层得到192个特征矩阵,其中选用Relu函数作为神经元的激活函数并进行一次局部响应归一化;

S325,将S324得到的192个特征矩阵输入到一层池化核规模为1*2,步长为1*2,填充属性为1的最大池化层得到192个特征矩阵;

S326,将S325得到的192个特征矩阵输入到一层卷积核数量为16,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到16个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S327,将S325得到的192个特征矩阵输入到一层卷积核数量为24,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到24个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S328,将S327得到的24个特征矩阵输入到一层卷积核数量为32,卷积规模为1*3,步长为1*1,填充属性为1的卷积层得到32个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S329,将S325得到的192个特征矩阵输入到一层卷积核数量为4,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到4个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3210,将S329得到的4个特征矩阵输入到一层卷积核数量为8,卷积规模为1*5,步长为1*1,填充属性为1的卷积层得到8个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3211,将S324得到的192个特征矩阵输入到一层池化核规模为1*3,步长为1*1,填充属性为1的最大池化层得到192个特征矩阵;

S3212,将S3211得到的192个特征矩阵输入到一层卷积核数量为8,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到8个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3213,将S326,S328,S3210和S3212得到的特征矩阵进行堆叠,得到64个特征矩阵:

S3214,将S3213得到的特征矩阵的数量除以16,结果为4;

S3215,将S3213得到的64个特征矩阵视作一个张量并基于其第三个维度求平均,得到一个(1,1,64)的特征矩阵;

S3216,将S3215得到的特征矩阵输入到一层全连接神经网络得到一个(1,1,4)的特征矩阵;

S3217,将S3216得到的特征矩阵输入到一层全连接神经网络得到一个(1,1,64)的特征矩阵;

S3218,将S3215得到的特征矩阵输入到一层卷积核数量为4,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到4个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3219,将S3218得到的特征矩阵输入到一层卷积核数量为4,卷积规模为1*3,步长为1*1,填充属性为1的卷积层得到4个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3220,将S3219得到的特征矩阵输入到一层卷积核数量为4,卷积规模为1*3,步长为1*1,填充属性为1的卷积层得到4个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3221,将S3220得到的特征矩阵输入到一层卷积核数量为1,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到1个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3222,将S3217和S3221得到的特征矩阵相加并输入Sigmoid函数得到64个特征矩阵:

S3223,将S3222得到的向量与S3213得到的特征矩阵对位相乘,得到的特征矩阵在与S3213得到的特征矩阵对位相加,得到64个特征矩阵。

优选的,所述S3中,所述策略神经网络的第二部分执行的过程包括:

S35,将在S34得到的向量插入现金偏置项,形成一个(M+1,1)的向量;

S36,将S35形成的向量通过Softmax激活函数得到投资权重向量,根据投资权重向量中各个投资标的的资金分配权重,在下一个交易周期开始的时候对于投资组合中各个投资标的和现金分配的资金进行调整。

优选的,还包括S4,定期使用不同的数据对所述策略神经网络进行叠加训练及参数调整。

本发明还提供一种智能体,包括如前所述的基于深度强化学习策略神经网络。

本发明技术方案的有点主要体现在:

本发明所述基于深度强化学习的组合投资方法及智能体,通过使用深度多通道卷积神经网络,避免了采用深度Q网络所需要的动作空间离散化处理,使智能体可以提取不同维度的价格特征,使智能体具有较强的学习能力,避免了智能体训练的时候出现梯度爆炸的问题。并且引入了瓶颈注意力机制,帮助策略神经网络完善了对市场环境的分析,由此策略神经网络可以进行有效的训练,并找出每一个状态下的最有效动作。所以,本发明所述基于深度强化学习的组合投资方法及智能体的能力较佳。

附图说明

图1是本发明基于深度强化学习的组合投资方法的流程示意图;

图2是本发明的策略神经网络的第一部分的工作流程示意图;

图3是本发明的策略神经网络中的瓶颈注意力机制的工作流程示意图;

图4是本发明的策略神经网络的第二部分的的工作流程示意图;

图5是本发明的测试结果对比图。

具体实施方式

本发明的目的、优点和特点,将通过下面优选实施例的非限制性说明进行图示和解释。这些实施例仅是应用本发明技术方案的典型范例,凡采取等同替换或者等效变换而形成的技术方案,均落在本发明要求保护的范围之内。

在方案的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“前”、“后”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。并且,在方案的描述中,以操作人员为参照,靠近操作者的方向为近端,远离操作者的方向为远端。

下面结合附图对本发明揭示的基于深度强化学习的组合投资方法及智能体进行阐述。请参阅图1所示,本发明揭示的基于深度强化学习的组合投资方法,包括如下步骤:

S1,构建加密货币交易场景的基于深度强化学习的策略神经网络;

所述策略神经网络使用深度多通道卷积神经网络,并结合了瓶颈注意力机制,包括两个部分,所述策略神经网络的第一部分的输入为第N个交易周期的价格张量和上一个交易周期的资金分配权重,转化为投资组合中各个加密货币在下一个交易周期中的价格增长潜力的打分输出;所述策略神经网络的第二部分将所述策略神经网络的第一部分输出的各个加密货币在下一个交易周期中的价格增长潜力的打分转化为各个加密货币在下一个交易周期中资金分配权重,以此实现下一个交易周期中的所述加密货币投资组合的最高收益,所述策略神经网络的决策对应着一个马尔可夫策略过程;

S2,训练所述策略神经网络使得其参数最优化;

S3,加载训练好的所述策略神经网络,接受实时的加密货币数据,通过所述策略神经网络获得下一个交易周期的资产分配权重,并根据资产分配的权重来调整资金在加密货币市场中各个投资标的间的分配,从而实现最优的投资策略。

具体的,通过深度神经网络构建智能代理,所述智能代理与使用加密货币收盘价,最高价,最低价和过去六期收盘价的移动平均值的时间的序列数据构建的环境进行交互,环境会产生状态转移和即时回报,通过状态转移和即时回报的数据,训练策略神经网络,再次采取动作,依照上述过程循环,使智能代理每次采取动作的累计折扣即时回报最大化。

其中,智能代理的状态空间{S

所述策略神经网络的第一部分的输入为第N个交易周期的价格张量,通过如下方法得到:

S11,以三十分钟为一个交易周期,分别提取所要管理加密货币的前0.5N小时中每个交易周期的收盘价、最高价、最低价,并根据收盘价计算出过去六期收盘价的引动平均,形成三个(N*M)的矩阵,M为该马尔可夫策略所管理的投资组合中的加密货币的数量;

S12,将S11中得到的三个矩阵分别除以上一个交易周期的收盘价,使每个矩阵都标准化;

S13,将S12中,对于价格张量中由于价格数据缺失无法计算得到数据的位置,用相对价格1进行填充;

S14,将经过S13得到的三个矩阵组合成一个(N*M*3)维的价格张量,即为第N个交易周期的价格张量。

智能代理的动作定义为进行交易后的投资组合中各个资产标的和现金(或现金等价物)的资金分配比例。此时,所述策略神经网络的决策对应着一个马尔科夫策略过程,每个马尔科夫策略过程的动作空间是一个连续空间,每个策略神经网络对应的马尔科夫决策的奖励r如下:

r=ln(所负责资产经过一个交易周期的资产总额/上一时期所负责资产的资产总额)。

接下来,所述S2中,所述策略神经网络的训练过程如下:

S21,提取记忆批次

由经验池(experience replay)随机抽取;

S22,计算该批次对应时间内的累计收益

S23,对于累计收益函数

从而找到最优参数θ

S24,将最优参数赋值给策略神经网络π

S25,重复上述步骤直到训练集的累计收益率最大化。

训练好的模型能够直接用于投资标的的交易,即根据不同的实时投资标的得价格,输出对应的资金分配情况。即,所述S3,加载训练好的所述策略神经网络,接收实时的加密倾向数据,通过所述策略神经网络获得下一个交易周期的资产分配权重,并根据资产分配权重来调整资产在加密货币市场中各个投资标的间的分配,从而实现最优的投资策略。

本发明所述策略神经网络使用深度多通道卷积神经网络(inception model),并结合了瓶颈注意力机制。

其中,所述策略神经网络的第一部分执行的过程包括:

S31,接受三维的价格张量;

S32,通过所述策略神经网路进行特征提取,输出64个特征矩阵;

S33,获得S32中得到的特征矩阵的第二个维度的大小,将S32中得到的64个特征矩阵通过一层卷积核数量为10,卷积规模为1*该张量第二个维度的大小,步长为1*1,填充为0的卷积层输出一个(M,1,10)的张量;

S34,将S33得到的(M,1,10)的张量输入一层卷积规模为1*1的卷积层输出一个(M,1)的向量,该(M,1)向量中的数值是对于投资组合中M个投资标的在下一个交易周期中的成长潜力的打分。

请结合参阅图2和图3所示,图2中第一步,输入数据,即为S31。所述S32,包括:

S321,对S31得到的价格张量,通过一层卷积核数量为16,卷积规模为1*7,步长为1*2,填充属性为1的卷积层得到16个特征矩阵,其中选用Relu函数作为神经元的激活函数∶

S322,将S321得到的16个特征矩阵输入到一层池化核规模为1*3,步长为1*1,填充属性为1的最大池化层输出16个的特征矩阵并进行一次局部响应归一化;

S323,将S322得到的16个特征矩阵输入到一层卷积核数量为64,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到64个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S324,将S323得到的64个特征矩阵输入到一层卷积核数量为192,卷积规模为1*4,步长为1*2,填充属性为0的卷积层得到192个特征矩阵,其中选用Relu函数作为神经元的激活函数并进行一次局部响应归一化;

S325,将S324得到的192个特征矩阵输入到一层池化核规模为1*2,步长为1*2,填充属性为1的最大池化层得到192个特征矩阵;

S326,将S325得到的192个特征矩阵输入到一层卷积核数量为16,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到16个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S327,将S325得到的192个特征矩阵输入到一层卷积核数量为24,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到24个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S328,将S327得到的24个特征矩阵输入到一层卷积核数量为32,卷积规模为1*3,步长为1*1,填充属性为1的卷积层得到32个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S329,将S325得到的192个特征矩阵输入到一层卷积核数量为4,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到4个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3210,将S329得到的4个特征矩阵输入到一层卷积核数量为8,卷积规模为1*5,步长为1*1,填充属性为1的卷积层得到8个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3211,将S324得到的192个特征矩阵输入到一层池化核规模为1*3,步长为1*1,填充属性为1的最大池化层得到192个特征矩阵;

S3212,将S3211得到的192个特征矩阵输入到一层卷积核数量为8,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到8个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3213,将S326,S328,S3210和S3212得到的特征矩阵进行堆叠,得到64个特征矩阵;

S3214,将S3213得到的特征矩阵的数量除以16,结果为4;

S3215,将S3213得到的64个特征矩阵视作一个张量并基于其第三个维度求平均,得到一个(1,1,64)的特征矩阵;

S3216,将S3215得到的特征矩阵输入到一层全连接神经网络得到一个(1,1,4)的特征矩阵;

S3217,将S3216得到的特征矩阵输入到一层全连接神经网络得到一个(1,1,64)的特征矩阵;

S3218,将S3215得到的特征矩阵输入到一层卷积核数量为4,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到4个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3219,将S3218得到的特征矩阵输入到一层卷积核数量为4,卷积规模为1*3,步长为1*1,填充属性为1的卷积层得到4个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3220,将S3219得到的特征矩阵输入到一层卷积核数量为4,卷积规模为1*3,步长为1*1,填充属性为1的卷积层得到4个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3221,将S3220得到的特征矩阵输入到一层卷积核数量为1,卷积规模为1*1,步长为1*1,填充属性为1的卷积层得到1个特征矩阵,其中选用Relu函数作为神经元的激活函数;

S3222,将S3217和S3221得到的特征矩阵相加并输入Sigmoid函数得到64个特征矩阵:

S3223,将S3222得到的向量与S3213得到的特征矩阵对位相乘,得到的特征矩阵在与S3213得到的特征矩阵对位相加,得到64个特征矩阵。

然后,请参阅图4所示,所述策略神经网络的第二部分执行的过程包括:

S35,将在S34得到的向量插入现金偏置项,形成一个(M+1,1)的向量;

S36,将S35形成的向量通过Softmax激活函数得到投资权重向量,根据投资权重向量中各个投资标的的资金分配权重,在下一个交易周期开始的时候对于投资组合中各个投资标的和现金分配的资金进行调整。

另外,在模型训练完成后,投入使用前,可以采用测试数据集进行模型的性能检测。在一具体实施例中,以加密货币市场中,市场占有率最高的12个加密货币为例构成测试数据集,12个价格货币分别是:reversed_USDT、reversed_USDC、ETH、XRP、LTC、STR、BCHSV、XMR、ATOM、DOGE和DASH,BTC作为现金等价位并用来对于另外的11个价格货币进行标价。具体是通过Polonix.com下载的11个加密货币的时间序列。分别提取所选的11个加密货币前N个交易周期的收盘价,最高价,最低价和收盘价的移动平均值,形成四个11*N的价格矩阵。并且通过四个矩阵分别除以上一交易目的收盘价,使每个矩阵都标准化。对于标准化后的数据矩阵,由于数据缺失导致数据无法计算的,用相对价格1进行填充。实际将2018/5/1-2020/1/14的加密货币时间序列数据分别设定为测试数据集,并将2020/1/14-2020/5/1的加密货币时间序列数据分别设定为回测数据集。

将测试数据集输入本方案的模型(Inception-BAM)后所得的结果和传统资产管理方法结果的对比呈现如附图5所示,其中涉及的传统方法如下:

Uniform Buy and Hold(UBAH)

Passive Aggressive Mean Reversion(PAMR)

Uniform Constant Rebalanced Portfolios(UCRP)

Online Newton Step(0NS)

Universal Portfolios(UP)

Exponential Gradient(EG)

M0。

从比对图可以看出,本方案的方案相对其他方法,其获得的收益水平最佳,取得了更好的效果。

最后,本发明所述基于深度强化学习的组合投资方法,还包括S4,定期使用不同的数据对所述策略神经网络进行叠加训练及参数调整。本发明所述基于深度强化学习的组合投资方法基于策略神经网络进行决策,用价格张量描述当前状态,并作为策略神经网络的输入值;并且策略神经网络直接输出投资于各个加密货币和保留为现金(或现金等价物)的权重,以使得下一个交易周期所述投资组合的收益率最高。此处具体的训练过程与上述S21-S25的过程相同,在此不作赘述。

本发明进一步还揭示了一种智能体,包括上述的基于深度强化学习的策略神经网络。当然,所述智能体还包括其他各种已知智能体所具有的通用结构,例如数据采集模块、执行器等,此处为已知技术,不作赘述。

本发明所述基于深度强化学习的组合投资方法及智能体,通过使用深度多通道卷积神经网络,避免了采用深度Q网络所需要的动作空间离散化处理,使智能体可以提取不同维度的价格特征,使智能体具有较强的学习能力,避免了智能体训练的时候出现梯度爆炸的问题。并且引入了瓶颈注意力机制,帮助策略神经网络完善了对市场环境的分析,由此策略神经网络可以进行有效的训练,并找出每一个状态下的最有效动作。所以,本发明所述基于深度强化学习的组合投资方法及智能体的能力较佳。

本发明尚有多种实施方式,凡采用等同变换或者等效变换而形成的所有技术方案,均落在本发明的保护范围之内。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号