栏目分类

你的位置:Tap 中文站 > BreederDAO中文网 > DIN:一种通用的端到端量化策略研究框架

DIN:一种通用的端到端量化策略研究框架

发布日期:2025-01-03 17:24    点击次数:96
来源:量化投资与机器学习来自:Deep Inception Networks: A General End-to-End Framework for Multi-asset Quantitative Strategies作者:Tom Liu, Stephen Roberts, Stefan Zohren今天这篇文章,我们提出的DIN模型为端到端策略提供了一个通用框架。输入是最低限度处理的数据,输出是风险和成本调整后的持仓大小。研究者只需要选择什么需要输入数据的类型,例如价格回报,以及模型应该捕获的行为类型。DIN简化的结构如下图1所示。首先,我们使用一个特征提取器(FE)学习短期特征。接下来有Position Sizer(PS)处理并输出持仓权重,它可以捕获更长期的依赖关系。与之前的研究不同,DINs为所有资产输出权重的同时,能够优化投资组合的夏普比率,充分利用截面的信息。DIN的结构是高度定制化的,你可以选择自定义的FE去提取特定类型的特征,比如可以是提取时序特征的模型,如DeepLOB喝AxialLOB。今天这篇文章介绍了两种新的FE,OrigCIM和FlexCIM,它们能够学习截面信息和领先滞后(lead-lag)关系。如何选择FE?可以系统化的对它们的回测结果进行分析比较。通过约束可能的特征类型,与通用的端到端模型相比,DINs具有更小的过拟合可能性;通用的端到端模型可以从输入矩阵中的任何元素组合中学习特征,从而提高过拟合的可能性。PS也可以使用系统化的方法进行筛选。在本文中,我们考虑了LSTM和Temporal Fusion Transformers(TFT)两个模型。这两个组件都使DIN能够捕获数据的长期变化。关键的区别在于,TFT能够利用注意力层从过去的单元中恢复“被遗忘”的信息。与LSTM相比,在之前的文献中,TFT在有更好的表现和可解释性。实证分析中,我们使用了2005年至2022年的期货进行测试,DIN模型(OrigCIM x TFT)在费前和费后的表现都优于所有基准。特别是,在交易成本之前,与同等权重的Longonly投资组合相比,夏普比率增加了10倍,达到2.95。我们还测试了DIN模型在其他资产类别上的表现:包括外汇、股票和加密货币。我们发现,最优的FE选择依赖于资产类别。对于有相关资产集群的期货和外汇,OrigCIM和FlexCIM捕获的CS信息是有用的。对于股票和加密货币,存在更均匀的相关结构:只提取TS特征的DeepLOB是最好的。通过分析DIN两个子模型(FE和PS):FlexCIM特征提取器中的变量选择网络(VSNs)和TFT位置大小器中的注意力。VSN权重显示了不同类型的提取特征的重要性如何随时间变化。注意图可以用来确定哪些过去的时间点对“超前一步”的预测有最大的影响。在对金融大危机和COVID-19等案例研究时,可以发现注意力集中在历史上相似的时间点,而不是最近的数据。以下是本文对DIN框架特点的总结:不需要手工设计特征:有FE进行自动化的特征提取有效控制过拟合:对特征类型加以限定可解释性:VSN和注意力权重帮助我们更清楚的了解模型组合优化换手和交易成本控制模型的具体结构是怎么样的?正如上文所说,DIN是一个高度定制化的框架,主要有两部份组成,首先是负责特征提取的FE,然后是计算组合权重的PS。FE从每日的经标准化处理后的收益率数据中提取短期的特征。如DeepLOB和AxialLOB都是现有文献中表现较好的特征提取器。本文提出了两个新的FE:OrigCIM和FlexCIM。我们分别进行介绍。在模型训练的每一步t中,DIN模型对所有资产的权重做出预测,表示为 。DIN有三个输入的矩阵,其形状均为 ,其中 为时序的长度, 为资产的数量。这三个矩阵分别是:历史收益率矩阵 :经63日EWM波动率标准化后的日度收益率矩阵未来收益率矩阵 :经目标波动率缩放后的下一日收益率波动率缩放矩阵 :目标波动率除以历史波动率其中 是模型输入, 和 会拼接在一起在损失函数中使用。特征提取,Feture Extractor首先回顾一下DeepLOB和AxialLOB(具体请参考原论文):Z. Zhang, S. Zohren, and S. Roberts, “Deeplob: Deep convolutional neural networks for limit order books,” IEEE Transactions on Signal Processing, vol. 67, no. 11, pp. 3001–3012, 2019.D. Kisiel and D. Gorse, “Axial-LOB: High-frequency trading with axial attention,” arXiv preprint arXiv:2212.01807, 2022.本文提出的OrigCIM和FlexCIM也是受到DeepLOB的启发,在后面的测试中本文以DeepLOB的结果作为基准。AxialLOB和DeepLOB的差异在于前者用轴向的注意力机制去捕获长期的依赖关系,而DeepLOB(包括OrigCIM和FlexCIM)使用CNN。接下来看OrigCIM,如下图所示,输入矩阵 分别经过四个(1*1)的单层网络后进入ELU激活,接着前三个输出进入三个大小为 ( 的单层网络分别学习截面、时序及截面时序混合特征。最终把这个四个输出拼接在一起,作为一个FE学习到的特征,DIN模型会同时训练n个FE从而学习到多个特征,得到大小为 的中间输出,其中 ,。(更清楚的理解看图4中间部分)。FlexCIM相对于OrigCIM的改进在于对中间输出进行了降维处理,如下图3所示。整个降维分为两部,第一步是经过CNN,第二步经过CNN或VSN后降维为TxN_A的矩阵,输入至接下来的Postion Sizer(LSTM或TFT)。如果使用TFT的则可以加入一些静态特征。测试结果对比与分析模型训练数据和测试数据按90%/10%进行划分,优化器选择Adam,超参数优化使用Hyperband和贝叶斯。在以下数据集进行了测试:期货:2000-2022的50个期货品种股票:EURO STOXX 50成分股,2001-2022数字币:CoinMarketCap上的8个数字币,2018-2023外汇:来自FRB的19个外汇,2000-2023下表5给出了在期货数据上的测试结果。其中OrigCIM-TFT的表现最好,Sharpe为2.95,最大回撤13.8%。表10和11给出了在各个资产上回测的对比,可以看出该模型在期货上的表现最佳。关于模型的可解释性等更多细节,请参考原文。