资产定价笔记04：中国股市中的机器学习-的回答

1条回答

2023-02-22 10:37 .采纳回答

中国股市中的机器学习

Leippold, M., Wang, Q., & Zhou, W. (2021).Machine learning in the Chinese stock market. Journal of Financial Economics.doi:10.1016/j.jfineco.2021.08.017

文章原文：Machine learning in the Chinese stock market
文章附录：Internet Appendix to: Machine learning in the Chinese stock market
股票特征：资产定价笔记04：中国股市中的机器学习-附录C
Gu et al. (2020)可参见资产定价笔记03：机器学习与资产定价（1）
Chen et al. (2019)可参见资产定价笔记05：资产定价中的深度学习

摘要

通过使用各种机器学习算法构建和分析一组综合的收益预测因子，我们增加了新兴的文献在中国股票市场的经验资产定价。
对比以往对美国市场的研究，流动性成为最重要的预测因素，促使我们仔细研究交易成本的影响。
散户投资者的主导地位对短期可预见性有积极影响，特别是对小盘股。
中国股市与美国股市的另一个区别在于，大型股票和国有企业在较长时期内具有较高的可预测性。
剔除交易成本后，样本外绩效在经济上仍具有重要意义。

1. 引言

截至2020年10月，中国股市总市值已攀升至10万亿美元，约合人民币67万亿元，创历史新高。因新冠疫情，中国经济恢复速度加快，超过了2015年股市泡沫时期的最高值，成为仅次于美国的世界第二大经济体^[1]。不仅是规模，中国股市的特殊性使其对学术研究特别有吸引力，使我们能够探索有助于理解新兴市场的问题，补充我们对其他机构金融体系的知识。本文确定了中国股市的三个关键特征：

中国股市的三个特征

首先，与以机构投资者为主的发达市场不同，中国股市以散户投资者为主。根据上海证券交易所2019年年鉴，中国有2.145亿投资者：2.138亿为个人投资者，70万为机构投资者。个人投资者持有99.8%的股票账户。许多散户投资者的投机和短线交易动机可能导致成交量增加。因此，2019年的股票交易价值为市值的224%，而美国市场为108%^[2]。这种特殊性造成了更高的波动性，可能会使股价与基本经济状况脱节。在这种背景下，我们想知道，在这样的市场中，集体投资行为产生的技术指标是否比公司基本面对资产定价更重要。

其次，正如Allen et al. (2005)指出，从制度角度看，中国金融体系的一个关键特征是中央控制、银行主导和独特的关系驱动。例如，首次公开发行(IPO)和季节性股票发行的过程具有高度的政治性，企业无法预测何时市场价值会很高。另一方面，当股价跌破基本价值时，上市公司，尤其是国有企业(SOE)无法回购股票。因此，这些自动市场修正机制受到政府导向限制的影响（Mei et al., 2009）。鉴于国有企业的重要性和独特性，它们在中国资本市场的突出地位理应得到不同的对待。国有企业不仅经常因缺乏信息透明度而受到批评，而且其政治目标与价值最大化的背离也可能损害企业绩效。可见 Bai et al. (2006) , Gan et al. (2018) , Jiang and Kim (2020)。因此，我们研究了在政府信号发挥如此突出作用的国有企业中，回报可预测性和投资组合绩效是否受到影响。

第三，中国市场的卖空历史有限。2010年之前，中国投资者面临严格的卖空限制。2010年3月，中国证监会(CSRC)允许有限的几家券商卖空一个特别名单上的90只股票，这在一定程度上缓解了这种压力（Gao and Ding, 2019）。在卖空再融资被正式允许后，卖空量呈指数增长，但在2015年后再次下降，尽管试点计划在2016年底扩大到950家公司。尽管没有广泛的共识，但许多学者一致认为，卖空有助于价格发现，提高市场效率（Saffi and Sigurdsson, 2011）。美国和欧洲市场的因素投资研究大多依赖于多空策略，但这种策略对中国市场来说不太现实。因此，我们还分析了只做多的投资组合，这从从业者的角度来看更相关。

数据库的构建

目前还没有适合中国市场的大型要素收益数据库。因此，通过构建一组独特而全面的因素，我们对中国实证资产定价的研究做出了贡献^[3]。我们总共收集了1,160个预测信号，包括90个股票水平特征、11个宏观经济变量和一组行业虚拟变量。

第一步，按照为美国市场构建的方式构建一系列因素
第二步，遵循先前的研究，将其中一些美国因素应用于中国股市
第三步，还包括一组中国特有的因素

加入了Pan et al.(2015)引入的异常周转率(atr)
atr旨在捕捉股市投机交易的影响，这有助于解释中国A股定价过高的原因

研究方法

鉴于中国已经经历了一系列结构断裂、实施各种金融改革和扩大其资本市场开放的高度动态的发展，我们推测需要高度灵活的方法来解释中国市场的特殊性。因此，我们的分析依赖于不同的机器学习技术，其在金融和经济学中的应用正在迅速出现，并见证了研究贡献的爆炸式增长，取得了令人鼓舞的结果。越来越多的研究利用机器学习工具研究股票回报的横截面和时间序列，主要集中在美国市场。

本研究中以Gu et al. (2020)的工作为基础，他们将广泛的机器学习方法与现代实证资产定价研究相结合，以理解股票回报的市场风险溢价的动态^[4]。他们的结果表明，机器学习改善了对预期回报的描述，当应用于投资组合的构建时，性能的改善在更复杂的模型中出现得最显著，这在很大程度上是由于考虑到了非线性预测器的交互作用，而这些非线性预测器的交互作用是更简单的方法所忽略的。目前尚不清楚这些结果是否也适用于中国股市。然而，鉴于其上述特点，特别是有大量投机性短期行为的小投资者，该市场成为机器学习技术应用的一个极具吸引力的目标。

研究成果

在探索不同的机器学习方法的预测能力时，我们发现神经网络在样本外R2（out-of-sample R2）方面的表现强于其他方法。样本外R2对于小公司和非国有公司的子样本尤其大。因此，可预见性对于那些散户交易员发挥更大作用的股票子样本更重要。此外，将样本外R2与美国市场的研究进行比较，中国市场显示出了更大的可预测性。由于样本外R2在模型选择上有一些局限性，我们使用Li et al. (2020)开发的统计检验来分析模型的条件预测能力，该检验允许我们比较机器学习方法在不同宏观经济环境中的性能。神经网络在这个新的统计测试中被证明是稳健的，并成为可预测性方面表现最好的方法。

在我们的实证分析中，我们做了以下观察。所有预测模型中最相关的变量是与市场流动性相关的股票特征。然而，第二组重要的预测因素与估值比率等基本因素有关。这一发现与Gu et al. (2020)之前对美国市场的研究形成了对比，在该研究中，经典趋势指标是可预测性的主要驱动力。然而，我们发现不同模型之间存在显著差异。尤其值得一提的是，除了流动性，神经网络往往更青睐动量和波动性因素，而不是基本面因素。我们还发现，在月度预测水平上，国有企业的样本外预测R2的可预测性低于非国有企业，这证实了国有企业不透明的名声（Piotroski et al., 2015）。

最后，考虑到中国的卖空限制，我们想知道，只做多的指令能带来多大的增值。以前的许多研究结果都与包括多头和空头头寸的投资组合的表现有关。虽然这样的做法可以让我们评估信号的预测能力，但并不是所有股票都可以在任何时候做空，而且做空的成本可能是巨大的。中国市场更是如此。我们的结果还表明，只做多的投资组合可以提供可观的，甚至在包括交易成本后，经济上显著的业绩。此外，这一战略在2015年崩盘期间也表现良好，不受2020年初新冠大流行的影响。

后文安排

本文其余部分的结构如下：

第2节：提供了数据和用于预测的方法的描述
第3节：提出实证分析

关注样本外的可预测性，并讨论哪些预测因素最重要
使用无条件和条件预测能力测试进行模型选择分析

第4节：探讨可预测性是否转化为投资组合收益
第5节：结论

使用方法的详细讨论和其他结果在互联网附录中。

2. 数据与方法

数据来源

对于我们的分析，我们将Gu et al.(2020)的实证设计应用到中国市场。

从WIND数据库中获取在沪深两市上市的所有A股股票的日、月总收益
从CSMAR数据库下载相应的季度财务报表数据
数据样本涵盖了从2000年1月至2020年6月期间交易的3900多只A股股票
从CSMAR得到了中国一年期政府债券的收益率，代入无风险利率，这是计算个股超额收益所必需的

选取特征

有了这些数据，我们基于Green et al. (2017)列出的变量定义，以及关于中国特定因素的论文，建立了一个大规模的股票水平预测特征集合。我们的收集包括94个特征，其中86个已在Green et al. (2017)中记录，4个是在以往研究中确定的有效中国特定因素，4个是表明上市公司所有权类型的二元变量，用于子样本分析。

数据频率

为了避免异常值，参照Kelly et al. (2019)和Gu et al. (2020)，我们逐期对所有连续的股票水平(stock-level)特征进行横截面排序，并将它们映射到[−1,1]区间。在数据频率方面，22个股票水平特征每月更新一次，51个季度更新一次，6个半年更新一次，15个每年更新一次。值得注意的是，我们的数据频率高于Gu et al.(2020)，这可能会提高我们的预测性能。

此外，我们还根据中国证监会(CSRC)2012年发布的《上市公司行业分类指南》纳入了80个行业虚拟变量。附录表C.1中提供了所有股票水平特征的摘要。

宏观经济预测因子

除上述特征外，本文还利用从CSMAR和国家统计局网站下载的数据构建了11个宏观经济预测因子。其中8个变量基于Welch (2008)中的变量定义：

dividend price ratio ( dp )
dividend payout ratio ( de )
earnings price ratio ( ep )
book-to-market ratio ( bm )
net equity expansion ( nits )
stock variance ( svar )
term spread ( tms )
inflation ( infl)

其余三个指标包括：

monthly turnover ( mtr )
M2 growth rate ( m2gr )
international trade volume growth rate ( itgr )

这些指标在以往的研究中被认为是有效的宏观经济预测指标。附录表C.5中总结了这些宏观经济变量。

数学表达式

在我们的分析中，我们采用一个通用的加性预测误差模型来描述股票的超额收益与其相应的预测器之间的关系，即：

\begin{align} r_{i,t+1}=\mathbb{E}_t[r_{i,t+1}]+ϵ_{i,t+1} \\ \tag{1} \end{align}

此外，我们进一步假设股票 i 的超额收益的条件期望 r_{i,t+1} 在给定时期内可用的信息为一组预测器的常数函数：

\begin{align} \mathbb{E}_t[r_{i,t+1}]=g(z_{i,t}) \\ \tag{2} \end{align}

其中 z_{i,t} 是一个 P 维的预测向量，股票 i = 1,…,N_ t 、月份 t = 1,…, T 。 g(·) 的函数形式不变。我们的目标是从一组候选模型中搜索出具有最佳预测性能的预测模型。

预测向量 z_{i,t} 由股票 i 的特征、股票水平特征与11个宏观经济预测因子之间的交互项和一组虚拟变量组成，可以表示为：

z_{i,t} = \begin{align} \begin{pmatrix} c_{i,t} \\ x_t \otimes c_{i,t} \\ d_{i,t} \end{pmatrix} \\ \tag{3} \end{align}

其中 c_{i,t} 是一个90×1的股票水平特征向量， x_t 是11×1的宏观经济预测向量， d_{i,t} 是一个80×1的虚拟变量向量， \otimes 表示克罗内克积(Kronecker product)。虚拟变量集合包括80个行业假变量。因此， z_{i,t} 的协变量总数为90 ×(11 + 1) + 80 = 1,160。

模型选择

我们总共考虑了11种机器学习方法，以及两个简单的线性模型。包括：

普通最小二乘(OLS)回归
仅使用规模、市值比和动量作为预测因子的OLS (OLS-3)
偏最小二乘(PLS)
最小绝对收缩年龄和选择算子(LASSO)
弹性网(Enet)
梯度增强回归树(GBRT)
随机森林(RF)
变量子样本聚集(VASA)
一到五层的神经网络(NN1-NN5)

与Gu et al.(2020)相似，为了避免数据中极值带来的潜在干扰，我们只关注了具有Huber损失函数的OLS、OLS-3、LASSO、Enet和GBRT (Huber, 2004)。

分割样本

我们遵循文献中超参数选择、模型估计和性能评估的标准方法。特别是，在保持时间顺序的同时，我们将数据分成三个不相交的时期：

训练样本(2000-2008)
验证样本(2009-2011)
测试样本(2012-2020)

我们使用训练样本估计模型参数服从某些预先指定的超参数为特定的机器学习模型。利用验证样本对模型的超参数进行了优化。我们根据验证样本中的观察结果选择最小化目标损失函数的超参数。测试样本包含验证样本之后的12个月的数据。这些从未进入模型估计或调优的数据是用来测试我们的模型的预测性能的。由于机器学习模型是计算密集型的，我们采用Gu et al. (2020)中的样本分割方案，通过每年而不是每月对预测模型进行重新拟合。当我们对模型进行再拟合时，我们将训练样本的大小增加一年，但对验证样本保持相同的大小。同时，验证样本和一年的测试期都将向前滚动，包括接下来的12个月。附录表A.2提供了关于超参数训练和预测模型的进一步细节。

3. 实证分析

我们首先通过样本外预测R2探索我们的模型的预测性能，并讨论不同子样本的可预测性。

3.1 样本外预测

正如Gu et al. (2020)所言，我们依靠非均值化样本外预测R2与美国市场的结果进行直接比较。对于给定的模型 S ，该测度定义为：

\begin{align} R^2_{{\rm oos},S} =1 - \frac{ \sum_{(i,t)\in \mathcal{T}}\left(r_{i,t} - \hat{r}_{i,t}^{(S)}\right)^2 }{ \sum_{(i,t)\in \mathcal{T}} {r}_{i,t}^2} \\ \tag{4} \end{align}

其中 \mathcal{T} 表示仅在测试样本上被评估的预测集， \{\hat{r}_{i,t}\}_{(i,t)\in \mathcal{T}} 为预计每月回报。由于国有企业在中国资本市场中占有举足轻重的地位，并且经常因信息透明而受到批评，本文对国有企业和非国有企业的 R^2_{\rm oos} 进行了探讨。正如Liu et al. (2019)所言，30%规模最小的公司往往在反向收购中充当潜在的壳公司，以规避严格的IPO限制。与此同时，中国散户投资者对小型股的偏好是出了名的，尤其是成长股和魅力股（Ng and Wu, 2006）。因此，为了解决潜在的行为故事，我们还根据公司规模构建了两个子样本，临界值为30%。不同模型和子样本的结果如表1所示。

表1：月度样本外预测R2的百分比

报告了不同子样本中公司的预测模型的月度样本外预测R2：
(1)全样本；(2)剔除市值最低30%的企业的样本；(3)样本只包括30%的最低市场价值的公司；
(4)样本包括平均每个股东市值超过70%的公司；(5)样本只包括平均每个股东市值最低30%的公司;
(6)国有企业；(7)非国有企业。
考虑的模型包括：普通最小二乘(OLS)回归，仅使用规模、账面市值和动量的OLS (OLS-3)，偏最小二乘回归(PLS)，最小绝对收缩和选择算子(LASSO)，弹性网络(Enet)，梯度增强回归树(GBRT)，随机森林(RF)，可变子采样聚合(VASA)和1- 5层神经网络(NN1-NN5)。
+ H表示使用Huber loss而不是l2 loss来训练模型。所有的数字都用百分数表示。

3.1.1 全样本分析

当我们包括所有公司时，OLS模型达到正的 R^2_{\rm oos} = 0.81%，表明即使是最简单的模型也有一定的预测能力。OLS-3模型的 R^2_{\rm oos} = 0.77%，略低于OLS模型，表明这三个协变量（规模、账面市值比、动量）不足以解释线性模型的所有预测能力。值得注意的是，OLS模型在中国股市的表现要比在美国股市好得多。Gu et al. (2020)中的OLS-3的 R^2_{\rm oos} 为负值(−3.46%)。这种差异的一个可能解释是，我们对Huber损失函数的调优参数设置了一个相对较小的值，这导致对数据中的极值具有较高的稳健性^[5]。

对于PLS、LASSO和Enet等正则化模型， R^2_{\rm oos} 的提高直接反映了在面对大量协变量时降维的有效性。均提高 R^2_{\rm oos} 1%以上，LASSO为1.43%、Enet为1.42%、PLS为1.28%。 R^2_{\rm oos} 的这一改进表明，在预测中国股市的月收益时，一些股票特征是多余的，这与Gu et al. (2020)对美国市场的研究结果产生了很好的共鸣。VASA的R2值与正则化线性模型的R2值相当。这一观察结果很可能是因为我们使用VASA与线性子模型，在形成预测因子的线性组合方面，它与PLS有许多相似之处。

树模型、GBRT和RF模型以及5个神经网络模型在所有7个模型中进一步提高 R^2_{\rm oos} ，甚至超过2%。这种改进证明了机器学习方法在捕获预测器之间复杂的交互作用方面的优越性，这在Gu et al. (2020)的美国股市中得到了强调。全样本 R^2_{\rm oos} 结果表明，GBRT和RF均可与神经网络相媲美。与美国股票市场不同，当增加神经网络中的隐藏层时，我们观察到 R^2_{\rm oos} 的增加，尽管这种改进似乎对于超过四层的模型是边际的。

此外，在月度 R^2_{\rm oos} 方面，机器学习技术显示，中国市场的可预测性比美国市场强得多。

中国市场上最高的R2，是GBRT(2.71%)，几乎是Gu et al. (2020)报告的NN4(0.40%)的七倍。
即使是最低的 R^2_{\rm oos}，OLS-3基于所有中国股票(0.77%)，几乎是美国市场最高R2的两倍。

R^2_{\rm oos} 中的这种显著差异进一步促使我们考虑这两个市场之间的根本差异，猜测归因于两个关键方面：

中国股市的特点是散户占很大比例，他们偏好小盘股
中国股市受国有企业盛行的影响，国有企业的透明度低于私营企业

接下来我们分别探讨这两个渠道。

3.1.2 大小股票

为了研究模型可预测性中的潜在异质性，我们对小股(每月市值最低的30%股票)和大股(每月市值最高的70%股票)进行了子组分析。表1报告了最大的70%股票和最小的30%股票的月度市场权益的 R^2_{\rm oos} 。表1的结果表明，所有模型对小股有更好的预测性能。线性模型OLS和OLS-3现在将其 R^2_{\rm oos} 提高到1%以上，而正则化线性模型，包括PLS、LASSO和Enet，其性能几乎翻了一番。

基于树的模型和神经网络仍然比基于回归的方法具有优势。GBRT似乎特别成功，最高R2为7.27%。30%规模最小的股票的可预测性大幅提高，而70%规模最大的股票的可预测性却下降了。所有模型的样本外R2降低到1%以下。有趣的是，OLS, RF，甚至GBRT，现在都有负的 R^2_{\rm oos} ，这表明它们很容易被一个朴素预测(Naive forecast)的所有股票在所有时期的零回报所主导。然而，神经网络仍然表现出稳定的性能，除了一些正则化线性模型(PLS和LASSO)。

3.1.3 大小股东

以上结果表明，机器学习方法能够较强地预测小股的月收益。然而，目前尚不清楚散户投资者是否在产生这种差异方面发挥了重要作用。为了提供可预测性和散户投资者之间的联系，我们进行了基于每个股东平均市值的子样本分析。我们从CSMAR收集了所有上市公司已发行A股的股东数量，每季度报告一次，以及相应的市值。然后，我们计算每个股东的平均市值，即 A.M.C.P.S. = Market Cap / Number of Shareholders = 市值 / 股东数量，并将所有股票按照最高70%的门槛分成两组^[6]。最后，我们通过研究这两组的样本外r2来研究模型的可预测性。

表1中的第四行和第五行报告了公司的 R^2_{\rm oos} ，分别为每股东平均市值最高的70%和最低的30%。总体而言，这些结果表明，机器学习方法，特别是PLS、随机森林和神经网络，在小股东股票样本中具有更好的预测性能，因为它们的R2值对于小股东股票比大股东股票大得多。同时，LASSO、Enet和VASA在两个子样本上的表现相似。有趣的是，OLS-3在小股东股票样本中比在大股东股票样本中产生了更糟糕的预测，这意味着传统的三因素模型可能不适用于中国的小股东股票。简而言之，尽管由于缺乏数据，无法准确地确定每只股票的散户投资者比例，但我们相信，每个股东的平均市值仍然可以是一个有用的指标，这有助于揭示模型可预测性和散户投资者角 {MOD}之间的关系。

3.1.4 国企与非国企

当我们关注国有企业和非国有企业的股票收益时，表1表明，神经网络对两个子样本都产生了稳健和正的 R^2_{\rm oos} ^[7]。对于基于树的模型，结果是混合的。尽管它们在非国有企业股票上的表现非常好，但它们的表现不如基于回归的国有企业股票模型。总的来说，国有企业和非国有企业股票的 R^2_{\rm oos} 模式与我们对30%最小公司和70%最大公司的分析相似。这种相似性部分源于这样一个事实：中国的国有企业往往拥有庞大的市场资本，因为它们通常代表着银行、基础设施和军事等基础行业的主导企业。因此，公司规模与国有股和非国有股的概念有很强的相关性。

然而，比较可预见性的水平，我们发现，当使用神经网络时，国有企业比前70%的公司提供了更大的 R^2_{\rm oos} 。对于前者，模型NN1~NN5的平均R2为1.31，而对于后者，仅为0.57。同样让我们震惊的是，对于国有企业来说，神经网络始终比其他所有模型都要好。对于所有其他子群，我们总是找到一些与神经网络性能相当的模型。这再次突显了国有企业的独特性。看来，预测国有企业收益需要一种高度灵活的方法，可以解释非线性效应。这种额外的复杂性可能是必要的，因为国有企业由国家控制，有两个主要目标：创造利润和执行国家政策。然而，我们的研究结果与早期的研究结果形成对比，这些研究认为，由于中国国有企业的财务不透明和股价的低信息性，预测其股票收益并不容易（例如 Lee and Wang (2017)）。

基于上述子样本分析，我们得出结论，机器学习技术，特别是树模型和神经网络，在中国股市的样本外R2方面表现令人满意。此外，我们的分析揭示了中国股市与Gu et al. (2020)研究的美国市场不同的两个重要特征。首先，几乎所有模型都能更好地预测中国市场小股(非国企)的月收益，而不是大股(国企)。其次，神经网络可以在不同的子样本中提供稳健的性能，就 R^2_{\rm oos} 而言。

3.1.5 年度可预测性

接下来，我们研究了我们的模型在年度水平上的预测性能。

表2：年度样本外预测R2的百分比

接下来，我们研究了我们的模型在年度水平上的预测性能。表2报告了不同模型和子样本的年度样本外预测R2。我们发现，每年的样本外R2比每月的高，表明机器学习方法可以成功地隔离长期的风险溢价。有趣的是，通过给定的方法，我们现在获得了对最大的70%股票比最小的30%股票更好的预测性能。大型股票可预测性的提高可能是由于国有企业可预测性的提高。根据Jiang and Kim (2020)的说法，国有企业目前约占企业数量的三分之一，但占市场资本的三分之二。此外，同样的模式也出现在每个股东的平均市值水平不同的子组中，因为所有方法在大股东股票的子样本中比在小股东股票的样本中产生更好的预测。

我们的发现与之前在月度水平上的观察形成了对比，在月度水平上，小盘股、小股东股和非国有企业表现出比同行更强的可预测性。年度可预见性的差异没有那么大，似乎趋于稳定，但对大公司、有大股东的股票和国有企业来说，它们显示出一些优势。我们将短期可预测性，尤其是小股，归因于散户投资者在中国股市中扮演的重要角 {MOD}。如3.4节所示，神经网络更重视小型股的波动性和动量相关变量，这可能反映了散户投资者的短线投机行为，以及他们众所周知的偏好交易小型股。

表3：NN1-NN5样本外预测R2的百分比平均值

报告了不同公司子样本的神经网络NN1到NN5的平均样本外预测R2。最后两列根据Gu et al. (2020)的表1和表2，将美国市场的前1和后10家公司的对应数字相加。所有的数字都用百分数表示。括号内的数字是模型(不包括OLS)的平均样本外预测R2。

表3比较了不同子样本的月平均和年平均样本外预测R2，并将我们的结果与Gu et al. (2020)在美国市场的结果进行了比较。对于市值最高的70%的公司，我们在月度水平上发现了类似的可预测性，美国市场的前1000家公司也是如此。与此同时，通常是大型股的国企的样本外R2值，是美国大型股价值的两倍以上。值得注意的是，对于中国小型股，我们观察到样本外R2比美国小型股高10倍。就美国股市而言，从每月到每年，小型股的可预见性似乎比大型股更好。中国市场的情况正好相反。大股、大股东股，特别是国企股的可预见性要比小股、小股东股和非国企股好得多。这些观察结果揭示了中国市场和美国市场之间的一些显著差异，我们猜测这主要是由于散户投资者对短期和政府举措的主导作用，这主要有利于国有企业。

在附录D中，我们探讨了我们的模型的样本外 R^2_{\rm oos} 的时间变化。对于大多数模型，从图D.1中观察到，2018年 R^2_{\rm oos} 显著下降。我们推测，此次下跌的原因是由于中美之间严重的贸易冲突导致中国股市持续下跌，这表明机器学习技术在预测股票收益时存在潜在的弱点：它们的表现可能容易受到意想不到的系统性风险的影响，例如，在本例中，与中美贸易战有关的政治风险。

3.2 哪个预测有用？

考虑到大量的预测因素，我们下一步研究某些预测因素是否比其他更重要。为此，我们对宏观经济变量和股票特征进行了区分。

3.2.1 宏观经济变量

本文首先探讨了11个宏观经济变量和94个股票特征对所有基于中国股票市场的预测模型的变量重要性。变量重要性的定义与Gu et al. (2020)相似，即对于一个特定的模型，当在每个训练样本内将给定预测器的所有值设为零时，我们计算预测R2的减少，并将它们平均为每个预测器的单个重要度量。

表4：宏观经济变量的相对变量重要性

报告了每个模型中基于R2的变量对宏观经济变量的重要性。对于给定的模型，变量重要性的和归一化为1。所有值均以百分比表示。

表4报告了11个宏观经济变量的相对变量重要性。对于PLS，ntis，衡量发行活动的水平，具有最大的可变重要性。自股市开放以来，中国一直实行以审批为基础的IPO制度，众所周知，中国证监会经常停牌或在市场下跌时减少IPO数量，使它在预测月收益中发挥重要作用是合理的。值得注意的是，ntis也是GBRT最重要的宏观经济变量，是神经网络的第二大重要变量。此外，PLS对infl、m2gr和itgr也有较大的权重，表明这些宏观变量也有影响。

表4的结果表明，包括LASSO和Enet在内的惩罚线性模型强烈支持总账面市值比(bm)，但这对PLS和VASA不太重要。此外，infl、ntis、m2gr等变量在LASSO和Enet中也具有较高的优先级。与其他模型不同，VASA更倾向于综合市盈率(ep)，以及反映市场流动性(mtr)和波动性(svar)的变量。树模型GBRT和RF的宏观经济变量重要性分布比其他基于回归的方法更加均匀，表明这两种方法可以检测宏观经济变量与股票特征之间潜在的复杂非线性相互作用。

图1：11个宏观经济变量的变量重要性

图1为每个宏观经济变量在模型间聚合了变量的重要性。总体而言，我们发现通货膨胀率是预测中国股市月收益的两个最具影响力的宏观经济变量，尤其是神经网络。另一方面，股利价格比率(dp)、市场波动率(svar)、每股总收益(ep)、期限息差(tms)和市场流动性(mtr)并不那么重要，因为它们被大多数模型忽略了。

3.2.2 股票特征

并不是所有的股票特征在预测股票收益时都是同等重要的，它们的重要性可能在很大程度上取决于预测模型。

图2：所有模型的特征重要性

显示了所有股票特征按它们的总体模型贡献排序的顺序。纵轴上的特征根据它们在所有模型中的排名之和排序，最具影响力的特征在顶部。列对应于各个模型，每个列中的颜 {MOD}梯度表示影响最大(深蓝 {MOD})到影响最小(白 {MOD})变量。

图2说明了基于合并完整样本的所有特征的总体重要性。我们通过计算每个模型中每个预测器基于R2的变量重要性的秩和，并将它们从高到低排序，沿垂直轴对特征进行排序。这样的排序反映了特征对所有模型的总体贡献。每一列对应一个预测模型，其中颜 {MOD}梯度表示模型特定的重要性，从最高（深蓝）到最低（白）。

对于整体变量重要性的排序，我们发现与市场流动性相关的股票特征在预测中国股市时最相关，即流动性波动(std_dolvol和std_turn)、零交易日(zerotrade)和非流动性测度(ill)是最显著的预测指标。

第二个有影响力的群体包含基本信号和估值比率，如行业调整资产周转率变化(chaotia)，行业调整员工变动(chempia)、总市值(mve)、近期盈利增长数(nincr)、行业调整利润率变化(chpmia)、行业调整账面市值比(bm_ia)。

第三组由风险度量组成，包括特殊回报波动率(idiovol)，总回报波动率(volatility)和市场beta (beta)。我们的发现与Gu et al. (2020)在美国市场的发现形成对比。他们发现，传统的价格趋势指标是最具影响力的预测指标，结果证明，除了最近的最大收益(maxret)外，传统价格趋势指标对中国股市的重要性较低。这一观察结果与以往应用线性因子模型预测中国股市的研究（例如Li et al. (2010) ; Cakici et al. (2017)）。然而，基本面因素的突出作用让我们感到惊讶，因为根据Gu et al. (2020)，这些因素对美国市场的重要性较小。具体来说，从Gu et al. (2020)的图5中取前3(10)个因子，其在中国市场的平均排名为41(34)。因此，两个市场对预测的重要性存在很大分歧。

有趣的是，异常换手率(atr)，最初由Pan et al.(2015)引入的一个中国特有的因素，用来捕捉普遍的投机交易的影响，在机器学习模型中也有影响，在总体变量重要性方面排名第三。此外，Liu et al.(2020)引入的用于解释中国股市价格和成交量持续趋势的趋势因子(er_trend)在整体变量重要性中排名第四。值得注意的是，作者最初引入atr和er_trend是为了适应中国股市大量活跃个人投资者对实证资产定价的影响。众所周知，这些散户投资者更倾向于短线投资，从事投机性交易，对总交易量的贡献超过80%。先前的研究，如Pan et al.(2015)和Liu et al.(2020)，表明了在因素模型中包含特定于中国的因素的重要性，而在这里，我们提供了进一步的证据，表明这些因素在更复杂的机器学习模型中也具有相当大的解释力。

与Gu et al. (2020)类似，我们也观察到神经网络模型(NN1-NN5)、正则化线性模型(PLS、LASSO、Enet)和VASA倾向于强调一组类似的股票水平预测。与此同时，基于树的模型，GBRT和RF，反而把更多的权重放在少数几个预测因子上，而不是其他的，如divo、rd和divi。我们推测，这种差异是由于树模型的一般属性，因为它们在构建决策树时随机选择了股票特征的子集。通过这种方式，像divo、rd和divi这样的预测因子可以在一些决策树中变得相当有影响力，从而对整个树模型更加相关，而在所有其他模型中它们只起次要作用。

从实践和理论的角度来看，我们也对变量重要性的时间变化感兴趣。我们发现，正则化线性模型，包括PLS、LASSO和Enet，共享一组相似的相关预测因子，流动性措施和基本信号是两组重要的预测因子。LASSO通常会选择20个左右的相关预测因子，而Enet会选择35个左右的相关预测因子，这表明许多特征实际上是多余的。相对于LASSO和Enet选择的预测因子只有大约三分之二在不同时期保持稳定而言，PLS的变量重要性只存在较小的时间变化。值得注意的是，特别是LASSO，在2015年之前和之后，似乎在可变的重要性之间有一个差距，这表明股票市场的结构性变化。众所周知，中国股市在2015年经历了戏剧性的繁荣和突然的崩溃，这可能解释了这一发现(Liu et al., 2016)。

基于树的模型，包括GBRT和RF，比其他模型倾向于选择更广泛的特征集，这也在Gu et al. (2020)中观察到。流动性变量和基本面信号是GBRT和RF最重要的两组预测因子，但它们的变量排序与其他模型略有不同。另一方面，树模型的变量重要性的时间变化相对较低。在这里，我们还观察到2015年前后的变量重要性存在差距，特别是RF，如ill、idiovol和maxret。VASA在变量重要性方面的行为与PLS非常相似，因为VASA是用线性子模型构建的，除了变量重要性的时间变化的更高水平。

最后，神经网络模型(NN1-NN5)支持流动性变量、基本面信号、估值比率和中国特有的因素，包括异常换手率(atr)、趋势因子(er_trend)和前10大股东持股比例(top10holderrate)。与其他模型相比，神经网络在变量重要性上的时间变化要大得多，这表明它们可以检测和解释不同预测器预测能力中的结构性突变。我们将这一发现归因于神经网络模型的灵活性和适应性，特别是当它们使用足够的数据进行微调和良好训练时。

3.3.3 替代模型选择

使用样本外R2进行模型选择在实践中可能不太好，因为一些预测模型可能有接近的样本外R2，但在现实中性能非常不同。例如，在表1中，GBRT模型的总体样本外R2略大于NN4。然而，这种整体性能主要是受GBRT在2018年的性能驱动，而以 R^2_{\rm oos} 衡量的NN4的预测性能实际上在大多数时期都比GBRT更稳健，见附录图D.1。

我们首先使用Hansen(2005)的无条件优越预测能力(USPA)检验。然而，在我们的分析中，我们注意到单独的Hansen(2005)检验仍然不能区分一些预测模型的性能，这也是在Gu et al. (2020)中使用的Diebold和Mariano(1995)检验的情况。

为了解决这个问题，我们使用Li et al.(2020)的条件优越预测能力(conditional superior predictive ability, CSPA)测试进一步研究了模型的条件预测能力，该测试允许我们比较机器学习方法在不同宏观经济环境中的表现。有关这两个测试的详细描述，参阅附录B。

表5：比较全样本无条件/条件优越预测能力

第一列报告行模型在5%显著性水平上的1对1 USPA检验的拒绝数量。接下来的六列报告了对不同条件变量的条件优越预测能力测试(Li et al.(2020))的类似汇总统计。对于CSPA测试，条目报告针对行模型和列条件调节变量的特定对的CSPA测试相对于其余12个竞争模型的拒绝数。最后一列报告CSPA测试的拒绝总数。对于每个条目，星号表示拒绝5%显著性水平的一对全检验。

表5报告了USPA和CSPA测试下给定模型的拒绝数量。USPA测试结果显示朴素OLS模型和改进后的OLS-3模型表现较差，拒绝总数最大。GBRT、RF、NN3、NN4和NN5模型的无条件预测性能均优于其他模型，但USPA测试无法区分它们的性能。因此，我们也比较了CSPA测试结果^[8]。我们观察到NN1、NN4和NN5的CSPA测试拒绝总数最小。即使树模型，包括RF和GBRT，也表现良好，他们的一对所有的比较被拒绝时，以市场水平的股票方差为条件，而NN4和NN5可以生存相同的比较。此外，NN4和NN5在大多数宏观经济条件下表现出 {MOD}。因此，CSPA检验使我们能够更全面地区分VASA、NN2和正则化线性模型的预测性能，提供了这些模型不如NN4和NN5的统计证据。附录E.1显示了CSPA如何可以用于在形成投资组合策略时预测模型的事前选择。

3.4 剖析NN4的可预测性性能

先前的分析表明，神经网络在可预测性方面似乎优于其他模型。这些算法的一个经常被提及的缺点是它们缺乏可解释性。尽管如此，作为一个健全的检查，并提供一些关于哪些变量导致了可观的可预测性的直觉，我们深入挖掘了预测性能的驱动因素。为此，我们主要关注由NN4模型生成的小股和大股的月度和年度 R^2_{\rm oos} 的显著差异，因为我们稍后将使用该神经网络进行投资组合分析。在接下来的讨论中，我们主要关注小股和大股。对于其他子类别之间的差异，也会有类似的论点。

图3：变量的相对重要性

显示了NN4模型中变量重要性的变化。图A绘制了月度策略中，从最高的70%股票到最低的30%股票的变量重要性的变化。图B绘制了从月度策略到年度策略时这两组的变化。红 {MOD}表示重要性下降，绿 {MOD}表示重要性增加。变量的排序对应于它们在月度预测水平上对整个股票样本的变量重要性。

在图3的Panel A中，我们使用NN4绘制20个最重要变量的差异，以预测月水平上的前70%和后30%的股票。当我们从大股转向小股时，三个最重要的变量的顺序不会改变：

chempia，即员工数量的行业调整变化，是使用行业调整的员工变化来代表公司的困境，并已在美国市场成功应用(Asness et al., 2000)
std_dolvol，衡量每日交易量的标准差，并作为流动性的代表
atr，中国特有的流动性因素

Pan et al. (2016)认为，atr将投机性交易与流动性和交易量中的其他成分隔离开来。因此，它的表现很好，因为个人投资者贡献了大部分的总交易量。虽然这三个变量对大公司和小公司的月度水平都同等重要，图3中Panel B的结果表明，他们在两组内的影响力在年度范围内下降，这与直觉完全一致。

虽然前三个变量同等重要，但其他大多数变量的相对重要性会发生变化。特别地，我们发现，流动性相关的变量，如zerotrade和std_turnorver获得更多权重的小盘股，而基本变量，如cash, nincr, bm_ia , orgcap获得较少的权重。除流动性相关变量外，波动性相关变量如volatility, idiovol, max_ret和中国特有的趋势变量er_trend更重要。我们接下来讨论后面这些变量。首先，由于idiovol对于小型股来说是一个更重要的预测因子，我们的结果支持了有限套利的理论（见Shleifer and Vishny (1997) ; Wurgler and Zhuravskaya (2002) ; Pontiff(2006)），假设对于高特质风险股票，异常变得更强，导致整体可预测性增加^[9]。

其次，max_ret也发挥了更重要的作用，证实了我们的猜想，即散户投资者对小型股的价格动态有显著影响。正如Bali et al.(2011)所示，如果投资者对具有彩票式回报的资产有强烈的偏好，极端正回报在股票的横截面定价中表现出显著的可预测性。此外，他们发现，这种效应在回报率极高的小型股中更为普遍。因此，他们的发现与我们对NN4重视max_ret的发现非常吻合。

最后，Liu et al. (2020)的研究表明，他们的中国特定趋势因子(er_trend)很好地发挥了作用，因为它反映了由噪声交易者需求波动衡量的市场情绪，并且这种效果是由中国市场散户投资者的主导地位所加强的。我们的NN4模型强调了这一特定于中国趋势因素对小型股月度预测的重要性。虽然后一种变量与散户投资者对月度预测的影响有关，但图3的Panel B显示，它们在年度水平上的重要性大大降低。显然，投机性影响往往会在较长时间内消失。

图3的Panel A显示了在NN4模型下，基本面变量对较小股票的可预测性影响较小的总体趋势。然而，Barbee et al. (1996)中使用的销售价格变量sp脱颖而出，因为它对较小的股票更有相关性^[10]。有趣的是，sp对中国市场的重要性也被Bin et al. (2017)注意到了，他们表明，拥有表现最好的股票的小型公司往往比所有其他股票有更高的销售价格比。

我们没有进一步关注特定特征的重要性，而是将不同的特征放在具有代表性的类别中，以避免分析潜在的异常值。在互联网附录的表C.4中，我们将所有的变量分成十个不同的类别，涉及到流动性、动量、所有权、规模、波动性、收益、beta、账面价值比率、增长和杠杆。

图4：变量类别的相对重要性

该图直观地展示了NN4模型中总变量重要性的变化。我们将变量集合到附录表C.4中定义的类别中。图A显示了最高的70%和最低的30%之间的差异，图B显示了从月度预测到年度预测的相应变化。图C展示了与图A相同的图表，但是是年度预测。红 {MOD}表示重要性下降，绿 {MOD}表示重要性增加。组A(组B和组C)中变量的排序对应于在月度(年度)预测水平上整个股票样本中类别变量重要性的中位数。定义了这些类别之后，我们再根据每个类别和所有股票的月度预测的中位数对它们进行排序。为了分析差异，我们在两个最重要的变量中寻找每个类别，以及当我们从大股转向小股时，它们的平均变化情况。

图4中A显示，对于大型和小型股票，流动性指标都是月度可预测性的最关键驱动因素。然而，在 R^2_{\rm oos} 之间形成楔子(wedge)的是对小型股的波动性和动量类别的过度重视，而对市场因素(C_beta)和基本面因素(C_growth和C_size)的低估^[11]。

从月度预测到年度预测，我们发现流动性和势头在所有权、增长和杠杆方面失去了重要性。对于小型公司来说，规模似乎变得更加重要。为了提供关于相对差异的额外见解，图4中的面板C显示了小股和大股年度预测的相对重要性差异趋于稳定。我们只确定了C_bpr和C_size的一些差异。这一发现与小型股和大型股在年度预测时R2值的微小差异有很好的共鸣^[12]。

总的来说，神经网络NN4给予不同公司特征及其类别的重要性与我们的直觉很好地吻合。此外，它帮助我们理性化小股和大股的可预测性之间的差异。然而，与美国等国家的股市相比，中国股市的整体可预测性仍然很高。中国市场的整体可预测性可能源于卖空限制，这是中国市场的普遍特征。特别是当散户投资者占主导地位时，与其他市场相比，这些限制可能会进一步加强可预测性和潜在的过高定价。

4. 投资组合分析

到目前为止，我们对预测性能的评估完全是统计的，依赖于样本外预测R2和两个统计检验的比较。接下来，我们分析这种可预测性是否可以在投资组合策略中被利用，该策略考虑了中国市场的卖空限制和其他限制。

4.1 组合排序

我们考虑了两种类型的机器学习组合。第一个是多空组合，我们按照Gu et al. (2020)的方案构建。更准确地说，在每个月的月底，每种方法都会产生一个月前的样本外股票收益。然后，我们根据预测的回报将股票分成十分位数，每个月使用价值权重重新构建投资组合。因此，我们通过购买预期回报率最高的股票(decile 10)和出售预期回报率最低的股票(decile 1)构建了一个零净投资组合。尽管多空组合是评估机器学习方法组合水平表现的有用工具，但由于严格的卖空限制，它很难在中国股市实施^[13]。因此，我们还包括只做多的投资组合，它只持有前十分之一的股票。

表6：基于全样本(价值加权)的机器学习组合性能

该表报告了基于全样本的价值加权多空组合和只做多组合的所有机器学习模型的样本外性能度量。所有指标都基于2012年1月至2020年6月的103个月样本外报表。Avg = 月平均预期收益率(%)。Std = 月预测月收益的标准差(%)。S.R. = 夏普年化比率。Skew = 偏度。Kurt = 峰度。Max DD = 投资组合最大亏损(%)。Max 1M Loss = 最极端的负月回报(%)。

表6报告了价值加权多空组合和只做多组合的样本外表现^[14]。为了便于比较，我们还报告了所有股票均具有同等权重的1/n投资组合的表现。在平均期望月收益、夏普比率和其他指标方面，所有机器学习投资组合都主导OLS-3投资组合和1/n投资组合。总体而言，结果清楚地表明，机器学习技术，特别是神经网络模型，有利于投资组合水平的预测。

图5：全样本机器学习组合的累计对数回报

图显示了所有投资组合和沪深300指数的累计日志收益。阴影期对应的是2015年中国股市崩盘。所有的投资组合都是基于完整的样本构建的，并且都是价值加权的。图A中投资组合基于多空策略。图B投资组合只做多。

图5显示了以沪深300指数为基准，用不同方法构建的三个组合的累积收益的演变。神经网络模型在所有三种投资组合类型中占主导地位^[15]。VASA虽然简单，但被证明是仅次于NN4的第二好方法。请注意，这两种方法的多空组合在2015年股市崩盘期间表现非常好，如阴影区域所示。此外，2020年初新冠大流行带来的全球冲击并没有导致港口投资额显著下降。神经网络和VASA之后是惩罚线性模型，包括LASSO和Enet，这两种方法的性能非常相似，因为这两种方法有很多共同点，而树模型的性能比较落后。然而，所有的机器学习投资组合都优于1 / n投资组合和市场指数。

图5和表6中的结果证实了Gu et al. (2020)的发现，神经网络优于他们研究中考虑的所有其他模型。对于多空组合，我们得到的中国股市的夏普比率远高于Gu et al.(2020)发现的美国股市的夏普比率。例如，最高的夏普比率(SR = 3.45)，是由其NN4产生的最佳夏普比率(SR = 1.35)的两倍多。

如上所述，由于交易限制，多空策略几乎不可行，因此我们在解释这些结果时非常谨慎。与此同时，只做多的投资组合的夏普比率最高为1.76，仍高于美国市场的多空策略。考虑到这个高水平，在更现实的假设下评估只做多的投资组合的表现至关重要。

4.2 排除小盘股

作为稳健性检查，我们基于前70%的子样本重复前面的投资组合分析。这种做法有三个主要原因。

在中国股市中，小盘股的价格波动较大，投资者很难找到合适的买入点。
根据Liu et al.(2019)，在中国，由于IPO限制，排名后30%的股票往往会遭遇壳价(shell-value)问题。
总体而言，大盘股的流动性较高，价格波动较小，因此受中国10%的每日限价限制的影响较小。

表7：基于前70%样本(价值加权)的机器学习组合的性能

该表报告了基于Top 70%样本的价值加权多空组合和只做多组合的所有机器学习模型的样本外性能度量。所有指标都基于2012年1月至2020年6月的103个月样本外回报。

表7报告了结果。基于前70%大股票的机器学习投资组合的表现在质量上与完整样本相似。然而，所有的投资组合都实现了较低的平均月回报、夏普比率、标准差和极端负的月回报，因为小盘股被排除在外。然而，机器学习方法仍然在简单的OLS-3模型和1/N投资组合中占主导地位，其中神经网络表现最好，其次是正则化线性模型和树模型。因此，这些结果证实了机器学习方法在中国股票市场也具有出 {MOD}的组合水平预测能力。

4.3 国有企业的性能

表3的结果显示，国有企业具有相当大的收益可预测性，特别是对于神经网络等复杂模型。政治关系可以通过各种渠道提高国有企业的绩效，例如更容易获得银行贷款、宽松的监管和更轻的税收。同时，众所周知，国有企业的国有所有权高度集中、财务不透明、股价信息不透明以及缺乏公司利率治理机制，都有可能加剧这些企业的崩溃风险。因此，研究国有企业的可预见性如何体现在不同的投资组合策略的表现上是很有趣的。

表8：基于国有企业(价值加权)的机器学习投资组合的性能

表报告了基于国有企业的价值加权多空组合和只做多组合的所有机器学习模型的样本外绩效指标。所有指标都基于2012年1月至2020年6月的103个月样本外回报。

表8报告了多空策略和只做多策略的结果。考虑到国有企业大多是大公司，我们将表8和表7中的结果进行了比较。首先，在夏普比率方面，多空策略在国有企业中的表现明显高于前70%的股票，尤其是在神经网络方面。对于NN5，我们得到的夏普比率为4.12，而排名前70%的股票的夏普比率为2.70。对于只做多的投资组合，我们注意到1 / n的投资组合确实表明国企股票比前70%的股票（也包括国企）有更大的撤资风险。然而，利用国有企业回报的可预测性，我们可以将只做多策略的最大跌幅降低到远低于70%最大股票的水平。与此同时，仅做多的国企投资组合的夏普比率也更高。因此，使用合适的预测算法，可以缓解以往研究对国有企业产生较大崩溃风险的担忧。

4.4 交易成本

为了评估投资组合表现的经济意义，最终必须在分析中包括交易成本。对中国市场而言，A股交易的成本主要由三部分组成：佣金(commission)、印花税(stamp tax)和滑点(slippage)。与佣金和印花税相比，滑点需要更仔细的调查，因为流动性问题往往很难在不影响市场价格的情况下，以预先指定的价格执行所有交易。在中国股市，机构投资者的佣金费用在2012年约为5个基点，之后迅速下降。近年来，散户投资者的佣金一般为2-3个基点，机构投资者的佣金则更低。自2008年以来，印花税被设定为每小时10个基点，并由卖方单方面征收。

我们考虑两种交易方案来量化滑点的规模。

一个月的第一个交易日前30分钟的时间加权平均价格(TWAP)，假设订单是平均分配的，并在每分钟开始执行。因此，滑动是TWAP与开盘价之间的相对差异。
交易量加权平均价格(VWAP)，利用20天移动平均线计算每分钟交易量，并根据预测的交易量按比例执行订单。

此外，通过计算股票交易量的5%来提供市场容量的粗略估计。

表9：机器学习组合的滑点

报告了测试样本中机器学习投资组合滑动的相关汇总统计(平均、标准误差、偏度、峰度、第一分位数、第三分位数)，包括TWAP(以bps为单位)、VWAP(以bps为单位)和保守交易量(以十亿为单位)。TWAP、VWAP和市场容量的定义在第4.4节的第一段详细说明。

表9报告了有关TWAP、VWAP和市场容量的一些汇总统计数据。平均而言，TWAP和VWAP与开盘价的总偏差在计入买入和卖出后约为10个基点。在一些罕见的情况下，如2015年中国股市的动荡，滑点的规模可能相当大，股市在开盘后迅速上涨或下跌。然而，在这种情况下，买入和卖出下滑的迹象可能是相同的，这可能在一定程度上减少投资者面临的实际下滑。粗略计算表明，对正常时期中国股市交易成本的合理估计是25个基点。然而，考虑到在某些极端情况下滑移可能会高于10个基点，我们采取了一种保守的方法，通过考虑20、40、60、80个基点的交易成本来考虑交易成本对投资组合绩效的影响。

表10：包括交易成本(价值加权)的投资组合绩效

表报告了基于不同机器学习算法的投资组合策略的交易成本对月回报率(%)和年度夏普比率的影响。

在表10中，我们报告了包括不同交易成本水平的月收益和夏普比率。事实证明，由于我们的策略使用频率较低，这些投资组合仍然提供了可观的、经济上显著的表现。对于我们的基准策略NN4，当我们假设往返成本为80个基点时，在极端情况下，多空设置中的夏普比率从2.91下降到2.34。使用更现实的20个基点的假设，夏普比率仅下降到2.76。对于只做多的策略也可以做类似的观察，从实践者的角度来看，这更有意义。对于只做多的策略，在假设80个基点的情况下，夏普比率从1.68下降到1.46。因此，我们的交易成本分析表明，即使在交易成本大小的保守假设下，不同策略的性能仍然具有经济意义。

4.5 日价格限制

每日限价规则在世界各地的股票交易所被广泛使用，特别是在新兴市场，希望它们将作为一种市场稳定机制(Deb et al., 2010)。中国市场对：

主板和创业板普通股实行每日限价10%（2020年8月以来，创业板的股票每日限价20%）
特殊处理(ST)股票每日限价5%
科创板股票每日限价20%

对于中国市场，Chen et al. (2019b)发现价格限价激励大型投资者追求一种破坏性的策略，即将股价推高到价格上限，然后在第二天抛售。因此，他们认为，这种意想不到的影响导致每日限价适得其反。

鉴于我们的预测范围是一个月远期回报，而不是每日回报，我们推测我们的主要结果只会受到价格限价规则的轻微影响。为了探究其对投资组合绩效的影响，我们进行如下操作。在每个再平衡日期，我们排除在买入目标价格上限上收盘的股票，并将卖出目标价格推迟到价格不在下限的日期。

表11：机器学习组合的影响

表报告了具有可交易股票的等权重只做多和只做多投资组合的所有机器学习模型的样本外性能度量，即不包括处于价格限制的股票。所有指标都基于2012年1月至2020年6月的103个月样本外回报。

表11报告了只做多的投资组合的结果。事实上，我们发现，回报率和夏普比率仍然很高。例如，对于NN4，夏普比率从1.78下降到1.70。因此，总体而言，我们的结果仍然是稳健的纳入价格限制规则。

5. 结论

本文研究了几种机器学习方法对中国股票市场的预测能力。

我们发现，最关键的因素是基于流动性的交易信号。
让我们惊讶的是，基于价格势头的信号只发挥了次要作用。

一个股市需很多年才能发展出允许、鼓励基础投资的品质。中国股市正朝着这个方向发展，但我们的结果表明，

基本面因素是第二重要的因素类别。

我们还发现，

散户投资者的短期主义在短期投资期内产生了可观的可预测性，特别是对小型股。

同时，由于政府信号在中国市场扮演着如此重要的角 {MOD}，我们观察到

国有企业的可预见性在更长远的角度有了实质性的提高。

我们的投资组合分析表明，

短线的高可预见性转化为多空组合的高夏普比率。
特别是神经网络和VASA，在2015年中国股市崩盘期间也提供了强劲的表现。

然而，在中国市场做空股票是不现实的。因此，我们还分析了只做多的投资组合，发现其表现仍然具有经济意义。我们还提出了一种新的方法来执行事前模型选择，它产生了显著的性能。总之，我们表明机器学习方法可以成功地应用于具有完全不同于美国市场特征的市场。

Latex附录

公式1

\begin{align} r_{i,t+1}=\mathbb{E}_t[r_{i,t+1}]+ϵ_{i,t+1} \\ \tag{1} \end{align}

公式2

\begin{align} \mathbb{E}_t[r_{i,t+1}]=g(z_{i,t}) \\ \tag{2} \end{align}

公式3

z_{i,t} = \begin{align} \begin{pmatrix} c_{i,t} \\ x_t \otimes c_{i,t} \\ d_{i,t} \end{pmatrix} \\ \tag{3} \end{align}

公式4

\begin{align} R^2_{{\rm oos},S} =1 - \frac{ \sum_{(i,t)\in \mathcal{T}}\left(r_{i,t} - \hat{r}_{i,t}^{(S)}\right)^2 }{ \sum_{(i,t)\in \mathcal{T}} {r}_{i,t}^2} \\ \tag{4} \end{align}

返回目录：

参考

^采用Bloomberg的市值指数。这些指数不包括ETF和ADR。为避免重复计算，这些证券只包括该国交易所中交易活跃的一级证券。
^见《世界发展指标(2020年)》。根据上海证券交易所2018年年报，散户投资者的成交额为82%，利润为3110亿元，按年平均汇率折合470亿美元。与此同时，机构投资者创造了1116亿元人民币，按年平均汇率计算为1686亿美元的利润。
^数据可以根据要求从作者处获得
^他们的数据集包括每只股票的94个特征，每个特征与8个总时间序列变量的相互作用，以及74个行业部门虚拟变量，总共超过900个基线信号用于预测。最近，对Gu et al. (2020)所调查的基本算法提出了许多额外的改进建议。又见Bryzgalova et al. (2019) , Chen et al. (2019a) , Feng et al. (2019) ,De Nard et al. (2020) , Gu et al. (2021)。
^我们将调谐参数(tuning parameter)设为M = 1.35，遵循Huber(2004)的建议，它可以产生尽可能多的稳健性，同时保持对正态分布数据的有效性。
^本节的主要结果对分类阈值的选择不敏感。除了0.7分位数，我们还研究了0.9、0.8和0.6分位数，它们生成了相同的模型可预测性模式。为了简单起见，这里不提供这些结果，但可以根据需要提供。
^由于我们的测试样本从2012年到2020年，我们逐年报告这一时期国企的比例。2012 - 2020年，国有企业的比重分别为40.62%、39.95%、38.79%、37.03%、34.88%、31.53%、30.19%、29.59%和28.59%。
^特别地，我们对6个条件变量进行了条件设定，可以分为三组:(1)通货膨胀率(infl)和M2增长率(m2gr)，它们反映了宏观经济的总体环境；(2)衡量估值水平的市价账面市值比(bm)和股利价格比(dp)；(3)月周转率(MTR)和股票方差(svar)，反映市场水平的波动性和流动性。所有其他的CSPA测试都可以从作者那里获得，以及对不同子样品的分析，证实了我们的主要结果。
^大型和小型股票之间的R2差异似乎是所有三个子组中最显著的。然而，我们也分析了小股与非国有企业和A.M.C.P. S. 的相对差异。我们发现，与非国有企业相比，小型股类别更重视atc和A.M.C.P. S. 。与低端30%的A.M.C.P. S. 相比，小型股更看重自身价值和波动性
^Fisher(1984)认为，sp越高，说明该股票越受投资者欢迎，提供了买入机会。Fisher是美国亿万富翁投资分析师，从1984年到2017年担任《福布斯》投资组合策略专栏的负责人，是该杂志历史上连续任职时间最长的专栏作家。
^NN4以及其他神经网络下的变量排名与所有预测模型的平均排名有很大的不同，后者更偏重于基本因素。相比之下，神经网络似乎更青睐动量和波动性因素，而不是基本面因素。
^请注意，我们发现了国有企业和非国有企业之间的其他差异，以及A. M. C. P. S.的子样本。例如，相对于非国有企业，国有企业更注重C_size和C_growth，而不是C_bpr和C_ey。在A. M. C. P. S.方面，排名前70%的人更重视C_own和C_vol，而不太重视C_beta。
^中国证监会(CSRC)于2010年3月推出了融资融券交易。最初只有90只股票可供卖空，但到2020年7月已增至800只。然而，这个数字与中国股市的股票总数(超过4000只)相比仍然很小。
^除了价值加权投资组合，我们也考虑同等权重的投资组合，其表现见附录表E.6。除了主要由微型股推动的略高的夏普比率外，结果在定性上与表6相似。
^为了简单起见，我们只在图中包含NN4，因为其他神经网络模型的性能非常相似。