研报名称:《高频量价因子在股票与期货中的表现》 研报作者:海通证券 冯佳睿 姚石 我们在本篇报告中将目光聚焦于日内价量信息和交易特征,使用分钟数据构建一系列高频因子,并对比各因子在股票和期货中的表现。 高频因子分类
高频因子可以分为收益率分布、成交量分布、量价复合、资金流和日内动量等几个主要的类别,各类因子还可以做进一步的细化,例如收益率分布因子包括已实现偏度、已实现峰度和上下行波动率等。 收益率分布因子
高频偏度和下行波动占比具有显著的选股效果,多空组合月均收益差分别为 1.45%和 1.87%,因子 IR 分别为 2.61 和 3.31。因子在股票中均呈现出反转效应,即高频偏度小、下行波动占比高的股票未来收益表现更好,而在期货中呈现出动量效应, 即高频偏度大、上行波动占比高的期货品种未来收益表现更好, 最优参数区域的平均年化收益率分别为 3.59%和 3.81%。 成交量分布因子
日内不同时段的成交量分布能够反映投资者的行为特征。上午10 点-11 点成交量占比因子和股票下月收益显著正相关,正交因子 IR 均超过 2,而收盘前半小时成交量占比因子和股票下月收益显著负相关,正交因子 IR 高达3.24。对于期货,由于不同品种交易时段存在差异,该因子不具备区分效果。 量价复合因子
高频量价相关性因子具有显著选股效果,日内走势呈现出“量价背离” 特征的股票未来收益表现好于“量价同向”的股票,多空组合月均收益差为 2.10%,因子 IR 为 2.48。因子在期货中表现有所不同,量价相关性和仓价相关性因子值大的期货品种未来收益更高, 最优参数区域的平均年化收益率分别为3.46%和 3.58%。 资金流因子
资金流向来自交易时产生的委托信息,反映的是微观层面的供求关系。期货资金流因子在回看期和持有期较短时取得负收益,在回看期和持有期较长时取得正收益, 这意味着期货资金流入因子具有短期反转、长期动量特征。 趋势强度因子
股票趋势强度因子具有一定选股效果, 多空组合月均收益差为1.18%,但剔除风格因子后不再具备选股效果。 因子在期货中表现较好,最优参数区域内平均年化收益率为 5.30%。 改进反转因子
除了直接使用分钟级别数据构建因子之外,我们还可以使用日内信息对传统因子做增强。 剔除了隔夜和开盘后半小时涨幅的一个月反转因子的多空组合月均收益差从 1.79%提升至 2.28%, 2017 年以来提升效果尤为明显。 高频因子在股票和期货中的表现存在差异
大多数高频因子在股票中体现出反转效应,即因子值小的股票未来收益更高,而在期货中体现出动量效应,即因子值大的期货品种未来收益更高。这种差异化特征与交易机制和投资者结构有关。 风险提示
因子失效风险、流动性风险、统计规律失效风险。 1.研究背景 在 FICC 系列研究报告中,我们构建了动量、期限结构、 会员持仓、基本面等不同类型的 CTA 因子,在本篇报告中我们将目光聚焦在日内交易特征上,使用分钟数据构建一系列高频因子,并对比各因子在股票和期货中的表现。 根据现有的研究成果,我们可以把高频因子分为收益率分布、成交量分布、量价复合、资金流和日内动量等几个主要的类别, 各类因子还可以做进一步的细化, 例如收益率分布因子包括已实现偏度、已实现峰度和上下行波动率等等。 除了图 1 中展示的各类因子之外,我们还可以通过一些复杂的业务逻辑或者机器学习方法来挖掘新的高频因子。 2.回测参数设置 我们在本文中使用如下回测参数: 回测区间: 2010.01-2018.09。 对于期货,所有品种的保证金固定为 20%;策略无杠杆,即调仓日使用 20%的资金作为保证金买入期货合约,余下的现金不计算收益。 在每个调仓时点上剔除上市不足半年或过去 20个交易日日均成交不足 1万手的品种,将剩下的品种按因子值排序,做多前 20%,做空后 20%,考察多空组合收益表现。 若调仓周期为 H 个交易日,则将资金等权分成 5 份,依次相隔[H/5]个交易日建仓,将每个通道的净值相加得到策略的总净值,避免存在路径依赖。 对于股票, 月末调仓, 剔除 ST、停牌、涨跌停、上市不满 6 个月、距退市不足1 个月的股票;考察原始因子和正交因子的收益表现,其中正交因子通过逐步回归剔除行业、市值、非线性市值、反转、换手、特异度等风格因子的影响来构建。 由于部分因子难以确定影响方向,故回测时暂未扣费。
3.收益分析分布因子 3.1 高频偏度与峰度
Amaya et al.(2011) 研究发现日内高阶矩与股票的未来收益之间存在联系, 利用股票的日内分时数据, 构建了高频已实现方差、偏度以及峰度三个指标, 计算方法如下: 其中r_ij为股票 i 的日内 1 分钟对数收益序列{j=1,...,N},因子值为过去 20 日的指标均值。 我们在前期报告《选股因子系列研究(十九)——高频因子之股票收益分布特征》中实证发现,高频偏度因子具有显著的选股能力,而方差和峰度没有选股能力。高频偏度因子分组收益和 IC 表现如图 2-5 所示, 原始因子和正交因子的 IC 均值分别为-0.047 和-0.023, ICIR 分别为-2.61 和-2.38, top-bottom 多空组合月均收益差分别为 1.45%和0.82%。 对于期货,采用同样的因子计算方法,但由于品种数量比较少,需要对参数敏感性进行分析。因子在绝大部分参数组下均能取得正收益(见表 1),这意味着高频偏度大的期货品种未来能够取得更高的收益。 当回看期 R 和持有期 H 均为 1 天时,因子收益最高,为7.32%,夏普比率2为 1.21。因子在 R=10-15, H=1-5 参数区域内表现相对稳定,平均年化收益率为 3.59%。 股票高频峰度因子分组收益和 IC 表现如图 7-11 所示, 原始因子和正交因子的 IC 均值分别为-0.005 和-0.008,ICIR 分别为-0.14 和-0.45,多空组合月均收益差均为 0.21%,没有选股效果。 对于期货,高频峰度因子在所有参数组下均取得负收益(见表 2),意味着高频峰度低的期货品种未来能够取得更高的收益。当回看期 R 和持有期 H 均为 1 天时,因子负向收益最高,为-4.32%,夏普比率为-0.73。 我们可以将高频偏度和峰度因子相叠加构建复合因子,即将所有满足流动性条件的N 个期货品种按高频偏度值从低到高排序打分 1-N,按高频峰度值从高到低排序打分 1-N,将两个因子等权相加后选择分数最高的前 20%期货品种做多,分数最低的前 20%期货品种做空,因子在不同参数组下的表现如表 3 所示。当回看期 R 和持有期 H 均为 1 天时,因子收益最高,为 7.46%,夏普比率为 1.27。因子在 R=10-15, H=1-5 参数区域内表现相对稳定,平均年化收益率为 3.96%。 3.2 高频上下行波动占比
Feunou B et al.(2015)3将波动率拆分成上行波动率和下行波动率,发现投资者更为关注下行波动,要求更高的风险补偿。我们在前期报告《选股因子系列研究(二十五)——高频因子之已实现波动率分解》中构建了下行波动占比因子,发现该因子具有显著的选股能力。因子计算方法如下: 高频下行波动占比因子的分组收益和 IC 表现如图 11-14 所示,原始因子和正交因子的 IC 均值分别为 0.063 和 0.031, ICIR 分别为 3.31 和 3.12, 多空组合月均收益差分别为 1.87%和0.94%。
![](http://image.jq.dev.kuanke100.com/9123940dcf30e0b8130cbad5ff36e14a) 对于期货,为了方便起见,我们考察上行波动占比因子在不同参数组下的表现,因子在绝大部分参数组下均能取得正收益(见表 4),这意味着上行波动占比高的期货品种未来能够取得更高的收益。 当回看期 R 和持有期 H 均为 1 天时,因子收益最高,为8.11%,夏普比率为 1.31。因子在 R=10-15, H=1-5 参数区域内表现相对稳定,平均年化收益率为 3.81%。 如果考虑到波动率的水平,我们可以将上行波动占比因子转换为“累计上行波动率-累计下行波动率”这一形式,新因子在各参数组下均能取得正收益,收益水平高于原始因子(见表 5)。因子在 R=10-30, H=1-10 参数区域内表现相对稳定,平均年化收益率为 3.96%。 3.3 小结
根据以上研究结果,高频偏度和下行波动占比因子在在期货和股票中的表现截然不同。二者在股票中体现出反转效应, 即因子值小的股票未来收益更高,而在期货中体现出动量效应, 即因子值大的期货品种未来收益更高,即便我们仅考察一个月涨跌幅这个日频因子,也可以得出这一结论。 这种差异化特征可能与交易机制和投资者结构有关。股票市场以单向做多机制为主,散户交易占比较高,容易出现过度反应和定价偏误,而期货市场可以多空双向 T+0交易,机构参与度高,程序化交易应用广泛,定价相对更为精确,价格的涨跌往往与库存等基本面数据变化形成共振,更容易向一个方向持续运动。 4. 成交量分布因子 4.1 日内成交量分布
一般来说, 股票日内成交量呈现“U”型或者“W”型走势, 即成交量在开盘和收盘阶段比其他交易时段更高,午间休市可能导致下午开盘时成交量也出现高点。各个时点的成交量分布能够反映投资者的行为特征,蕴含额外信息。 我们以半小时为间隔划分成八个区间,计算每个区间成交量占比VolumeRatio,并使用股票过去 20 日指标均值作为因子值。 不同时间区间的因子 IC 统计结果如表 6 所示, 上午 10:00 之前,下午 14:30 之后的成交量占比因子和股票下月收益负相关; 10:00-11:00 的成交量占比因子和股票下月收益显著正相关。 4.2 10:30-11:00 成交量占比
10:30-11:00 成交量占比因子的分组收益和 IC 表现如图 18-21 所示, 原始因子和正交因子的 IC 均值分别为 0.037 和 0.022;ICIR 分别为 2.43 和 2.26, 多空组合月均收益差分别为 1.35%和0.82%。 4.3 14:30-15:00 成交量占比
14:30-15:00 成交量占比因子的分组收益和 IC 表现如图 22-25 所示, 原始因子和正交因子的 IC 均值分别为-0.027 和-0.047;ICIR 分别为-1.01 和-3.24, 多空组合月均收益差分别为 0.99%和 1.54%。 为什么不同时段的成交量占比选股效果存在显著差异?一个可能的原因在于:开盘后半小时的交易反映了投资者对隔夜信息的分歧度,噪声较多;收盘前的交易反映出投资者对下一个交易日的预期,部分个人投资者厌恶承担日内波动,选择在临近收盘时交易,从而使得该时段的预期收益下降,而真正的知情交易者会选择在盘中噪声较少时交易。 我们在期货市场中同样构建了成交量占比因子,收盘前半小时成交占比因子在不同参数组下的表现如表 7 所示。该因子不具备区分效果,一个可能的原因是不同期货品种交易时间有所不同,难以统一比较,部分品种没有夜盘交易,有夜盘交易的品种,例如螺纹钢、沪铜和黄金,交易时长也有所不同。 5. 量价复合因子 5.1 高频量价相关性
我们在《选股因子系列研究(十二)——“量”与“价”的结合》中发现日频股票价格和换手率的相关系数具有显著的选股能力,相关系数大,即“量价背离”的股票未来收益表现好于相关系数小,即“量价同向”的股票。 下面我们使用日内数据构建高频量价相关性因子,即每一交易日取股票日内 1 分钟频率的价格P_t和成交量V_t序列, 计算 Pearson 相关系数, 并使用过去 20 日指标均值作为因子值。 高频量价相关性因子同样具有显著的选股能力,因子分组收益和 IC 表现如图 26-29所示,原始因子和正交因子的 IC均值分别为-0.061和-0.037,ICIR分别为-2.48和-2.73,多空组合月均收益差分别为 2.10%和 1.17%。 对于期货,高频量价相关性因子在不同参数组下的表现如表 8 所示。当回看期 R 和持有期 H较短时,因子取得负收益,随着 R和 H增加因子收益开始由负转正,在 R=15-30,H=5-20 参数区域内表现相对稳定,平均年化收益率为 3.46%。 5.2 高频仓价相关性
期货相比股票,存在持仓量这一额外的信息维度,我们可以使用同样的方法计算日内价格和持仓量之间的相关系数。 仓价相关性因子在不同参数组下的表现如表 9 所示。与量价相关性因子表现相似,当回看期 R 和持有期 H 较短时,因子取得负收益, 随着 R 和 H 增加因子收益开始由负转正,在 R=10-30, H=1-10 参数区域内表现相对稳定,平均年化收益率 3.58%。 从直观上理解,仓价相关性较高,意味着该品种持仓量随价格上升而增加——多头加仓,继续看涨,或随价格下跌而减少——多头平仓止损,空头获利了结,市场跌势趋缓,二者均为多头信号;仓价相关性较低,意味着该品种持仓量随价格上升而下降——空头平仓止损,多头获利了结,市场涨势趋缓,或随价格下跌而上升——空头加仓,继续看跌,二者均为空头信号。 6. 资金流因子 资金流向来自交易时产生的委托信息, 反映的是微观层面的供求关系。 Wind 中提供了数十个股票资金流汇总指标,包括不同类型投资者(机构、大户、中户、散户)成交占比、主动买(卖)量(额、单数、比率)、净流入量(额、单数、比率)等等。 我们在《选股因子系列研究(十一)——Level2 行情选股因子初探》中测试了多个资金流因子的选股效果,由于因子数量较多,本文中暂不做展示,详见相关报告。 对于期货的资金流入因子,由于 wind 未提供汇总指标,我们使用分钟数据自行定义。该因子有两种定义方式,第一种是基于成交量的因子 1: 因子 1 和因子 2 表现相近, 在回看期和持有期较短时取得负收益,在回看期和持有期较长时取得正收益(见表 10-11),这意味着期货资金流入因子具有短期反转、长期动量特征。 7. 动量类因子 7.1 趋势强度
记 t 日 1 分钟频率的价格序列为P_t(t=1,2,...,n),则趋势强度指标定义如下: 该指标可以理解为日内价格位移与路程之比,能够刻画日内趋势的强弱。我们同样将过去 R 日指标均值定义为趋势强度因子。 股票趋势强度因子具有一定选股效果, IC 均值为-0.034,多空组合月均收益差为1.18%,但剔除风格因子后,因子 IC 均值为 0.002, top-bottom 月均收益为-0.05%,完全丧失了选股效果。 对于期货,当回看期 R 和持有期 H 均为 1 天时,因子收益最高,为 9.45%,夏普比率为 1.48。因子在 R=10-20, H=1-10 参数区域内表现相对稳定,平均年化收益率为5.30%(见表 12)。 7.2 改进的反转因子
除了直接使用分钟级别数据构建因子之外,我们还可以使用日内信息对传统因子做增强。例如一个月反转因子自 2017 年以来有效性有所减弱,一个重要的原因是投资者更加注重基本面研究和价值投资,青睐基本面向好的公司,抛弃基本面恶化或者业绩“爆雷”的公司。由于大多数公司选择在收盘之后发布财务数据等重要信息,股票次日往往跳空开盘,并在随后一段时间大幅波动。近年来, A 股机构投资者占比提升,市场交易行为在慢慢向美股等发达市场靠拢,这种在美股财报季常见的开盘跳空现象属于市场对重要数据或信息的合理定价,而并非投资者行为造成的错误定价。 基于以上现象,我们可以尝试将将隔夜和开盘后半小时的涨幅剔除,再计算当日涨幅r_t, 将过去一个月r_t的累计值作为新的反转因子。改进因子和原始因子的对比如图 34所示,多空组合月均多空收益差由 1.79%提升至 2.28%, 2017 年以来提升效果尤为明显。 7.3 期货日内动量
由于期货是 T+0 交易,因此我们可以构建日内策略:在 t 时刻,做多日内累计涨幅高的前 20%品种,做空涨幅低的前 20%品种,持有至收盘平仓。日内动量因子表现稳定,当 t 为 9:03 时,因子取得 10.61%的年化收益率和 1.97 的夏普比率,随着 t 的延长收益逐渐衰减,但胜率有所提升。 8. 高频因子相关性 股票高频因子秩相关系数矩阵如表 14 所示,大多数因子间具有较低的相关性,而下行波动率占比和高频偏度因子间具有较高的负相关性,高达-0.83,这是因为二者都能够刻画日内收益率分布的非对称性。前文分析结果显示, 下行波动占比因子具有更好的选股效果。在剔除了下行波动占比因子影响后,高频偏度因子 IC 下降至 0.0024,多空组合月均收益差下降至 0.17%,说明高频偏度因子的选股能力全部可以被下行波动占比因子所解释。 期货高频因子秩相关系数矩阵如图 38 所示,与股票相似,上行波动率占比和高频偏度因子间具有较高的正相关性,其他高频因子之间相关性普遍较低,但绝大多数都和时间序列动量因子正相关。 9.总结与展望 本篇报告中我们使用分钟级别数据构建了一系列高频因子,并对比各因子在股票和期货中的表现。 高频偏度、下行波动率占比、量价相关性因子具有显著的选股效果。成交量分布因子同样具备一定的选股效果,收盘前成交量越大的股票未来表现越差,而上午 10-11 点成交量越大的股票未来表现越好。 此外,还可以使用日内信息对传统因子进行改进,反转因子多空组合月均收益差可以从 1.79%提升至 2.28%。 2017 年以来提升效果尤为显著。 多数高频因子在期货和股票中的表现截然不同,在股票中体现出反转效应,在期货中体现出动量效应, 这种差异化特征可能与交易机制和投资者结构有关。股票市场以单向做多机制为主,散户交易占比较高,容易出现过度反应和定价偏误,而期货市场可以多空双向 T+0 交易,机构参与度高,程序化交易应用广泛,定价相对更为精确,价格的涨跌往往与库存等基本面数据变化形成共振,更容易向一个方向持续运动。 在后面的研究中,我们将基于交易者行为特征挖掘更多日内或短周期 alpha 因子,完善多因子选股和 CTA 策略体系。 10. 风险提示 因子失效风险、流动性风险、统计规律失效风险。
|