大数据研究之三:新闻情绪选股的多空差策略重要观点1 新闻情绪因子选股不同板块风格各异 主板方面,情绪指数与股票未来表现为正向指标,且持续天数大概5个交易日;中小板方面,情绪指数与股票未来表现为反向指标,且持续天数大概22个交易日;创业板块方面,情绪指数与股票未来上涨或下跌相对效果不显著。 2 主板空头负超额收益十分显著2014年1月1日到2016年12月30日多头组合相对沪深300指数最终值为1.15,多头组合相对沪深300年化超额收益4.6%,而空头组合相对沪深300指数最终值为0.33,空头组合相对沪深300年化负超额收益达30.47%。 3 多头动量效应明显比空头强劲新闻情绪选股多空差策略在沪深300成份股中,多头组合股票持有5天总换手率为62.4,每次换手率平均值为0.43;而空头组合中,总换手率为114.6,每次换手率平均值为0.8。 一、新闻情绪选股原理在互联网大数据时代,我们获取信息的途径更加广泛和便捷,我们不再局限于传统的基本面数据和技术面数据。如何利用这些信息则是非常具有挑战性的问题。 资本市场变幻莫测,至今没有任何理论能完全解释并预测股票未来的趋势。互联网大数据的到来,则为我们提供了新思路,每只个股,几乎每天都有相关新闻,我们从新闻正面或者新闻负面对股票的影响进行研究,构建个股情绪因子,来获取超额收益。 1.1 情绪因子构建新闻情绪指数因子构建即先求出正负面新闻权重和构成的当日新闻情绪指数,然后再把N日指数进行相加,得到当期的新闻情绪指数因子。(具体新闻分类方法及当天新闻情绪指数构建可查看深度报告《大数据研究之二:机器学习之贝叶斯文本分类算法的实现》)。 1.2 选股策略原理该策略类似于多因子选股策略,只是这个策略中,只有N日正负面新闻权重和构成的当日新闻情绪指数相加这一因子。 选股策略: 把N个交易日正负面新闻权重和构成的当日新闻情绪指数相加,然后进行排序,选取排名前topN作为多头组合或空头组合,选取排名倒数前topN作为空头组合或者多头组合。其中,多头组合与空头组合都剔除买入当天一字涨跌停和停牌股票,新上市股票一个月内也不能作为候选股,多头与空头组合N+1个交易以平均价买入,持有N个交易日以平均价卖出,若卖出当天有一字涨跌停和停牌股票,则顺延到下一个交易日以平均价卖出,并买入需要买入的股票,使多头与空头组合始终保持满仓。最后计算多空收益差。 1.3 回测结果分析数据说明:
数据区间:2014-01-01 至 2016-12-30。
个股数据:沪深300指数成份股每日新闻情绪指数。
选股标的:沪深300指数成份股。
多头组合: 把N个交易日正负面新闻权重和构成的当日新闻情绪指数相加,然后进行排序,选取排名前topN的股票作为多头组合。
空头组合: 把N个交易日正负面新闻权重和构成的当日新闻情绪指数相加,然后进行排序,选取排名倒数前topN的股票作为空头组合。
策略参数:N,topN,w_neg(即负面新闻对股票影响程度,正面新闻默认为1)。 结果分析: 从以上结果来看,多头组合相对沪深300指数最终值为1.15,多头组合相对沪深300年化超额收益4.6%,而空头组合相对沪深300指数最终值为0.33,空头组合相对沪深300年化负超额收益达30.47%。二、情绪选股在不同板块的表现2.1 主板因子动量显著以沪深300成份股作为候选标的池,负面新闻影响与正面新闻等权,以5个交易日为周期,选取5个交易日情绪指数和排名前5的股票作为多头,选取排名倒数前5的作为空头,并持有5个交易日。 多头组合与空头组合每5个交易日调仓一次。多头组合中,换手率平均值为43%,而空头组合中,换手率平均值为80%。这说明,多头组合中,当新闻情绪因子排名前5时,下一次排名前5的概率也非常大,达到57%,即情绪因子动量十分明显;而在空头组合中,换手率达到80%,这说明当新闻情绪因子排名倒数前5时,下一次排名倒数前5时的概率则相对比较小,仅为20%。 2.2 中小板反向指标以2014年1月1日到2016年12月30日为回测期间,以中小板成份股作为候选标的池,负面新闻影响为0.1,以22个交易日为周期,选取22个交易日情绪指数和排名前50的股票作为空头,选取排名倒数前50的作为多头,并持有22个交易日。 在中小板块中,组合均剔除掉交易日一字板涨跌停和停牌的股票。该策略多头年化收益率为52.79%,年化多空收益差为37.33%,多空收益差最大回撤为11.17%,日胜率为57.52%,22日胜率高达80.65%。 多头组合相对中小板综指最终值为1.94,多头组合相对中小板综指年化超额收益高达24.27%,而空头组合相对中小板综指最终值为0.77,空头相对中小板综指年化负超额收益达9.40%。这表明,多空收益差的收益主要来自多头组合的超额收益。 上述结果表明,新闻情绪指数在中小板块为反向指标,即当情绪指数排名靠前,其股票反而未来表现更差,而情绪指数排名倒数的股票,则有明显的超额收益。 2.3 创业板效果偏弱以2014年1月1日到2016年12月30日为回测期间,以创业板成份股作为候选标的池,负面新闻影响为0.1,以22个交易日为周期,选取22个交易日情绪指数和排名前60的股票作为空头,选取排名倒数前60的作为多头,并持有22个交易日。 在创业板块中,组合均剔除掉交易日一字板涨跌停和停牌的股票。该策略多头组合净值为2.82,年化收益率为42.41%,多空收益差年化为23.64%,多空收益差最大回撤为12.79%,日胜率为56.54% ,22日胜率高达67.74%。 在创业板中,多空收益差为23.64%,而同期创业板综指年化收益为22.2%,即新闻情绪因子在创业板中效果并不明显,多空收益差与同期创业板综指差别不大。 三、因子敏感性分析以沪深300成份股作为标的池,为了寻找到合适的参数,首先把新闻情绪指数和的天数即买入后持有天数设置为[5,10,22,45,65],其分别代表持有一周,持有十天,持有一个月,持有二个月,持有一个季度。持有股票数量为[5,10,20,30,50]。负面新闻权重设置为[0.1,0.5,1.0,1.5,2,3],正面新闻权重为1。 其中,纵轴表示年化多空收益差与最大回撤比,横轴表示买入后持有天数。在持有天数从5到10时,对应有30个点,分别表示持有股票数量为[5,10,20,30,50]中5种情况时,负面新闻权重设置为[0.1,0.5,1.0,1.5,2,3]的六种情况,共5*6得到30个数,持有天数从10到22等依此类推。从上图可知,买入后持有5天明显优于其它持有天数。故进一步因子敏感性分析,我们只考虑持有5天的情况如下: 其中,纵轴表示年化多空收益差与最大回撤比,横轴表示买入股票数量,股票数量从5到10时,对应有6条柱形图,分别表示持有负面新闻权重设置为[0.1,0.5,1.0,1.5,2,3]的六种情况,股票数量从10到20等依此类推。从上图可知,随着持有股票数量越来越多,收益回撤比总体上有递减的趋势,随着负面新闻权重的增大,收益回撤比总体上处于递增的趋势,当持有5只股票,负面权重为1时,收益回撤比达到最大为2.09。 综上所述, 持有5天,买入5只股票,负面新闻权重与正面新闻权重等权时,有最优收益回撤比。为了进一步分析最优情况,我们分析在最优时,二个参数不变,所有情况的收益回撤比。 买入5只股票,负面新闻权重为1时,不同持有天数多空收益回撤比差别很大,持有5天远大于其他情况。可理解为新闻情绪对沪深300成份股的影响持续5个交易日。 持有天数为5,负面新闻权重为1时,持有不同股票数量多空收益回撤比差别很大,且有递减的趋势。这表明新闻情绪指数排名靠前的股票有较明显的超额收益。 持有天数为5,买入排名前5的股票时,不同负面新闻权重多空收益回撤比差别不大。这表明负面新闻权重在最优情况时,基本没有创造超额收益。 四、总结传统量化投资主要包括量化选股、量化择时、股指期货套利、商品期货套利、统计套利、算法交易,资产配置,风险控制等。传统的量化投资研究的数据来源一般是公司的财务指标、交易行情数据、政策宏观方面的投资信息等。大数据将为量化投资这一领域创造前所未有的可量化的新的维度,为量化投资提供了新的研究视野。如何把大数据这一金矿从数据转变为知识则充满挑战和困难,大数据将驱动量化投资的创新。 通过市场情绪分析、财经文本分析、新闻热点捕捉、主题挖掘等从这些大量的新闻中挖掘出有效信息。利用数据挖掘技术,即利用各种方法分析我们需要处理的数据,发现隐藏在海量数据背后的知识和规律。挖掘步骤简单的可以概括为a.前期数据的准备 b.从这些数据中寻找他们的规律 c.把寻找到的规律表示出来,这 3 个步骤。前期数据的准备是从这些相关的数据源中以一定的规则挑选我们所需的数据,然后整合成我们用于数据挖掘的数据集;寻找这些数据的规律是利用数据挖掘相关的方法将这些数据集所含的规律挖掘出来;把寻找到的规律表示出来是利用比如图表等可视化的技术尽可能以用户可以理解的方式展示出来挖掘出来的规律。 此文研究中,我们利用个股新闻情绪指数作为唯一因子来选股,即把N日正负面新闻权重和构成的当日新闻情绪指数相加,然后进行排序,选取排名前topN的股票作为多头或空头,选取排名倒数前topN的股票作为空头或者多头,最后计算多空收益差。 根据研究得出,新闻情绪因子选股在不同板块效果相关很大,甚至是决然相反的结论。 主板方面,尤其是沪深300成份股,情绪指数与股票未来上涨为正向指标, 且持续天数大概5个交易日。组合均剔除掉交易日一字板涨跌停和停牌的股票,新闻情绪指数排名靠前的股票表现明显优于排名靠后的股票,我们以5个交易日正负面新闻权重和构成的当日新闻情绪指数相加,然后进行排序,把选取排名前5的股票作为多头组合,选取排名倒数前5作为空头组合,多空组合的年化收益差高达50.44%,夏普比为1.55,最大回撤27.5%,5日胜率59.29%; 主板方面, 多头组合中新闻情绪指数动量效应明显。 每5个交易日调仓一次,换手率平均值为43%,而空头组合中,换手率平均值为80%。这说明,多头组合中,当新闻情绪因子排名前5时,下一次排名前5的概率也非常大,达到57%,即情绪因子动量十分明显;而在空头组合中,换手率达到80%,这说明当新闻情绪因子排名倒数前5时,下一次排名倒数前5时的概率则比较小,仅为20%。 中小板方面,情绪指数与股票未来上涨为反向指标,且持续天数大概22 个交易日 。以22个交易日为周期,选取22个交易日情绪指数和排名前50的股票作为空头,选取排名倒数前50的作为多头,并持有22个交易日。组合均剔除掉交易日一字板涨跌停和停牌的股票。该策略多头年化收益率为52.79%,年化多空收益差为37.33%,多空收益差最大回撤为11.17%,日胜率为57.52%,22日胜率高达80.65%。 创业板块方面,情绪指数与股票未来上涨或下跌效果相对不显著 。我们选取较优的参数,以22个交易日为周期,选取22个交易日情绪指数和排名前60的股票作为空头,选取排名倒数前60的作为多头,并持有22个交易日。组合均剔除掉交易日一字板涨跌停和停牌的股票。该策略多头组合净值为2.82,年化收益率为42.41%,多空收益差年化为23.64%,多空收益差最大回撤为12.79%,日胜率为56.54%,22日胜率高达67.74%。而同期创业板综指年化收益为22.2%,即新闻情绪因子在创业板中效果并不明显,多空收益差与同期创业板综指差别不大。 作者:中信建投证券丁鲁明团队
|