别听证券分析师的!让科学家说量化投资靠不靠谱

AlphaGo以绝对优势战胜围棋世界冠军, AlphaFold破解蛋白质结构预测的50年难题,AI(Artificial Intelligence 人工智能)在图像识别,自动驾驶领域取得了巨大的成就,但是在金融市场的表现却乏善可陈,量化基金很多跑不过大盘,所以量化投资到底靠不靠谱?本文将从人工智能研究者的角度回答这个问题。

AlphaFold能够精确预测蛋白质结构:标准结构(绿色) vs 预测结构(蓝色) 图片来源:DeepMind Technologies

首先第一个问题,AI在金融市场的预测准确率为什么低?

与图像识别,蛋白质预测问题相比,金融市场中数据的信噪比非常低。图像识别过程中,图片中的大部分像素都会对模型有贡献,但是在海量的金融数据中能够真正影响资产价格变动的信息非常少,大部分都是噪声。

第二也是更为重要的原因是金融数据是非平稳的,比如我们有1亿张动物图片,希望基于此建立一个动物识别的AI模型,如果选择1千万张照片用于模型训练(训练就是在计算机读取图片后,告诉它图片中是什么,进行大量相同工作后,再给出新的图片,计算机能自己说出图片中的动物),训练后我们从另外9千万张图片随便抽取一些,计算机依然可以准确的识别。

但是在金融市场中,一个常见的问题就是,分析师用过去5年的数据建立股价预测模型,在第6年进行预测时准确率非常低,我们无法让AI通过历史数据建立模型去预测未来

所以我们对股价预测就无能为力了?答案当然是否定的,否则不会有那么多金融研究机构致力于量化投资的实践和研究。接下来我们要说的第二个问题就是:量化投资研究的到底是什么,靠不靠谱?

早在人工智能出现之前,经济学家就建立了大量模型和方法预测股票价格,作为现代金融学基石的有效市场假说(Efficient market hypothesis EMH)讲的是证券价格迅速充分的反应了与该证券价值相关的所有信息,价格是证券内在价值的真正体现,投资者无法通过某些既定分析模式持续获得超额利润,通俗的讲,如果是市场是有效的,人们是无法通过获取的信息进行判断,找到那些低估或者高估的股票进行买入或卖空操作的。更通俗地说,如果你买入一个股票,是因为根据获取的信息,你认为该股票将来是要上涨的(当前的价格是被低估的),如果市场是有效的,在你发现这个投资机会之前,已经被其他投资者迅速发现,当你准备买入的时候,他已经涨到合理的价格了。

如果市场无效,当新的信息出现后股价会偏离合理价格,产生做多或做空机会

这是理论界的观点,实务界是绝对不认可的,他们认为市场是无效的,否则他们标榜的高超投资技巧,持续获取超额收益的能力是没有理论根基的。也因此提出“市场异象” (Market Anomaly)这个概念,异象也就是人们常说的因子,是指这个现象不能被EMH解释,或者说EMH无效。早在上世纪70年代寻找异象因子的研究就已经风靡学术圈,因为找到他就等于找到投资的金钥匙。量化投资的核心工作也是如此,其工作思路非常简单:

  1. 找到异象因子;
  2. 股票按照这些因子大小进行排序,靠前的(低价)买入,靠后的(高价)卖出;
  3. 当这些股票回到合理价格后,卖出高涨的股票,买入下跌的股票,平仓后赚取超额收益。

量化投资者认为市场是有效的,但是效率没有那么高,他们能够根据“异象因子”在市场发挥作用前找到这些股票。那么我们的问题归结到,这些异象因子到底靠不靠谱?如果上个世纪问这个问题,答案是非常悲观的,大部分曾经被认定的异象因子,经过更丰富的数据验证后,都反而很好的诠释了EMH。

事情的转机出现在最近十几年,研究者认为过去对异象因子的研究基于特设稀疏性假设(Ad hoc Sparsity):简单说就是股票价格可能是成千上万个因素共同作用的结果,但每一个的作用都不是那么明显;而过去的研究都是假定某几个因子有作用,其他的贡献都是零,比如历史上著名的CAPM资本资产定价模型, Fama-French多因子模型等。但最新的研究结果显示这种假设并不合理,通俗讲就是应该把所有异象因子都放入预测模型中

数据平稳性问题怎么办?假设我们找到一组因子在某个时间段对股票的预测性很强,如何保证其他时间也准确,这里会遇到机器学习领域经常提及的过拟合问题(Over-fitting),为了追求预测准确性,模型在建立过程中过度拟合现有样本,在样本外进行预测的时候导致模型失效。数据科学家提出正则化(Regularization)方法,简答说就是训练样本的时候让模型“不那么死命的贴近样本特征”,靠的太近未必看的清,过度拟合的都是无效的噪声。

假如X代表上升O代表下跌股票,横纵坐标为两个不同预测指标,他们构建的简单二次曲线是恰当的拟合

好了两个问题都解决了,是不是万事俱备了?如果是那样,我们看到的这些大型量化基金应该都是赚钱的,但事实上不是,这也是我今天要讲的第三个问题,当前量化投资,使用机器学习方法预测资产价格存在什么问题,未来的发展方向在哪?

  1. 量化投资中的非线性作用应该比较有限。特征因子之间的交叉是预测价格的主要非线性形式,比如我们有100个预测因子,他们两两交叉可以构成100*99/2个因子,如果三个一起交叉则可以额外再构建100*99*98/6个因子,其他类型的非线性没有那么重要,简单说就是不需要引入过于复杂人工智能模型,研究表明不同算法在预测资产价格的准确率上没有显著差别。
  2. 纯数据驱动的预测几乎不会有效。计算机可以自主学习图片分类,套用到资产价格预测是不可行的,适当地加入经济学推理才能获得更好的样本外预测,机器学习金融数据的时候,需要对它进行一些限制(基于经济学原理的正则化)。
  3. 理解数据的结构性变化。数据不平稳的原因在于我们没有发现他们深层次的结构变化,掌握这种变化,在模型进行预测的时候设定特殊的环境,可以大大提升模型预测的准确率。

最后说些好理解的吧:有效地量化投资模型需要大量变量,如果分析师只是使用某几个技术指标进行分析,这个量化模型只能在他设定的历史环境中赚钱。未来是人工智能和经济学理论相互推动的过程,我们一方面需要经济学理论对量化模型进行限定,另一方面人工智能的方法也会催生相关的新的经济学理论产生。此外我们需要理解金融数据和模型的关系,好比作为主教练,面对球队A的时候把C罗排在边路,面对球队B把他放到前锋位置可能获得更好的整体效果。最后基于因子的量化投资不能抵御系统性风险,市场不好它也会赔钱,今年国内量化投资基金的年净值增长率大都在-20%左右。

展开阅读全文

页面更新:2024-05-22

标签:准确率   人工智能   因子   样本   科学家   模型   股票   证券   数据   价格   市场   图片

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top