101 Formulaic Alphas (arXiv 2015/2016)
一句话总结:WorldQuant 首次公开披露 101 条真实量化交易 alpha 的显式数学公式(多数以「价量」量 close/open/high/low/volume/vwap/returns 为主,少数引入市值、GICS/BICS 等行业分类做 industry-neutralize),平均持仓期 0.6–6.4 天,pairwise 相关 15.9%,80/101 论文发表时仍在生产使用。
问题
现代量化交易的两条主线在 2015 年呈现矛盾:一方面因子越来越「淡」(faint、ephemeral),必须规模化挖掘以组合成「mega-alpha」;另一方面这个领域极其封闭,实操 alpha 公式从不外传。外部研究者既不知道实际 alpha 长什么样,也无法判断它们是主要靠 mean-reversion、momentum 还是别的什么,更无法在自己的数据上复现实证。本文要做的就是解密。
核心方法
不是提出新方法,而是公开 101 条产品环境里真在跑的 alpha 公式。
所有 alpha 都写成统一 DSL,算子包括:
rank:横截面 rank 标准化(核心操作,几乎每条都用)Ts_ArgMax / ts_rank / ts_min / ts_max / stddev / decay_linear:时序算子correlation / covariance:短窗口 pairwise 统计delta(x, d)/delay(x, d):一阶差分与滞后IndNeutralize(x, G):按行业分组做中性化- 条件三元
(a ? b : c)
示例几条:
- Alpha#1:
(rank(Ts_ArgMax(SignedPower(((returns < 0) ? stddev(returns, 20) : close), 2.), 5)) - 0.5)— 波动率-价格耦合的 mean-reversion - Alpha#2:
(-1 * correlation(rank(delta(log(volume), 2)), rank(((close - open) / open)), 6))— 量价背离 - Alpha#101:delay-1 日内动量,收盘突破开盘且高突破低时次日做多
按 delay 分:
- delay-0 alpha:数据和交易发生在同一天(如接近收盘 rebalance)
- delay-1/2 alpha:使用的数据比交易日早 1/2 天,是大部分公式的类型
关键结果
- 101 条公式完整公开,附 algebraic 算子定义(附录 A)
- 实证特征(2010-01-04 ~ 2013-12-31,, 日):
- 平均 Sharpe 分布 + 日换手分布 + cents-per-share 分布(Table 1)
- 平均 pairwise correlation = 15.9%(median 14.3%)——分散度良好
- ,——收益与波动率强相关,与换手率无显著相关
ln(T_i) × ln(T_j)对 pairwise correlation 的解释力极弱:换手率不是 alpha correlation 的好 factor
- 81 alphas 发表时仍在生产——不是 toy benchmark
相关
- 该论文成为后续自动化因子挖掘工作的「benchmark anchor」:AutoAlpha、AlphaEvolve、AlphaForge、R&D-Agent(Q)、Qlib 的 Alpha 158/Alpha 360 都以它为对照
- 概念:formulaic alpha = 用封闭表达式(几个时序/截面算子的组合)表示 alpha,对应符号回归/遗传编程这条路线的可解释性 baseline
- 作者后续书 151 Trading Strategies (2018) 继续同一精神,但覆盖面从「101 股票 alpha 公式」扩展到「150+ 跨 asset class 策略家族」