从零开始学习神经SDE

从零开始学 Neural SDE

1/5

第 1 节

让网络学习 SDE

您迄今为止见过的每个模型——Black-Scholes、Heston、SABR——都始于人为选定的方程。您先选择 SDE，再拟合几个参数。神经 SDE 反其道而行之：让神经网络从数据中学习方程本身。

经典的工作流程是：人工写下 dS = f(S,t)·dW with a specific f (like σ·S, orσ·Sᵝ，或涉及随机波动率的某些形式）。然后您将 3-5 个参数校准到市场数据。

神经 SDE 的工作流程是：漂移项 μ(S,t) 与扩散项 σ(S,t) 由神经网络输出。该网络拥有数千个参数（权重和偏置）。您通过最小化模型价格与观测期权价格之间的误差来训练它。

神经 SDE

dX = μₕ(X, t)·dt + σₕ(X, t)·dW

μₕ and σₕ 是参数为 θ 的神经网络。它们以当前状态 X 和时间 t 为输入，输出瞬时漂移项和扩散项。

思维模型

经典建模就像选定一份食谱、再调节烤箱温度。神经 SDE 建模则像教一位厨师通过品尝数千道菜（观测价格）并不断调整，直到做出的菜与市场端上来的一致，从而自己发明食谱。

为什么要费这个功夫？因为有时没有任何标准模型族能足够好地拟合数据。市场动态可能具有区制切换、非对称聚集、路径依赖等特征——任何五参数模型都无法捕捉。神经 SDE 原则上可以逼近任意连续的漂移和扩散函数。问题在于您是否有足够的数据和纪律来可靠地训练它。

第 2 节

网络架构

该网络是标准的前馈架构。输入是当前市场状态，输出是 SDE 的系数。网络本身就是模型。

输入： 现货价格 S、时间 t，以及可选的市场特征，如当前隐含波动率、偏斜斜率或期限结构形态。输入越丰富，网络在决定此处的 σ 应取何值时可用的上下文就越多。

隐藏层： 通常为 2-4 层，每层 32-128 个神经元，采用 ReLU 或 softplus 激活函数。并无特别之处。神奇之处不在架构，而在于网络学会表示的内容。

输出： 漂移项 μ(S,t) 与扩散项 σ(S,t)。扩散项输出会经过 softplus 或指数函数，以确保其保持为正。这两个在当前状态下求得的数值，定义了 SDE 在此刻的行为。

神经 SDE 架构

市场状态（S、t、特征）从左侧输入。带非线性激活的隐藏层对其进行变换。输出层生成瞬时漂移 μ 和扩散 σ，即定义所学 SDE 的两个函数。悬停可高亮显示各层。

训练： 使用 Euler-Maruyama 离散化从神经 SDE 生成路径，沿这些路径通过蒙特卡洛方法为期权定价，将模型价格与观测到的市场价格比较，并把定价误差经由路径模拟反向传播到网络权重。这是应用于随机过程的可微分编程。

关键的技术洞见：整条管线——从网络权重到 SDE 系数、到模拟路径、再到期权价格——都是可微分的。您可以计算定价损失对网络每一个权重的梯度。这正是训练可行的原因。

第 3 节

深度对冲

一旦学到了价格动态的 SDE，自然的下一步就是也学习对冲策略。深度对冲使用第二个网络在每个时间步输出对冲比率，并与定价模型联合训练。

经典对冲从模型中解析地计算Delta：在 BS 下为 ∂C/∂S，在更复杂的模型下则采用数值近似。这忽略了交易成本、市场冲击、离散再平衡和流动性约束。

深度对冲的思路是：训练一个网络在每个时间步输出对冲比率 δ(S, t, 投资组合)。训练目标不是最小化相对于理论Delta的跟踪误差，而是最小化包含交易成本的实际对冲 P&L 方差（或 CVaR，或任何风险度量）。

深度对冲目标

minₕ Risk[ PnL(V₀, δₕ, costs) ]

网络 δₕ 在每个再平衡步骤输出对冲比率。目标函数包含实际交易成本，而不仅仅是理论跟踪误差。

其结果是：一种能够意识到经典Delta所忽略的现实摩擦的对冲策略。在回测中，深度对冲策略往往比基于模型的Delta表现出更低的实际对冲成本，尤其在以下情形：

1. 高交易成本环境。 网络学会在成本高时降低对冲频率，实际上选择了更宽的不交易区间。

2. 流动性差的标的资产。 当直接对冲成本高昂时，网络学会使用相关性高、流动性好的工具作为替代对冲。

3. 路径依赖型奇异期权。 在不存在简单Delta公式的情况下，网络仍能从模拟路径中学到有效的对冲。

联合学习的洞见

最强大的版本同时训练定价 SDE 和对冲网络。SDE 学习与观测价格一致的动态，对冲网络学习在该动态下进行对冲。两个网络相互正则化：SDE 无法学到不现实的动态，因为那会使对冲网络表现变差，反之亦然。

第 4 节

网络发现了什么

当您检查学到的 σ(S,t) 函数时，它往往看起来像带有随机特征的局部波动率。网络独立发现了人类花费数十年设计出的结构。

在股票或加密期权数据上训练神经 SDE，然后把学到的扩散函数 σ(S,t) 绘制成热力图。典型的发现有：

杠杆效应。 网络学到 σ(S,t) 在 S 较低时更高、在 S 较高时更低。这正是 Heston 通过负 ρ 捕捉、CEV 通过 β < 1 捕捉的机制。网络对这些模型一无所知，它是从数据中发现这一模式的。

波动率的均值回归。 学到的 σ 往往在近期大幅波动之后升高，并向基准水平回归。网络独立发现了 Heston 硬编码的类 CIR 均值回归。

波动率聚集。 网络学到高波动率状态会持续——σ(S,t) 在飙升后会在一段时间内维持高位。这正是从业者熟知、而简单随机波动率模型难以刻画的类 GARCH 聚集现象。

网络发现了什么

Vol rises as price falls -- the network learned the classic equity/crypto pattern

请在上面三种模式之间切换。每一种都代表在不同数据环境下训练的神经 SDE 可能发现的结果。重点不在于网络比 Heston 或 SABR 更聪明，而在于它在无人指点的情况下得到了相似的结构。这有力地证明这些结构是数据的真实特征，而非模型族的产物。

另一面是：如果数据嘈杂或训练缺乏纪律，网络也可能发现虚假模式。在稀疏数据上训练的大型网络会“完美地”过拟合——它会记住噪声并把噪声当作结构。

第 5 节

实践考量

神经 SDE 功能强大但要求苛刻。研究论文与生产系统之间的差距很大。在投入之前先了解代价。

训练收敛

轮次： 0损失： 2.049阶段：快速下降

点击上方的“训练”，观察损失的收敛过程。注意三个阶段：初期快速下降（网络学习整体结构）、较慢的精调（微调两翼与尾部），以及平台期（收益递减，存在潜在过拟合风险）。

训练数据要求。 您需要足够多的期权价格数据来约束一个高维函数。对单一标的资产而言，这意味着数月乃至数年、覆盖多个到期日的每日微笑曲线快照。稀疏数据（行权价少、到期日少）会导致约束不足、容易过拟合的网络。

过拟合风险。 拥有 10,000 个参数的神经网络可以完美记住 10,000 个数据点，但这并不意味着它学到了动态。正则化（dropout、权重衰减、提前停止）必不可少。在留出数据上进行验证没有商量余地。

可解释性。 五参数的 Heston 模型能讲出一个故事：kappa 说明这个，rho 说明那个。神经 SDE 则是拥有 10,000 个参数的黑箱。您可以检查学到的函数（如上方热力图），但无法指着某个数字说“这就是均值回归速度”。对于需要向风险管理者解释模型的交易台而言，这是一个严重的缺陷。

计算成本。 训练需要对 SDE 进行数千次前向模拟（蒙特卡洛路径），每次都要在每个时间步对网络反向传播。这比校准 Heston 或 SABR 昂贵几个数量级。推理（用训练好的模型为单个期权定价）很快，但重新校准很慢。

当前应用情况。 神经 SDE 和深度对冲目前用于研究领域以及具备相应基础设施的量化对冲基金，在普通期权交易台上尚未成为标准。典型的生产配置是：日常定价使用经典模型（Heston、SABR、SLV），而在经典模型持续失效的特定高价值问题上使用神经方法。

何时选用神经 SDE

在以下情况下使用神经 SDE：(1) 您拥有丰富的数据，而经典模型族总是遗漏相同的模式；(2) 您在为不存在简洁解析解的奇异工具定价；(3) 您需要一个能考虑现实摩擦的对冲策略。当五参数模型已足够好时，请不要使用它——那只是在增加复杂性而不增加价值。

下一步阅读：

Heston 模型 —— 经典的随机波动率基准

随机局部波动率 —— 兼顾动态的生产级校准

Rough Bergomi —— 分数阶随机波动率，神经方法之前的前沿