mlx.optimizers.SGD#
- class SGD(learning_rate: float | Callable[[array], array], momentum: float = 0.0, weight_decay: float = 0.0, dampening: float = 0.0, nesterov: bool = False)#
随机梯度下降优化器。
使用梯度 \(g\) 更新参数 \(w\) 如下所示
\[\begin{split}v_{t+1} &= \mu v_t + (1 - \tau) g_t \\ w_{t+1} &= w_t - \lambda v_{t+1}\end{split}\]- 参数:
方法
__init__
(learning_rate[, momentum, ...])apply_single
(gradient, parameter, state)执行 SGD 参数更新并将 \(v\) 存储在优化器状态中。
init_single
(parameter, state)初始化优化器状态