mlx.optimizers.Adamax

目录

mlx.optimizers.Adamax#

class Adamax(learning_rate: float | Callable[[array], array], betas: List[float] = [0.9, 0.999], eps: float = 1e-08)#

Adamax 优化器,一种基于无穷范数的 Adam 变体 [1]。

我们的 Adam 实现遵循原始论文,省略了对一阶和二阶矩估计的偏差校正。详细来说:

[1]: Kingma, D.P. and Ba, J., 2015. Adam: A method for stochastic optimization. ICLR 2015.

mt+1=β1mt+(1β1)gtvt+1=max(β2vt,|gt|)wt+1=wtλmt+1vt+1+ϵ
参数:
  • learning_rate (floatcallable) – 学习率 λ

  • betas (Tuple[float, float], optional) – 用于计算梯度及其平方的滑动平均的系数 (β1,β2)。默认值: (0.9, 0.999)

  • eps (float, optional) – 添加到分母中以提高数值稳定性的项 ϵ。默认值: 1e-8

方法

__init__(learning_rate[, betas, eps])

apply_single(gradient, parameter, state)

执行 Adamax 参数更新并将 vm 存储在优化器状态中。

init_single(parameter, state)

初始化优化器状态