mlx.core.quantized_matmul

mlx.core.quantized_matmul#

quantized_matmul(x: array, w: array, /, scales: array, biases: array, transpose: bool = True, group_size: int = 64, bits: int = 4, *, stream: None | Stream | Device = None) array#

使用量化矩阵 w 执行矩阵乘法。量化对每 group_size 个元素使用一个浮点比例和偏差。w 中的每个元素占用 bits 位,并打包到一个无符号 32 位整数中。

参数:
  • x (array) – 输入数组

  • w (array) – 打包在无符号整数中的量化矩阵

  • scales (array) – 用于 w 中每 group_size 个元素的比例

  • biases (array) – 用于 w 中每 group_size 个元素的偏差

  • transpose (bool, 可选) – 定义是否与 w 的转置进行乘法运算,即是否执行 x @ w.Tx @ w。默认值: True

  • group_size (int, 可选) – w 中共享比例和偏差的组大小。默认值: 64

  • bits (int, 可选) – w 中每个元素占用的位数。默认值: 4

返回值:

xw 相乘的结果。

返回类型:

array