mlx.core.quantized_matmul#

quantized_matmul(x: array, w: array, /, scales: array, biases: array, transpose: bool = True, group_size: int = 64, bits: int = 4, *, stream: None | Stream | Device = None) → array#

使用量化矩阵 w 执行矩阵乘法。量化对每 group_size 个元素使用一个浮点比例和偏差。w 中的每个元素占用 bits 位，并打包到一个无符号 32 位整数中。

参数：

x (array) – 输入数组
w (array) – 打包在无符号整数中的量化矩阵
scales (array) – 用于 w 中每 group_size 个元素的比例
biases (array) – 用于 w 中每 group_size 个元素的偏差
transpose (bool, 可选) – 定义是否与 w 的转置进行乘法运算，即是否执行 x @ w.T 或 x @ w。默认值： True。
group_size (int, 可选) – w 中共享比例和偏差的组大小。默认值： 64。
bits (int, 可选) – w 中每个元素占用的位数。默认值： 4。

返回值：

x 与 w 相乘的结果。

返回类型：

array

mlx.core.quantized_matmul