世博体育app下载这一要津具有即插即用的特点-世博官方体育app下载(官方)网站/网页版登录入口/手机版最新下载

发布日期：2025-04-04 05:10 点击次数：57

在 InternVL-2.5 上达成 10 倍费解量晋升世博体育app下载，模子性能险些无赔本。

最新 1-bit 多模态大模子 KV cache 量化有谋划CalibQuant来了。

通过谋划后缩放和校准要津，可显赫缩小显存与规划资本，无需编削原模子即可径直使用。

即插即用、无缝集成

多模态大讲话模子在各式应用中展现出了不凡的性能。关联词，它们在部署历程中的规划支拨仍然是一个要害瓶颈。

诚然 KV cache 通过用显存换规划在一定进程上提高了推理后果，但跟着 KV cache 的增大，显存占用赓续加多，费解量受到了极大适度。

为了措置这一挑战，作家建议了 CalibQuant，一种陋劣却高效的视觉 KV cache 量化战术，概况大幅缩小显存和规划支拨。具体来说，CalibQuant 引入了一种顶点的 1 比特量化有谋划，遴荐了针对视觉 KV cache 内在模式想象的后缩放和校准本领，在保证高效性的同期，不甩手模子性能。

作家通过应用 Triton 进行 runtime 优化，在 InternVL-2.5 模子上达成了 10 倍的费解量晋升。这一要津具有即插即用的特点，概况无缝集成到各式现存的多模态大讲话模子中。

动机

现时的多模态大讲话模子在现实应用中往往需要处理大尺寸、高分辨率的图像或视频数据，KV cache 机制诚然能晋升后果，但其显存占用与输入长度（如视觉帧数、图像尺寸等）成正比。

当输入数据的鸿沟增大（举例更多的视觉帧、更高的图像分辨率）时，KV 缓存的显存使用量赶紧加多，成为适度费解量的瓶颈。尽管现时有些针对 LLM KV cache 量化的要津不错将其压缩至 2 比特，但这些要津莫得针对多模态问题中很是的视觉冗余作念分析优化，导致其无法在极限情况 1 比特下被使用。

本文通过分析多模态大讲话模子中的视觉 KV cache 的冗余，想象了适当多模态模子很是的 KV cache 量化有谋划。

要津

本文在通说念维度量化的基础上建议了针对反量化规划法规的后缩放优化有谋划和针对密致力权重优化的校准战术。

1、通说念维度 KV cache 量化：

一种平日使用的要津是均匀整数目化。给定一个比特宽度 b>0 和一个输入值 x，它位于某个范围 [ α , β ] 内，则将其映射到一个冲破整数

，规划历程为：

这里的⌊⋅⌉默示取整运算符。最朴素的要津是使用全局统计量来规划这些极值，然则模子性能会受较大影响，作家取舍在通说念维度上细化统计范围。具体来说，令

默示一个 K cache，其中 n 和 d 分散默示 token 的数目和 head 的维度。界说两个向量

如下：

然后，通过上述历程对 K 中的每一排向量进行量化，其中乘法操作是逐元素进行的。作家相通将这种按通说念的量化要津应用于 V cache。

2、后缩放 KV cache 不寝兵术：

量化后的 K cache 不错用冲破化的整数值、一个缩放因子（scale factor）和一个偏置项（bias term）来默示。在解码阶段，这些值被用于对 K cache 进行反量化，并随后与 Q 相乘。关联词，通说念维度的量化需要为每个通说念分散指定不同的缩放因子和偏置向量，这将导致产生大宗不同的数值，加多了反量化历程中的规划支拨。此外，这种情势也使得 CUDA 内核中的规划后果缩小。作家不雅察到量化后的 K 仅具有有限数目的冲破取值（举例，关于 2 比特量化，其取值仅为 0、1、2、3），于是建议应用陋劣的规划法规重排来减少存储需求，并提高规划后果。具体历程如下：

设

是 K cache 矩阵

中的任性一排向量，

为其进行 b 比特整数目化后的收尾，并跟随有逐通说念的缩放因子 α , β。给定一个查询向量

，在生成 token 历程中密致力规划如下：

其中，标志⋅和⊙分散默示向量之间的内积和逐元素乘积。通说念维度上的反量化操作

被蔓延扩充，并高效地集成到后续的向量乘法运算中。因此，这种要津仅存储经过 b 比特整数目化后的数值，而且幸免了全精度反量化规划历程。这种要津确保了低比特反量化扩充的高效性。这种后缩放要津也不错当然地应用到 V cache 的反量化历程中。

3、量化后的校准：

1 比特量化的一个适度是经过反量化之后的数值往往会包含大宗的顶点值。这是因为 1 比特量化的码本老是包含了最小值和最大值，导致那些接近规模的输入值在反量化后径直映射到了顶点值。

因此，重建后的 KV cache 往往包含过多的大完全值，最终导考究致力分数产生彰着的失真。为了措置这个问题，作家建议了一种量化后校准要津，用于调度 softmax 之前密致力分数的峰值。具体来说，假定

中的所有这个词元素齐位于区间

内。给定

，界说一个线性变换 g 将区间

映射到

，其抒发式如下：

随后对密致力分数进行如下调度：

如下图所示，校准要津（Quant-C，红色）有用平缓了顶点值的影响，使调度后的密致分数漫衍相较于未经校准的量化要津（Quant，蓝色）更接近全精度（Exact）漫衍。

实验收尾

作家将建议的量化要津分散应用在 LLaVA 和 InternVL model 上，测试了其在 captioning，VQA，Video QA 三个不同的任务上的性能。以 captioning 任务为例，下图展示了本文所建议的要津在 cococaption benchmark 下和其他要津如 KIVI，VLCache 的对比。

在不同比特数（8，4，2，1）下，本文建议的要津在大部分测试主义上齐优于其他两种要津。举例关于 llava-1.5-7b，本文的要津在 8 比特下达到最高的 CIDEr 分数 1.105，与全精度抓平，并在 1 比特下晋升至 1.109，向上了 VLCache（1.053）。相通地，关于 InternVL-2.5-26B，本文的要津在 4 比特和 2 比特下分散获得了最高的 CIDEr 分数 1.32 和 1.313，均优于 VLCache 和 KIVI。

Runtime 分析

为了展示本文建议的量化要津对解码后果的影响，作家使用 InternVL-2.5 系列模子，将所建议的 1 比特量化要津与 16 比特基线进行了费解量评估（即每秒生成的 token 数）。作家接洽了两种视觉 token 长度的情况：n=3328 和 8192。作家将 GPU 最大内存从 5GB 变化到 30GB，并在每种内存适度下，寻找概况容纳的最大 batch size，测量解码阶段的费解量。

如下图展示，1 比特量化要津在所有这个词显存预算下永远优于基线要津。举例，当 n=3329 且使用 80 亿参数模子时，本文的要津在 5GB 显存下达成了 126.582tokens/s 的费解量（基线为 11.628tokens/s），在 30GB 下晋升至 459.016tokens/s（基线为 40.816tokens/s）。这意味着比较基线，本文要津的费解量晋升约为 9.88 × 到 11.24 ×，充分展示了该要津在受限显存条目下显赫晋升解码速度。

回来

本文探讨了多模态大讲话模子中视觉 KV cache 的压缩要津。陋劣地将量化应用到极低比特数往往会激发漫衍偏移，导致模子性能下落。为了措置这一问题，本文建议了一种新颖的校准战术，作用于 softmax 之前的密致力分数，有用缓解了量化带来的失真。此外，本文还引入了一种高效的通说念维度后缩放本领以提高规划和存储后果。

作家在 InternVL 和 LLaVA 模子系列上，针对 COCO Caption、MMBench-Video 和 DocVQA 等基准任务进行了实验，收尾考证了所建议要津的有用性。作家应用 Triton 达成了本文所建议的要津，runtime 分析标明本文建议的要津相较于全精度模子有约莫 10 倍的费解量晋升。

论文标题：CalibQuant:1-Bit KV Cache Quantization for Multimodal LLMs

论文地址：https://arxiv.org/abs/2502.14882

代码地址：https://github.com/insuhan/calibquant

一键三连「点赞」「转发」「堤防心」

接待在驳倒区留住你的思法！

— 完 —

学术投稿请于责任日发邮件到：

ai@qbitai.com

标题注明【投稿】，告诉咱们：

你是谁，从哪来，投稿内容‍

附上论文 / 名堂主页赓续，以及关连情势哦

咱们会（尽量）实时回答你

� � 点亮星标 � �

科技前沿阐扬逐日见世博体育app下载