Google publie l'algorithme TurboQuant : quantification 3 bit des caches KV sans perte de précision, vitesse d'inférence améliorée jusqu'à 8 fois

Gate News, le 25 mars, l’Institut de recherche de Google a publié l’algorithme de compression quantifiée TurboQuant, qui peut compresser le cache KV des grands modèles linguistiques à 3 bits, réduisant l’utilisation de mémoire d’au moins 6 fois, sans nécessiter d’entraînement ou de fine-tuning, tout en préservant la précision du modèle. En mode 4 bits, la vitesse de calcul de l’attention sur le GPU H100 de NVIDIA est jusqu’à 8 fois plus rapide que la ligne de base non quantifiée à 32 bits. L’équipe de recherche a validé TurboQuant sur des benchmarks de contexte long tels que LongBench, Needle In A Haystack, ZeroSCROLLS, en utilisant les modèles Gemma et Mistral, et TurboQuant a obtenu des performances optimales dans tous les tests. Cet algorithme se compose de deux sous-algorithmes : PolarQuant, qui élimine la surcharge mémoire des méthodes de quantification traditionnelles via une transformation en coordonnées polaires, et QJL, qui corrige l’erreur résiduelle avec seulement 1 bit. La recherche a été menée sous la direction d’Amir Zandieh de l’Institut de recherche de Google et du vice-président et Google Fellow Vahab Mirrokni, en collaboration avec KAIST en Corée du Sud et l’Université de New York, et sera présentée à l’ICLR 2026. Google indique que l’une des principales applications de cette technologie est de résoudre le goulot d’étranglement du cache KV dans des modèles tels que Gemini.

Voir l'original
Avertissement : Les informations contenues dans cette page peuvent provenir de tiers et ne représentent pas les points de vue ou les opinions de Gate. Le contenu de cette page est fourni à titre de référence uniquement et ne constitue pas un conseil financier, d'investissement ou juridique. Gate ne garantit pas l'exactitude ou l'exhaustivité des informations et n'est pas responsable des pertes résultant de l'utilisation de ces informations. Les investissements en actifs virtuels comportent des risques élevés et sont soumis à une forte volatilité des prix. Vous pouvez perdre la totalité du capital investi. Veuillez comprendre pleinement les risques pertinents et prendre des décisions prudentes en fonction de votre propre situation financière et de votre tolérance au risque. Pour plus de détails, veuillez consulter l'avertissement.
Commentaire
0/400
Aucun commentaire