Google's TurboQuant увеличивает память LLM в 6 раз, не повреждая ничего

robot
Генерация тезисов в процессе

Заголовок

TurboQuant от Google сжимает память LLM в 6 раз без потери точности, что может изменить экономику аппаратного обеспечения ИИ.

Резюме

Исследования Google выпустили TurboQuant, метод сжатия, который уменьшает кеш ключ-значение (KV) в крупных языковых моделях примерно в 6 раз. Это достигается за счет агрессивной векторной квантизации до примерно 3 бит на значение, при этом скорость работы во время оценки внимания на H100 GPU увеличивается до 8 раз. Особенность: он сохраняет точность на длинных контекстных бенчмарках, таких как Needle-in-a-Haystack, до 104k токенов. Подход сочетает две техники: PolarQuant обрабатывает начальное сжатие с использованием случайной ротации и полярных координат, в то время как Quantized Johnson-Lindenstrauss исправляет остаточные ошибки без введения смещения. Повторное обучение не требуется. Это важно, потому что кеш KV стал основным узким местом с увеличением контекстных окон. Эта техника может снизить операционные расходы более чем наполовину и сделать длинный контекстный вывод практическим на уже существующем аппаратном обеспечении.

Анализ

TurboQuant применяет другой подход к векторной квантизации, полностью отказываясь от традиционных нормализующих констант на блоке. Вместо этого он полагается на геометрические преобразования и фиксированные круговые сетки, чтобы упростить квантизацию для высокоразмерных векторов в внимании трансформеров. Это соответствует более широкому стремлению к эффективной обработке длинных контекстов. В тестах на Llama-3.1-8B TurboQuant сохранял идеальную точность на задачах извлечения, что обнадеживает для агентных ИИ-систем, которым нужна большая, доступная для поиска память без пропорциональных затрат на аппаратное обеспечение.

На конкурентном фронте выпуск этого инструмента без необходимости в обучении укрепляет позиции Google в открытых исследованиях ИИ. Любой может его использовать, что контрастирует с проприетарными оптимизациями от лабораторий, таких как OpenAI. Это также может ускорить продвижение подходов, зависящих от сжатия, таких как извлечение-усиленное поколение.

Некоторые оговорки, которые стоит отметить: бенчмарки выглядят сильными на открытых моделях, но производственные среды и крайние случаи с необычными распределениями данных могут выявить ограничения. Теоретический анализ предполагает, что подход приближен к информационно-теоретическим границам, но близость не равна достижению.

Для предприятий это может существенно снизить затраты на вывод. Ситуация на рынке аппаратного обеспечения более сложная. Поставщики памяти могут почувствовать краткосрочное давление, но более дешёвый вывод обычно означает больше выводов, что может компенсировать снижение спроса на память за запрос.

Оценка влияния

  • Значимость: Высокая
  • Категории: Техническое понимание, Исследования ИИ, Рыночное влияние
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$0.1Держатели:2
    0.00%
  • РК:$0.1Держатели:1
    0.00%
  • РК:$2.25KДержатели:1
    0.00%
  • РК:$2.26KДержатели:1
    0.00%
  • РК:$2.26KДержатели:1
    0.00%
  • Закрепить