Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Launchpad
Будьте готовы к следующему крупному токен-проекту
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Google's TurboQuant увеличивает память LLM в 6 раз, не повреждая ничего
Заголовок
TurboQuant от Google сжимает память LLM в 6 раз без потери точности, что может изменить экономику аппаратного обеспечения ИИ.
Резюме
Исследования Google выпустили TurboQuant, метод сжатия, который уменьшает кеш ключ-значение (KV) в крупных языковых моделях примерно в 6 раз. Это достигается за счет агрессивной векторной квантизации до примерно 3 бит на значение, при этом скорость работы во время оценки внимания на H100 GPU увеличивается до 8 раз. Особенность: он сохраняет точность на длинных контекстных бенчмарках, таких как Needle-in-a-Haystack, до 104k токенов. Подход сочетает две техники: PolarQuant обрабатывает начальное сжатие с использованием случайной ротации и полярных координат, в то время как Quantized Johnson-Lindenstrauss исправляет остаточные ошибки без введения смещения. Повторное обучение не требуется. Это важно, потому что кеш KV стал основным узким местом с увеличением контекстных окон. Эта техника может снизить операционные расходы более чем наполовину и сделать длинный контекстный вывод практическим на уже существующем аппаратном обеспечении.
Анализ
TurboQuant применяет другой подход к векторной квантизации, полностью отказываясь от традиционных нормализующих констант на блоке. Вместо этого он полагается на геометрические преобразования и фиксированные круговые сетки, чтобы упростить квантизацию для высокоразмерных векторов в внимании трансформеров. Это соответствует более широкому стремлению к эффективной обработке длинных контекстов. В тестах на Llama-3.1-8B TurboQuant сохранял идеальную точность на задачах извлечения, что обнадеживает для агентных ИИ-систем, которым нужна большая, доступная для поиска память без пропорциональных затрат на аппаратное обеспечение.
На конкурентном фронте выпуск этого инструмента без необходимости в обучении укрепляет позиции Google в открытых исследованиях ИИ. Любой может его использовать, что контрастирует с проприетарными оптимизациями от лабораторий, таких как OpenAI. Это также может ускорить продвижение подходов, зависящих от сжатия, таких как извлечение-усиленное поколение.
Некоторые оговорки, которые стоит отметить: бенчмарки выглядят сильными на открытых моделях, но производственные среды и крайние случаи с необычными распределениями данных могут выявить ограничения. Теоретический анализ предполагает, что подход приближен к информационно-теоретическим границам, но близость не равна достижению.
Для предприятий это может существенно снизить затраты на вывод. Ситуация на рынке аппаратного обеспечения более сложная. Поставщики памяти могут почувствовать краткосрочное давление, но более дешёвый вывод обычно означает больше выводов, что может компенсировать снижение спроса на память за запрос.
Оценка влияния