Стаття, яка збила акції зберігання вниз

DeepFlowTech · 2026-03-26T01:25:52+00:00

Автор: Deep Tide TechFlow25 березня технологічні акції на американському ринку загалом зросли, індекс Nasdaq 100 виявився в плюсі, але один клас акцій рухався проти течії кровоточачи:SanDisk впав на 3,50%, Micron впав на 3,4%, Seagate впав на 2,59%, Western Digital впав на 1,63%. Весь сектор сховищ виглядав так, ніби на вечірці раптом вимкнули світло.Винуватець — це стаття, точніше кажучи, офіційне просування Google Research статті.Що саме робила ця статтяЩоб зрозуміти це, потрібно спочатку розібратися з концепцією, яка рідко звертає на себе увагу зовні в AI інфраструктурі: KV Cache.Коли ви спілкуєтеся з великою мовною моделлю, модель не починає розуміти вашу проблему з нуля кожного разу. Вона зберігає весь контекст розмови у вигляді так званої «пари ключ-значення» (Key-Value P

DeepFlowTech

2026-03-26 01:25:52

Автор: DeepChao TechFlow

25 березня американські технологічні акції здобули загальний приріст, індекс Nasdaq 100 піднявся в плюсі, але один тип акцій продовжує кровоточити всупереч ринку:

SanDisk знизився на 3,50%, Micron — на 3,4%, Seagate — на 2,59%, Western Digital — на 1,63%. Весь сектор зберігання раптово опинився, ніби його вдарили електричним струмом на вечірці.

Винуватець — стаття, або точніше, офіційна промоція статті від Google Research.

Що саме зробила ця стаття

Щоб зрозуміти цю подію, потрібно спершу з’ясувати один маловідомий, але важливий концепт у інфраструктурі штучного інтелекту: KV Cache.

Коли ви спілкуєтеся з великою мовною моделлю, вона не починає з нуля кожного разу, щоб зрозуміти ваше питання. Вона зберігає весь контекст діалогу у пам’яті у форматі, що називається “ключ-значення” (Key-Value Pair), і це — KV Cache, короткострокова робоча пам’ять моделі.

Проблема у тому, що розмір KV Cache зростає пропорційно довжині контекстного вікна. Коли це вікно досягає мільйонів токенів, обсяг пам’яті GPU, необхідний для KV Cache, може перевищити ваги самої моделі. Для інференційного кластеру, що обслуговує багато користувачів одночасно, це реальна інфраструктурна проблема, яка щодня коштує мільйони доларів.

Перший варіант статті з’явився ще в квітні 2025 року на arXiv і буде офіційно опублікований на ICLR 2026. Google Research назвала його TurboQuant — беззбитний алгоритм кількісного зжаття KV Cache до 3 бітів, що зменшує обсяг пам’яті щонайменше у 6 разів, без додаткового тренування або тонкої настройки, готовий до використання одразу.

Конкретний технічний шлях складається з двох кроків:

Перший — PolarQuant. Він не використовує стандартну декартову систему координат для представлення векторів, а перетворює їх у полярні координати — з “радіусом” і набором “кутів”, що суттєво спрощує геометрію високовимірного простору і дозволяє зменшити похибки при подальшому кількісному зжатті.

Другий — QJL (Quantized Johnson-Lindenstrauss). Після основного стиснення PolarQuant TurboQuant застосовує трансформацію QJL, яка використовує всього 1 біт для корекції залишкових помилок, забезпечуючи точність оцінки внутрішніх добутків — що критично для правильної роботи механізму уваги у трансформерах.

Результат: у тестах LongBench, що охоплюють питання-відповіді, генерацію коду та підсумки, TurboQuant не тільки конкурує з найкращими існуючими методами, але й перевершує їх; у задачах пошуку “голки в стозі” досягає ідеальної точності відновлення; на GPU NVIDIA H100 швидкість обчислень уваги з 4-бітною версією TurboQuant зростає в 8 разів.

Класичний підхід до кількісного зжаття має один недолік: кожен блок даних потрібно додатково зберігати “константу кількісного перетворення”, щоб розпакувати його. Ці метадані зазвичай займають додаткові 1-2 біти на число, що здається незначним, але при мільйонах токенів ця “шумова” частка швидко накопичується. TurboQuant усуває цю проблему завдяки геометричним перетворенням PolarQuant і корекції QJL, що використовує всього 1 біт, повністю позбавляючись додаткових накладних витрат.

Чому ринок злякався?

Прямий висновок дуже очевидний: модель, яка потребує 8 GPU H100 для обробки контексту в мільйон токенів, теоретично може працювати всього на 2 GPU. Це означає, що провайдери інференційних сервісів зможуть одночасно обробляти понад 6-кратний обсяг довгих запитів на тій же апаратурі.

Це — удар по головній історії сектору зберігання.

За останні два роки Seagate, Western Digital і Micron були піднесені на п’єдестал AI-капіталом, бо логіка одна: великі моделі все більше “запам’ятовують”, довгий контекстний вікно вимагає безмежної пам’яті, і потреба у зберіганні постійно зростає. Seagate у 2025 році подорожчала більш ніж на 210%, а її виробничі потужності на 2026 рік вже були розпродані.

З’явлення TurboQuant безпосередньо кидає виклик цій логіці.

Аналітик з технологій у Wells Fargo, Ендрю Роча, прямо каже: “З розширенням контекстного вікна зростає і обсяг даних у KV Cache, а разом з ним — і потреба у пам’яті. TurboQuant прямо атакує цю криву витрат… Якщо його широко впровадять, це змінить уявлення про необхідний обсяг пам’яті.”

Але Роча додає важливий передумову: IF.

Що справді варте обговорення

Чи не перебільшені реакції ринку? Ймовірно, так.

По-перше, питання про “восьмикратне прискорення”. Багато аналітиків зазначають, що це порівняння зроблено між новою технологією і старою 32-бітною системою без кількісного зжаття, а не з сучасними оптимізованими системами. Реальний приріст є, але не настільки драматичний, як натякає заголовок.

По-друге, стаття тестувала лише малі моделі. Всі оцінки TurboQuant базуються на моделях з приблизно 8 мільярдами параметрів. Реальні ж великі моделі — з 70 або 400 мільярдами параметрів — мають зовсім інші обсяги KV Cache, і там результати поки що невідомі.

По-третє, Google ще не випустила офіційний код. На сьогодні TurboQuant не інтегрована у vLLM, llama.cpp, Ollama або будь-який інший популярний фреймворк для інференції. Це — самостійна реалізація, відтворена з математичних розрахунків статті. Один з ранніх реплікаторів попереджає: якщо модуль корекції QJL реалізувати неправильно, вихідні дані можуть перетворитися на “шум”.

Але це не означає, що побоювання ринку безпідставні.

Це — колективна пам’ять 2025 року після інциденту DeepSeek. Тоді ринок навчився жорстокому уроку: прориви в алгоритмічній ефективності можуть за одну ніч змінити уявлення про дорогі апаратні ресурси. З того часу будь-який прорив у топових лабораторіях автоматично викликає рефлекс у секторі обладнання.

І ця новина — від Google Research, а не від невідомого університету. Компанія має достатньо інженерних ресурсів, щоб перетворити статтю у виробничий інструмент, і сама є одним із найбільших споживачів AI-інференції у світі. Як тільки TurboQuant стане внутрішнім стандартом, зміняться закупівельні логіки для Waymo, Gemini, Google Search.

Знову повторюється класичний сценарій

Є один класичний аргумент, що заслуговує уваги: парадокс Джевонса.

19 століття економіст Джевонс виявив, що підвищення ефективності парової машини не зменшує споживання вугілля у Великій Британії, а навпаки — збільшує його, бо зниження вартості використання стимулює масштабніше застосування.

Прихильники кажуть: якщо Google дозволить запускати модель на 16 ГБ відео, розробники не зупиняться. Вони використають зекономлені ресурси для запуску моделей у 6 разів складніших, обробки більшої кількості мультимодальних даних і підтримки довших контекстів. Ефективність софту відкриє нові потреби, які раніше були недосяжними через високі витрати.

Але цей аргумент має передумову: потрібно час, щоб ринок адаптувався і розширився знову. Чи зможе швидко заповнити “дірки” у попиті, викликані підвищенням ефективності, TurboQuant, перетворившись із статті у виробничий інструмент і стандарт?

Ніхто не знає відповіді. Ринок оцінює цю невизначеність.

Що це означає для AI-індустрії

Більш важливим за зростання або падіння акцій зберігання є глибший тренд, який відкриває TurboQuant.

Гонка озброєнь у AI переміщується з “накопичення обчислювальної потужності” до “максимальної ефективності”.

Якщо TurboQuant доведе свою здатність працювати на великих моделях, це кардинально змінить гру: довгий контекст у інференції стане не привілеєм топових лабораторій, а стандартом галузі.

І цей тренд — саме те, в чому Google найкраще: математично майже оптимальні алгоритми стиснення, що базуються на межах теореми Шеннона, а не на грубій силовій інженерії. Теоретична похибка TurboQuant лише в 2.7 рази перевищує нижню межу інформаційної теорії.

Це означає, що подібних проривів буде кілька, і вони стануть частиною зрілої дослідницької траєкторії.

Для сектору зберігань більш реалістичним питанням є не “чи вплине це на попит”, а: коли і наскільки швидко знизиться потреба у апаратних ресурсах, якщо ціна інференції продовжить падати завдяки софту?

Поточна відповідь — дуже велика, але вже не настільки, щоб ігнорувати ці сигнали.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.