Наступне землетрус у сфері штучного інтелекту: чому справжня небезпека — це не вбивця SaaS, а революція обчислювальної потужності?

robot
Генерація анотацій у процесі

Написано: Брюс

Останнім часом у всьому технологічному та інвестиційному світі всі зосереджені на одній темі: як застосування ШІ «вбиває» традиційний SaaS. Після того, як @AnthropicAI Claude Cowork продемонстрував, як легко він може допомогти написати лист, зробити презентацію або проаналізувати Excel-таблицю, почалася паніка щодо «софту, що помер». Це дійсно лякає, але якщо ви зупинитеся лише на цьому, ви можете пропустити справжню велетенську землетрус.

Це нагадує, що всі ми дивимося в небо на безпілотні дрони у повітряних боях, але ніхто не звертає уваги на те, що під ногами наша материкова плита тихо рухається. Справжня буря ховається під водою, у куточку, який більшість не помічає: основа всього світу ШІ — обчислювальна потужність — переживає «тиху революцію».

І ця революція може змусити продавців ШІ — компанію Nvidia — раптово закінчити свою грандіозну вечірку раніше за всі очікування.

Дві перехрещені революційні дороги

Ця революція — не один окремий випадок, а переплетення двох технологічних шляхів, які здаються незалежними. Вони, наче дві армії, що оточують, створюють натиск на домінування GPU Nvidia.

Перша — революція у зменшенні алгоритмів.

Чи замислювалися ви, чи справді для роботи суперрозуму потрібно активувати всі його нейрони? Очевидно, ні. DeepSeek зрозумів це і створив архітектуру MoE (мішаний експертний модель).

Її можна уявити як компанію, де працює кілька сотень експертів у різних галузях. Але під час засідання для вирішення проблеми достатньо запросити двох-трьох найбільш релевантних, а не всіх одразу для мозкового штурму. Ось у чому розумність MoE: вона дозволяє великій моделі під час кожної обчислювальної операції активувати лише невелику частину «експертів», що значно економить обчислювальні ресурси.

Що з цього виходить? Модель DeepSeek-V2, номінально з 236 мільярдами «експертів» (параметрів), під час роботи активує лише 21 мільярд, менше ніж 10% від загальної кількості. А її продуктивність може конкурувати з GPT-4, що працює на 100% ресурсів. Що це означає? Можливості ШІ та його споживання обчислювальної потужності роз’єдналися!

Раніше ми вважали, що чим сильніший ШІ, тим більше віділяє карт. Тепер DeepSeek показує, що за допомогою розумних алгоритмів можна досягти того ж ефекту за десяту частину вартості. Це прямо ставить під сумнів необхідність у GPU Nvidia.

Друга — революція у апаратному забезпеченні.

Обчислювальні задачі ШІ поділяються на тренування та інференс. Тренування — це як школа, потрібно читати тисячі книг, і тут GPU, що «зробить чудо», дуже корисні. Але інференс — це те, що ми використовуємо щодня, і тут важлива швидкість реакції.

GPU мають природний недолік у процесі інференсу: їхня пам’ять (HBM) — зовнішня, і передача даних між пам’яттю і процесором має затримки. Це наче кухар, який має всі інгредієнти в холодильнику у сусідній кімнаті, і кожного разу, щоб приготувати страву, потрібно бігти за ними. Навіть швидкі компанії, як Cerebras і Groq, створили спеціальні процесори для інференсу, де пам’ять (SRAM) вмонтована безпосередньо у чіп, і доступ до даних — «нульова затримка».

Ринок уже голосує грошима. OpenAI скаржиться на неефективність GPU Nvidia для інференсу, але водночас укладає контракт на 10 мільярдів доларів із Cerebras для оренди їхніх сервісів. Nvidia сама засмутилася і витратила 20 мільярдів доларів, щоб придбати Groq, щоб не відставати у цій новій гонці.

Коли ці дві дороги перетинаються: ціновий вибух

Тепер уявімо: модель DeepSeek, «зменшена» за алгоритмом, працює на апаратурі Cerebras з «нульовою затримкою».

Що відбуватиметься?

Це — ціновий лавинний ефект.

По-перше, зменшена модель дуже мала і цілком поміститься у внутрішню пам’ять чіпа. По-друге, без зовнішніх затримок у пам’яті швидкість реакції ШІ буде неймовірною. В результаті: витрати на тренування знизилися на 90% завдяки архітектурі MoE, а на інференс — ще на один порядок завдяки спеціалізованому обладнанню і розрідженим обчисленням. Підсумково, вартість створення і запуску глобального ШІ може становити лише 10-15% від традиційної GPU-схеми.

Це не просто покращення — це новий парадигмальний зсув.

Ковдра, що приховує трон Nvidia, починає тихо зніматися

Тепер ви розумієте, чому це більш смертельно, ніж «паніка Cowork».

Мільярди ринкової капіталізації Nvidia базуються на простій історії: ШІ — це майбутнє, і майбутнє ШІ — у моїх GPU. Але тепер ця основа починає хитатися.

На ринку тренувань, навіть якщо Nvidia залишиться монополістом, якщо клієнти зможуть робити роботу за десяту частину карт, загальний обсяг ринку може суттєво зменшитися.

На ринку інференсу, у десять разів більшому за тренувальний, Nvidia вже не має абсолютної переваги і стикається з натиском з боку Google, Cerebras та інших гігантів. Навіть її найбільший клієнт, OpenAI, вже «збігає».

Якщо Уолл-стріт усвідомить, що «копалка» Nvidia вже не є єдиним і навіть найкращим вибором, і очікування «вічної монополії» почнуть руйнуватися, що станеться з її оцінкою? Мабуть, всі це добре розуміють.

Отже, найбільший чорний лебідь у найближчі півроку — це не черговий AI, що знищив когось, а, можливо, непомітна технічна новина: наприклад, новий науковий документ про ефективність MoE або звіт про стрімке зростання частки ринку спеціалізованих процесорів для інференсу, що тихо оголосить про початок нової епохи у боротьбі за обчислювальні ресурси.

Коли «продавець лопат» вже не буде єдиним вибором, його золота ера, можливо, закінчиться.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити