Gần đây, toàn bộ giới công nghệ và đầu tư đều đang chú ý đến một vấn đề chung: cách AI đang “hủy diệt” các phần mềm SaaS truyền thống. Kể từ khi @AnthropicAI Claude Cowork trình diễn khả năng giúp bạn dễ dàng viết email, làm PPT, phân tích bảng Excel, thì một làn sóng hoảng loạn về “phần mềm đã chết” bắt đầu lan rộng. Điều này thực sự đáng sợ, nhưng nếu chỉ dừng lại ở đây, bạn có thể bỏ lỡ những trận động đất thực sự đang diễn ra.
Nó giống như tất cả chúng ta đều ngẩng đầu nhìn chiến tranh không người lái trên trời, nhưng lại không để ý rằng toàn bộ lục địa dưới chân đang âm thầm di chuyển. Cơn bão thực sự, nằm dưới mặt nước, trong một góc mà đa số mọi người không nhìn thấy: nền tảng sức mạnh tính toán hỗ trợ toàn bộ thế giới AI, đang diễn ra một “cuộc cách mạng âm thầm”.
Và cuộc cách mạng này có thể khiến các “người bán cày” của AI — Nvidia @nvidia — phải kết thúc bữa tiệc hoành tráng do chính họ tổ chức sớm hơn mọi người nghĩ.
Hai con đường cách mạng đang hội tụ
Cuộc cách mạng này không phải là một sự kiện đơn lẻ, mà là sự đan xen của hai tuyến công nghệ tưởng chừng độc lập. Chúng giống như hai đội quân đang bao vây, tạo thành thế tấn công hình kẹp vào thế thống trị của GPU của Nvidia.
Con đường thứ nhất là cuộc cách mạng tinh giản thuật toán.
Bạn có từng nghĩ rằng, một bộ não siêu phàm khi suy nghĩ có thực sự cần huy động toàn bộ tế bào não không? Rõ ràng là không. DeepSeek đã hiểu rõ điều này và đã phát triển kiến trúc MoE (mô hình chuyên gia hỗn hợp).
Bạn có thể tưởng tượng nó như một công ty, nuôi vài trăm chuyên gia trong các lĩnh vực khác nhau. Nhưng mỗi lần họp để giải quyết vấn đề, bạn chỉ cần mời 2-3 người liên quan nhất, chứ không phải tất cả cùng nhau “động não”. Chính điểm thông minh của MoE nằm ở chỗ này: nó cho phép một mô hình khổng lồ chỉ kích hoạt một phần nhỏ “chuyên gia” trong mỗi lần tính toán, từ đó tiết kiệm đáng kể sức mạnh tính toán.
Kết quả ra sao? Mô hình DeepSeek-V2, danh nghĩa có 2360 tỷ “chuyên gia” (tham số), nhưng mỗi lần làm việc chỉ cần kích hoạt khoảng 210 tỷ, chưa đến 9% tổng số. Trong khi đó, hiệu năng của nó có thể sánh ngang GPT-4 cần hoạt động toàn bộ 100%. Điều này có ý nghĩa gì? Khả năng của AI và lượng tiêu thụ sức mạnh tính toán đã không còn liên quan chặt chẽ nữa!
Trước đây, chúng ta đều cho rằng AI càng mạnh, tiêu thụ card càng nhiều. Giờ đây, DeepSeek đã cho thấy, qua các thuật toán thông minh, có thể đạt hiệu quả tương đương với chi phí bằng một phần mười. Điều này tương đương với việc đặt dấu hỏi lớn về tính cần thiết của GPU Nvidia trong ngành.
Con đường thứ hai là cuộc cách mạng “đổi lane” phần cứng.
AI làm việc gồm hai giai đoạn: huấn luyện và suy luận. Huấn luyện giống như đi học, cần đọc hàng vạn cuốn sách, lúc này GPU — với khả năng tính song song “kỳ diệu” — rất phù hợp. Nhưng suy luận thì giống như sử dụng AI hàng ngày, hơn hết là phản ứng nhanh.
GPU có nhược điểm tự nhiên trong suy luận: bộ nhớ (HBM) của nó là bộ nhớ ngoài, dữ liệu đi lại có độ trễ. Giống như một đầu bếp, nguyên liệu đều để trong tủ lạnh ở phòng bên cạnh, mỗi lần nấu ăn đều phải chạy qua lấy, dù nhanh cũng không thể nhanh bằng. Các công ty như Cerebras, Groq đã “khác biệt” bằng cách thiết kế chip suy luận riêng, tích hợp bộ nhớ SRAM ngay trên chip, nguyên liệu nằm trong tầm tay, đạt được “truy cập không độ trễ”.
Thị trường đã bỏ phiếu bằng tiền thật. OpenAI vừa phàn nàn về khả năng suy luận của GPU Nvidia, vừa ký hợp đồng trị giá 10 tỷ USD với Cerebras để thuê dịch vụ suy luận của họ. Nvidia cũng đã hoảng loạn, bỏ ra 20 tỷ USD mua lại Groq, nhằm không bị tụt lại trong làn sóng mới này.
Khi hai con đường này hội tụ: chi phí bùng nổ
Bây giờ, chúng ta đặt hai yếu tố này cùng nhau: mô hình DeepSeek “tinh giản” bằng thuật toán chạy trên chip Cerebras “không độ trễ”.
Chuyện gì sẽ xảy ra?
Một cơn lũ lụt về chi phí.
Thứ nhất, mô hình sau khi “tinh giản” rất nhỏ, có thể nhét toàn bộ vào bộ nhớ tích hợp của chip. Thứ hai, không còn bị giới hạn bởi bộ nhớ ngoài, phản ứng của AI sẽ cực kỳ nhanh. Kết quả cuối cùng là: chi phí huấn luyện giảm 90% nhờ kiến trúc MoE, còn chi phí suy luận giảm thêm một cấp độ nữa nhờ phần cứng chuyên dụng và tính toán r sparse. Tính ra, tổng chi phí để sở hữu và vận hành một AI đẳng cấp thế giới có thể chỉ còn 10-15% so với các giải pháp GPU truyền thống.
Đây không phải là cải tiến, mà là một bước chuyển đổi mô hình.
Vị trí của Nvidia, đang dần bị kéo khỏi thảm
Bây giờ bạn đã hiểu tại sao điều này còn nguy hiểm hơn cả “sự hoảng loạn Cowork”.
Với giá trị vốn hóa hàng chục nghìn tỷ của Nvidia ngày nay, dựa trên câu chuyện đơn giản: AI là tương lai, và tương lai của AI phải dựa vào GPU của họ. Nhưng giờ đây, nền tảng của câu chuyện này đang bị lung lay.
Trong thị trường huấn luyện, dù Nvidia vẫn giữ độc quyền, nhưng nếu khách hàng chỉ cần dùng một phần mười số card để làm việc, thì quy mô tổng thể của thị trường này có thể sẽ giảm mạnh.
Trong thị trường suy luận, gã khổng lồ gấp mười lần về quy mô này, Nvidia không còn là đối thủ duy nhất, thậm chí còn đối mặt với sự cạnh tranh từ Google, Cerebras và các “thần tượng” khác. Ngay cả khách hàng lớn nhất của họ, OpenAI, cũng đang “quay lưng”.
Một khi Wall Street nhận ra rằng “cái xẻng” của Nvidia không còn là lựa chọn duy nhất, thậm chí không phải là tốt nhất, thì định giá dựa trên kỳ vọng “độc quyền vĩnh viễn” sẽ ra sao? Tôi nghĩ mọi người đều rõ.
Vì vậy, trong nửa năm tới, “con chim đen” lớn nhất có thể không phải là một AI nào đó lại “hạ gục” ai, mà là một tin tức công nghệ tưởng chừng nhỏ nhặt: như một bài báo mới về hiệu quả của thuật toán MoE, hoặc một báo cáo về thị phần chip suy luận chuyên dụng tăng vọt, âm thầm tuyên bố rằng cuộc chiến sức mạnh tính toán đã bước sang một giai đoạn mới.
Khi “người bán xẻng” không còn là lựa chọn duy nhất, thời kỳ hoàng kim của họ có thể cũng đã chấm dứt.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Chấn động tiếp theo của AI: Tại sao mối nguy hiểm thực sự không phải là SaaS killer, mà là cuộc cách mạng về sức mạnh tính toán?
Viết bài: Bruce
Gần đây, toàn bộ giới công nghệ và đầu tư đều đang chú ý đến một vấn đề chung: cách AI đang “hủy diệt” các phần mềm SaaS truyền thống. Kể từ khi @AnthropicAI Claude Cowork trình diễn khả năng giúp bạn dễ dàng viết email, làm PPT, phân tích bảng Excel, thì một làn sóng hoảng loạn về “phần mềm đã chết” bắt đầu lan rộng. Điều này thực sự đáng sợ, nhưng nếu chỉ dừng lại ở đây, bạn có thể bỏ lỡ những trận động đất thực sự đang diễn ra.
Nó giống như tất cả chúng ta đều ngẩng đầu nhìn chiến tranh không người lái trên trời, nhưng lại không để ý rằng toàn bộ lục địa dưới chân đang âm thầm di chuyển. Cơn bão thực sự, nằm dưới mặt nước, trong một góc mà đa số mọi người không nhìn thấy: nền tảng sức mạnh tính toán hỗ trợ toàn bộ thế giới AI, đang diễn ra một “cuộc cách mạng âm thầm”.
Và cuộc cách mạng này có thể khiến các “người bán cày” của AI — Nvidia @nvidia — phải kết thúc bữa tiệc hoành tráng do chính họ tổ chức sớm hơn mọi người nghĩ.
Hai con đường cách mạng đang hội tụ
Cuộc cách mạng này không phải là một sự kiện đơn lẻ, mà là sự đan xen của hai tuyến công nghệ tưởng chừng độc lập. Chúng giống như hai đội quân đang bao vây, tạo thành thế tấn công hình kẹp vào thế thống trị của GPU của Nvidia.
Con đường thứ nhất là cuộc cách mạng tinh giản thuật toán.
Bạn có từng nghĩ rằng, một bộ não siêu phàm khi suy nghĩ có thực sự cần huy động toàn bộ tế bào não không? Rõ ràng là không. DeepSeek đã hiểu rõ điều này và đã phát triển kiến trúc MoE (mô hình chuyên gia hỗn hợp).
Bạn có thể tưởng tượng nó như một công ty, nuôi vài trăm chuyên gia trong các lĩnh vực khác nhau. Nhưng mỗi lần họp để giải quyết vấn đề, bạn chỉ cần mời 2-3 người liên quan nhất, chứ không phải tất cả cùng nhau “động não”. Chính điểm thông minh của MoE nằm ở chỗ này: nó cho phép một mô hình khổng lồ chỉ kích hoạt một phần nhỏ “chuyên gia” trong mỗi lần tính toán, từ đó tiết kiệm đáng kể sức mạnh tính toán.
Kết quả ra sao? Mô hình DeepSeek-V2, danh nghĩa có 2360 tỷ “chuyên gia” (tham số), nhưng mỗi lần làm việc chỉ cần kích hoạt khoảng 210 tỷ, chưa đến 9% tổng số. Trong khi đó, hiệu năng của nó có thể sánh ngang GPT-4 cần hoạt động toàn bộ 100%. Điều này có ý nghĩa gì? Khả năng của AI và lượng tiêu thụ sức mạnh tính toán đã không còn liên quan chặt chẽ nữa!
Trước đây, chúng ta đều cho rằng AI càng mạnh, tiêu thụ card càng nhiều. Giờ đây, DeepSeek đã cho thấy, qua các thuật toán thông minh, có thể đạt hiệu quả tương đương với chi phí bằng một phần mười. Điều này tương đương với việc đặt dấu hỏi lớn về tính cần thiết của GPU Nvidia trong ngành.
Con đường thứ hai là cuộc cách mạng “đổi lane” phần cứng.
AI làm việc gồm hai giai đoạn: huấn luyện và suy luận. Huấn luyện giống như đi học, cần đọc hàng vạn cuốn sách, lúc này GPU — với khả năng tính song song “kỳ diệu” — rất phù hợp. Nhưng suy luận thì giống như sử dụng AI hàng ngày, hơn hết là phản ứng nhanh.
GPU có nhược điểm tự nhiên trong suy luận: bộ nhớ (HBM) của nó là bộ nhớ ngoài, dữ liệu đi lại có độ trễ. Giống như một đầu bếp, nguyên liệu đều để trong tủ lạnh ở phòng bên cạnh, mỗi lần nấu ăn đều phải chạy qua lấy, dù nhanh cũng không thể nhanh bằng. Các công ty như Cerebras, Groq đã “khác biệt” bằng cách thiết kế chip suy luận riêng, tích hợp bộ nhớ SRAM ngay trên chip, nguyên liệu nằm trong tầm tay, đạt được “truy cập không độ trễ”.
Thị trường đã bỏ phiếu bằng tiền thật. OpenAI vừa phàn nàn về khả năng suy luận của GPU Nvidia, vừa ký hợp đồng trị giá 10 tỷ USD với Cerebras để thuê dịch vụ suy luận của họ. Nvidia cũng đã hoảng loạn, bỏ ra 20 tỷ USD mua lại Groq, nhằm không bị tụt lại trong làn sóng mới này.
Khi hai con đường này hội tụ: chi phí bùng nổ
Bây giờ, chúng ta đặt hai yếu tố này cùng nhau: mô hình DeepSeek “tinh giản” bằng thuật toán chạy trên chip Cerebras “không độ trễ”.
Chuyện gì sẽ xảy ra?
Một cơn lũ lụt về chi phí.
Thứ nhất, mô hình sau khi “tinh giản” rất nhỏ, có thể nhét toàn bộ vào bộ nhớ tích hợp của chip. Thứ hai, không còn bị giới hạn bởi bộ nhớ ngoài, phản ứng của AI sẽ cực kỳ nhanh. Kết quả cuối cùng là: chi phí huấn luyện giảm 90% nhờ kiến trúc MoE, còn chi phí suy luận giảm thêm một cấp độ nữa nhờ phần cứng chuyên dụng và tính toán r sparse. Tính ra, tổng chi phí để sở hữu và vận hành một AI đẳng cấp thế giới có thể chỉ còn 10-15% so với các giải pháp GPU truyền thống.
Đây không phải là cải tiến, mà là một bước chuyển đổi mô hình.
Vị trí của Nvidia, đang dần bị kéo khỏi thảm
Bây giờ bạn đã hiểu tại sao điều này còn nguy hiểm hơn cả “sự hoảng loạn Cowork”.
Với giá trị vốn hóa hàng chục nghìn tỷ của Nvidia ngày nay, dựa trên câu chuyện đơn giản: AI là tương lai, và tương lai của AI phải dựa vào GPU của họ. Nhưng giờ đây, nền tảng của câu chuyện này đang bị lung lay.
Trong thị trường huấn luyện, dù Nvidia vẫn giữ độc quyền, nhưng nếu khách hàng chỉ cần dùng một phần mười số card để làm việc, thì quy mô tổng thể của thị trường này có thể sẽ giảm mạnh.
Trong thị trường suy luận, gã khổng lồ gấp mười lần về quy mô này, Nvidia không còn là đối thủ duy nhất, thậm chí còn đối mặt với sự cạnh tranh từ Google, Cerebras và các “thần tượng” khác. Ngay cả khách hàng lớn nhất của họ, OpenAI, cũng đang “quay lưng”.
Một khi Wall Street nhận ra rằng “cái xẻng” của Nvidia không còn là lựa chọn duy nhất, thậm chí không phải là tốt nhất, thì định giá dựa trên kỳ vọng “độc quyền vĩnh viễn” sẽ ra sao? Tôi nghĩ mọi người đều rõ.
Vì vậy, trong nửa năm tới, “con chim đen” lớn nhất có thể không phải là một AI nào đó lại “hạ gục” ai, mà là một tin tức công nghệ tưởng chừng nhỏ nhặt: như một bài báo mới về hiệu quả của thuật toán MoE, hoặc một báo cáo về thị phần chip suy luận chuyên dụng tăng vọt, âm thầm tuyên bố rằng cuộc chiến sức mạnh tính toán đã bước sang một giai đoạn mới.
Khi “người bán xẻng” không còn là lựa chọn duy nhất, thời kỳ hoàng kim của họ có thể cũng đã chấm dứt.