Toàn bộ Hội nghị GTC của Nvidia: Huang Renxun tuyên bố thời đại suy luận đã đến, Tôm hùm là hệ điều hành mới!

TechubNews

2026-03-17 01:25:12

Nguồn: Wallstreetcn

Bài viết: Bao Yilong

Tại Hội nghị GTC 2026, CEO của Nvidia, Huang Renxun, đã định vị công ty là “Nhà xây dựng nhà máy AI”, nói rằng “đến năm 2027 sẽ thấy nhu cầu ít nhất 1 nghìn tỷ USD với độ tin cậy cao”. Ông đề xuất “Kinh tế học nhà máy Token”, nhấn mạnh hiệu suất trên mỗi watt là trung tâm của thương mại hóa. Huang Renxun khẳng định rằng Agent (trí thông minh nhân tạo) sẽ chấm dứt mô hình SaaS truyền thống, tương lai “lương hàng năm + ngân sách Token” sẽ trở thành tiêu chuẩn mới trong nơi làm việc.

Lời phát biểu khai mạc

MC: Xin chào mừng nhà sáng lập kiêm CEO của Nvidia, Huang Renxun, lên sân khấu.

Huang Renxun, nhà sáng lập kiêm CEO:

Chào mừng đến với GTC. Đây là một hội nghị công nghệ, rất vui khi thấy nhiều người xếp hàng từ sáng sớm để vào hội trường.

Hôm nay, chúng ta sẽ thảo luận về ba nền tảng chính: nền tảng CUDA-X, nền tảng hệ thống, và nền tảng nhà máy AI hoàn toàn mới. Tất nhiên, điều quan trọng nhất là hệ sinh thái.

Trước tiên, tôi muốn cảm ơn các MC “khởi động trước trận đấu” của chúng ta, họ đã thể hiện xuất sắc: Sarah Guo từ Conviction, Alfred Lin từ Sequoia Capital (nhà đầu tư mạo hiểm đầu tiên của Nvidia), và Gavin Baker, nhà đầu tư tổ chức quan trọng đầu tiên của Nvidia. Ba người này có hiểu biết sâu sắc về công nghệ và ảnh hưởng rộng lớn trong hệ sinh thái công nghệ. Ngoài ra, tôi cũng cảm ơn tất cả các khách quý do chính tôi chọn lựa.

Cũng xin cảm ơn tất cả các doanh nghiệp tham dự. Với tư cách là nền tảng, Nvidia sở hữu công nghệ, nền tảng và hệ sinh thái phong phú. Hôm nay, gần như toàn bộ các doanh nghiệp trong ngành công nghiệp trị giá hàng nghìn tỷ USD đều có mặt — 450 công ty đã tài trợ cho sự kiện này, xin chân thành cảm ơn.

Hội nghị này có tổng cộng 1.000 chuyên đề kỹ thuật, quy tụ 2.000 diễn giả, sẽ bao phủ từng tầng của “bánh kem” trí tuệ nhân tạo — từ đất đai, điện năng, hạ tầng, đến chip, nền tảng, mô hình, và các ứng dụng thúc đẩy toàn bộ ngành công nghiệp phát triển bùng nổ.

Lịch sử 20 năm của CUDA

Năm nay là kỷ niệm 20 năm ngày ra đời của CUDA.

Suốt 20 năm qua, chúng tôi luôn cống hiến cho kiến trúc này — phát minh mang tính cách mạng: SIMT (Single Instruction Multiple Threads), cho phép mã scalar phát sinh thành các ứng dụng đa luồng, dễ lập trình hơn so với phương pháp truyền thống. Gần đây, chúng tôi còn bổ sung hỗ trợ Tiles (gạch lát), giúp các nhà phát triển dễ dàng lập trình cho Tensor Core và các cấu trúc toán học AI hiện nay.

Cho đến nay, CUDA đã tích lũy hàng nghìn công cụ, trình biên dịch, framework và thư viện, có hàng trăm nghìn dự án mã nguồn mở trong cộng đồng, và đã tích hợp sâu vào từng hệ sinh thái chính thống.

Hiệu ứng đòn bẩy và nền tảng cài đặt

Hình dưới đây mô tả gần như toàn bộ chiến lược của Nvidia.

Điều khó thực hiện nhất, cũng mang giá trị chiến lược lớn nhất, chính là nền tảng cài đặt cơ bản. Trải qua 20 năm, chúng tôi đã xây dựng hàng trăm triệu GPU và hệ thống tính toán chạy CUDA trên toàn cầu. Chúng tôi phủ sóng tất cả các nhà cung cấp dịch vụ đám mây và các nhà sản xuất máy tính, phục vụ gần như mọi ngành nghề.

Nền tảng cài đặt của CUDA chính là lý do thúc đẩy hiệu ứng đòn bẩy này tăng tốc. Một nền tảng cài đặt khổng lồ thu hút các nhà phát triển, họ sáng tạo ra các thuật toán mới, các thuật toán này tạo ra đột phá — ví dụ như sự ra đời của deep learning. Những đột phá này mở ra thị trường hoàn toàn mới, các thị trường mới thu hút thêm nhiều đối tác hệ sinh thái, từ đó tạo thành nền tảng cài đặt lớn hơn nữa. Hiệu ứng đòn bẩy này đang tiếp tục tăng tốc.

Hiện tại, lượng tải xuống thư viện của Nvidia đang tăng trưởng với tốc độ đáng kinh ngạc, và tốc độ này vẫn không ngừng tăng. Hiệu ứng đòn bẩy này giúp nền tảng tính toán duy trì khả năng hỗ trợ hàng tỷ ứng dụng và các đột phá công nghệ liên tục.

Quan trọng hơn, nó còn giúp hạ tuổi thọ của hạ tầng cơ sở. Lý do rất đơn giản: các ứng dụng chạy CUDA của Nvidia có phạm vi rất rộng, bao gồm mọi giai đoạn của vòng đời AI, mọi nền tảng xử lý dữ liệu, và các bộ giải thuật khoa học khác nhau. Vì vậy, một khi đã cài đặt GPU của Nvidia, tuổi thọ sử dụng của nó là rất dài.

Điều này giải thích tại sao kiến trúc Ampere mà chúng tôi ra mắt cách đây sáu năm vẫn giữ giá trên đám mây đến nay.

Trong khi đó, khi chúng tôi liên tục cập nhật phần mềm, chi phí tính toán cũng giảm liên tục — điều này không chỉ thể hiện qua hiệu năng tăng vọt khi triển khai ban đầu, mà còn qua hiệu quả giảm chi phí lâu dài nhờ tăng tốc tính toán. Vì tất cả GPU đều tương thích về kiến trúc, chúng tôi sẵn sàng hỗ trợ và bảo trì mọi GPU trên toàn cầu. Nền tảng cài đặt càng lớn, mỗi lần tối ưu mới sẽ mang lại lợi ích cho nhiều người dùng hơn.

Tổ hợp này giúp kiến trúc Nvidia mở rộng phạm vi, thúc đẩy tăng trưởng, đồng thời liên tục giảm chi phí tính toán, từ đó thúc đẩy một vòng tăng trưởng mới.

Điểm xuất phát của CUDA: GeForce

Hành trình của CUDA bắt nguồn từ GeForce 25 năm trước.

GeForce là chiến dịch marketing thành công nhất của Nvidia từ trước đến nay. Chúng tôi bắt đầu thu hút khách hàng tương lai khi các bạn còn nhỏ, chưa có khả năng tiêu dùng — lúc đó là cha mẹ các bạn trả tiền, qua từng năm, cho đến một ngày các bạn trưởng thành thành các nhà khoa học máy tính xuất sắc, trở thành các nhà phát triển thực thụ.

25 năm trước, chúng tôi đã phát minh ra shader có thể lập trình — bộ tăng tốc có thể lập trình đầu tiên trên thế giới, cũng là điểm khởi đầu của pixel shader. Phát minh này đã thúc đẩy chúng tôi khám phá sâu hơn, và sau 5 năm, đã sinh ra CUDA.

Việc mở rộng CUDA từ GeForce sang mọi máy tính là một trong những khoản đầu tư lớn nhất của chúng tôi thời đó — dù rất khó khăn, nó đã tiêu tốn phần lớn lợi nhuận của công ty. Chúng tôi tin tưởng vào tiềm năng của nó, dù ban đầu còn nhiều gian nan, nhưng sau 20 năm, qua 13 thế hệ kiến trúc, CUDA đã trở thành một phần không thể thiếu.

Khoảng 8 năm trước, chúng tôi ra mắt RTX, thiết kế lại hoàn toàn kiến trúc, giới thiệu hai ý tưởng mới hoàn toàn vào thời điểm đó: theo dõi tia sáng phần cứng và đồ họa dựa trên AI. Giống như GeForce đã đưa AI ra thế giới — giúp Alex Krizhevsky, Ilya Sutskever, Geoffrey Hinton, Andrew Ng và nhiều người khác nhận ra GPU là công cụ tăng tốc deep learning, từ đó bùng nổ AI — nay, AI sẽ một lần nữa cách mạng hóa đồ họa máy tính.

Render bằng neural: DLSS 5

Hôm nay, tôi muốn giới thiệu về tương lai của công nghệ đồ họa. Đó là neural rendering — sự kết hợp giữa đồ họa 3D và trí tuệ nhân tạo, chính là DLSS 5.

Hiệu quả thật ấn tượng, phải không? Chúng tôi kết hợp dữ liệu 3D có thể kiểm soát (cấu trúc dữ liệu trong thế giới ảo) với AI sinh tạo (tính toán xác suất): một thứ hoàn toàn dự đoán được, thứ kia dựa trên xác suất nhưng cực kỳ chân thực. Khi kết hợp, nội dung tạo ra vừa đẹp mắt, chân thực, vừa hoàn toàn kiểm soát được.

Sự hòa quyện giữa dữ liệu có cấu trúc và AI sinh tạo sẽ lặp lại trong từng ngành công nghiệp. Dữ liệu có cấu trúc chính là nền tảng của AI đáng tin cậy.

Nền tảng dữ liệu có cấu trúc và phi cấu trúc

Tiếp theo, hình dưới có thể khiến các bạn ngạc nhiên, nhưng xin hãy kiên nhẫn nghe tôi nói hết.

Dữ liệu có cấu trúc — SQL, Spark, Pandas, Velox, cùng các nền tảng quan trọng như Snowflake, Databricks, Amazon EMR, Azure Fabric, Google BigQuery — đều xử lý Data Frame. Những Data Frame này về bản chất là các bảng tính khổng lồ, chứa đựng tất cả thông tin kinh doanh, là “sự thật chuẩn” của doanh nghiệp.

Trong kỷ nguyên AI, những dữ liệu này sẽ được AI truy cập với tốc độ cao, do đó cần được tối đa hóa tốc độ xử lý. Trong tương lai, các Agent AI cũng sẽ sử dụng rộng rãi các cơ sở dữ liệu có cấu trúc này.

Còn dữ liệu phi cấu trúc chiếm phần lớn thông tin thế giới: cơ sở dữ liệu vector, PDF, video, âm thanh… Trong tổng lượng thông tin sinh ra hàng năm, khoảng 90% là dữ liệu phi cấu trúc. Trước đây, những dữ liệu này gần như vô dụng — chúng ta lưu chúng vào hệ thống tập tin, nhưng không thể truy xuất hay truy vấn.

Giờ đây, AI đã thay đổi tất cả. Giống như AI đã giải quyết các vấn đề cảm nhận đa phương thức và hiểu biết, các công nghệ tương tự có thể đọc PDF, hiểu ý nghĩa của nó, và nhúng vào các cấu trúc lớn hơn có thể truy vấn, tìm kiếm.

Để làm điều này, Nvidia đã tạo ra hai thư viện nền tảng:

cuDF: để tăng tốc Data Frame và dữ liệu có cấu trúc

cuVS: để tăng tốc lưu trữ vector, dữ liệu ngữ nghĩa và dữ liệu AI phi cấu trúc

Hai nền tảng này sẽ trở thành một trong những nền tảng tính toán quan trọng nhất trong tương lai.

Hôm nay, chúng tôi chính thức công bố nhiều hợp tác:

IBM (người sáng lập SQL) đang sử dụng cuDF để tăng tốc nền tảng dữ liệu WatsonX của họ

Dell hợp tác với chúng tôi xây dựng nền tảng dữ liệu AI của Dell, tích hợp cuDF và cuVS, thiết kế riêng cho thời kỳ AI

Google Cloud: chúng tôi tăng tốc nền tảng Vertex AI và BigQuery của họ; ví dụ như Snapchat, chúng tôi giúp giảm gần 80% chi phí tính toán

AWS: chúng tôi tăng tốc EMR, SageMaker và Bedrock, đồng thời sẽ đưa OpenAI vào AWS để thúc đẩy tiêu thụ đám mây quy mô lớn

Microsoft Azure: chúng tôi tăng tốc Azure AI Foundry, hỗ trợ sâu cho Bing Search, mở rộng triển khai tại các khu vực của Azure

CoreWeave: đám mây gốc AI đầu tiên toàn cầu, dành cho lưu trữ GPU và suy luận AI

Oracle: chúng tôi là khách hàng AI đầu tiên của Oracle

Palantir + Dell: hợp tác ba bên, có thể triển khai nền tảng AI ở bất kỳ quốc gia, khu vực cách ly nào, hoàn toàn nội địa hóa

Chiến lược cốt lõi của Nvidia: tích hợp dọc, mở ngang

Nvidia là công ty tính toán đầu tiên trên thế giới vừa tích hợp dọc, vừa mở ngang.

Tăng tốc tính toán không chỉ là vấn đề chip hay hệ thống, mà cốt lõi là thúc đẩy ứng dụng. Để liên tục mang lại tăng tốc rõ rệt và giảm chi phí cho từng lĩnh vực ứng dụng, cần hiểu sâu về ứng dụng, lĩnh vực, thuật toán, và thực thi trong mọi kịch bản triển khai — dù là trung tâm dữ liệu đám mây, triển khai tại chỗ, tính toán biên, hay hệ thống robot.

Đây chính là lý do Nvidia phải đào sâu từng lĩnh vực dọc. Chúng tôi dựa trên hiểu biết về thuật toán, tích hợp chúng vào nền tảng tính toán, và mở cho toàn thế giới sử dụng.

GTC lần này gần như bao quát mọi lĩnh vực dọc trong hệ sinh thái Nvidia, bao gồm:

Tự lái xe

Dịch vụ tài chính (lĩnh vực lớn nhất trong số các khách tham dự GTC, mong muốn là các nhà phát triển chứ không phải nhà giao dịch)

Y tế (đang trải qua “thời điểm ChatGPT” của riêng mình)

Sản xuất công nghiệp

Giải trí và game

Robot (110 robot tham gia triển lãm, gần như tất cả các công ty robot đều hợp tác với Nvidia)

Viễn thông (ngành trị giá khoảng 2 nghìn tỷ USD, các trạm gốc sẽ biến thành hạ tầng tính toán biên AI)

Chúng tôi công bố cập nhật 100 thư viện và khoảng 40 mô hình trong hội nghị này. Những thư viện này là tài sản cốt lõi của công ty, là chìa khóa để kích hoạt nền tảng tính toán và giải quyết các vấn đề thực tế.

Trong số đó, một trong những thư viện quan trọng nhất là cuDNN (CUDA Deep Neural Network Library), đã cách mạng hóa trí tuệ nhân tạo, thắp sáng cơn bùng nổ AI hiện đại.

Bước ngoặt của suy luận

Trong hai năm qua, chuyện gì đã xảy ra? Có ba sự kiện lớn đã thúc đẩy tất cả:

Thứ nhất: Khởi đầu của thời đại ChatGPT và AI sinh tạo (cuối 2022 đến 2023). AI không chỉ cảm nhận và hiểu, mà còn dịch, sáng tạo, sinh ra nội dung mới. Tính toán sinh tạo đã thay đổi căn bản kiến trúc và logic xây dựng của máy tính.

Thứ hai: Sự trỗi dậy của AI suy luận (các mô hình o1 và o3). AI suy luận giúp mô hình phản tỉnh, lập kế hoạch, phân tích các vấn đề phức tạp thành các bước có thể xử lý, làm cho AI đáng tin cậy hơn và dựa trên thực tế. Điều này khiến lượng dùng ChatGPT tăng vọt, đồng thời tăng đáng kể lượng token đầu vào/đầu ra cần tính toán.

Thứ ba: Ra đời của Claude Code và AI Agentic. Đây là mô hình Agentic thực sự đầu tiên, có thể đọc file, viết code, biên dịch, kiểm thử, đánh giá và tối ưu hóa lặp lại. Claude Code đã cách mạng hóa kỹ thuật phần mềm. Hiện nay, mọi kỹ sư phần mềm của Nvidia đều dùng AI Agent để hỗ trợ lập trình.

AI đã trải qua quá trình tiến hóa từ “cảm nhận” sang “sinh tạo”, rồi từ “sinh tạo” sang “suy luận”, và cuối cùng từ “suy luận” sang “thực thi” — AI ngày nay có thể hoàn thành các công việc thực sự hiệu quả.

Bước ngoặt suy luận đã đến. Mỗi lần AI suy nghĩ, thực thi, đọc, suy luận đều cần thực hiện inference (suy luận). Nhu cầu sinh token tăng vọt. Trong hai năm qua, yêu cầu tính toán cho một công việc đã tăng khoảng 10.000 lần, lượng sử dụng tăng khoảng 100 lần, tổng nhu cầu tính toán gần như tăng 1 triệu lần.

Từ 500 tỷ đến 1 nghìn tỷ USD

Năm ngoái, tại GTC, tôi đã đề cập rằng chúng tôi dự đoán đến năm 2026, nhu cầu cao độ tin cậy cho Blackwell và Rubin sẽ khoảng 500 tỷ USD.

Hôm nay, sau đúng một năm tại GTC, đứng ở thời điểm hiện tại, tôi có thể rõ ràng thấy rằng: ít nhất đến năm 2027, nhu cầu sẽ đạt 1 nghìn tỷ USD.

Hơn nữa, tôi tin rằng nhu cầu tính toán thực tế còn cao hơn nhiều.

Năm ngoái là năm của suy luận Nvidia. Chúng tôi đã nỗ lực đảm bảo rằng ngoài huấn luyện và hậu huấn luyện, mọi giai đoạn của vòng đời AI đều thể hiện xuất sắc, để các khoản đầu tư hạ tầng có thể duy trì giá trị lâu dài.

Chúng tôi cũng rất vui khi thấy Anthropic chọn Nvidia, Meta SL cũng chọn Nvidia. Hiện nay, các mô hình mã nguồn mở đã gần đạt trình độ tiên tiến, và đã xuất hiện khắp nơi. Nvidia hiện là nền tảng tính toán duy nhất trên toàn cầu có thể bao phủ tất cả các lĩnh vực AI — ngôn ngữ, sinh học, đồ họa máy tính, thị giác máy tính, giọng nói, protein và hóa học, robot — từ biên đến đám mây, toàn cảnh.

Kiến trúc “khả chuyển đổi” (Fungibility) của chúng tôi khiến nó trở thành nền tảng xây dựng hạ tầng AI với chi phí thấp nhất, độ tin cậy cao nhất. Khi bạn đầu tư hàng nghìn tỷ USD để xây dựng hạ tầng, bạn cần hoàn toàn tự tin — Nvidia là nền tảng tính toán duy nhất trên thế giới hiện nay giúp bạn yên tâm triển khai, dù là trên đám mây, tại chỗ hay ở bất kỳ quốc gia nào.

Hiện tại, 60% doanh thu của chúng tôi đến từ năm nhà cung cấp dịch vụ đám mây siêu lớn, còn 40% đến từ các đám mây khu vực, đám mây chủ quyền, doanh nghiệp, công nghiệp, robot, biên, siêu máy tính và nhiều lĩnh vực khác. Sự đa dạng này chính là sức bền — AI không còn là một ứng dụng đơn lẻ nữa, mà là một cuộc chuyển đổi thực sự của nền tảng tính toán.

Bứt phá về hiệu suất suy luận

Chúng tôi đã đạt được bước đột phá căn bản trong tối ưu hóa suy luận:

Đây là đánh giá hiệu suất suy luận AI toàn diện nhất từ trước đến nay (từ Semi Analysis). Các tiêu chí phân tích như sau:

Trục tung (Token trên mỗi watt): phản ánh năng suất. Mỗi trung tâm dữ liệu đều bị giới hạn bởi điện năng, một nhà máy 1 GW không thể biến thành 2 GW, phải tối đa hóa số token sinh ra trong giới hạn điện năng đó.

Trục hoành (tốc độ suy luận / tốc độ token): phản ánh tính tương tác và “trí tuệ” của AI. Tốc độ càng nhanh, mô hình càng lớn, ngữ cảnh dài hơn, suy nghĩ sâu hơn — nghĩa là “thông minh” hơn.

Kết quả gây sốc:

Từ Hopper H200 đến Grace Blackwell, dự kiến theo Moore’s Law, hiệu suất tăng khoảng 1.5 lần, nhưng thực tế đạt tới 35 lần hiệu suất trên mỗi watt. Dylan Patel từ Semi Analysis còn nói rằng dữ liệu tôi báo cáo còn bảo thủ — thực tế là 50 lần.

Điều này có nghĩa là chi phí cho mỗi token của Nvidia là thấp nhất toàn cầu. Chi phí xây dựng trung tâm dữ liệu 1 GW khoảng 40 tỷ USD (phân bổ trong 15 năm), dù sao cũng phải trả khoản cố định này — do đó, cần lắp đặt hệ thống tính toán tối ưu nhất để đạt chi phí token thấp nhất. Hiện tại, không ai sánh kịp.

Ví dụ như Fireworks AI: sau khi chúng tôi cập nhật phần mềm, tốc độ token của họ tăng từ khoảng 700 tokens/giây lên gần 5.000 tokens/giây, tăng gấp 7 lần. Đó chính là sức mạnh của thiết kế hợp tác tối đa.

Logic kinh doanh của nhà máy Token:

Trong tương lai, mỗi nhà cung cấp dịch vụ đám mây, mỗi công ty AI sẽ xem xét hoạt động của mình từ góc độ nhà máy Token. Các mức độ dịch vụ khác nhau sẽ tương ứng với tốc độ token và giá cả khác nhau:

Cấp miễn phí: throughput cao, tốc độ thấp

Cấp cơ bản: khoảng 3 USD / triệu token

Cấp tiêu chuẩn: khoảng 6 USD / triệu token

Cấp cao: khoảng 45 USD / triệu token

Cấp cao nhất: khoảng 150 USD / triệu token (tốc độ cao, ngữ cảnh siêu dài, mô hình tối đa)

Lấy ví dụ như Grace Blackwell: so với Hopper, ở cấp dịch vụ có giá trị thương mại cao nhất, throughput tăng 35 lần, có thể mở rộng khả năng sinh lợi đáng kể, nâng tổng doanh thu trung tâm dữ liệu khoảng 5 lần.

Vera Rubin: Kiến trúc thế hệ tiếp theo

Hiện nay, tôi không chỉ trình bày một chip nữa — mà là toàn bộ hệ thống. Đó chính là Vera Rubin.

Vera Rubin được thiết kế đặc biệt cho hệ thống Agentic, với logic rất rõ ràng:

Các mô hình ngôn ngữ lớn ngày càng lớn, cần sinh ra nhiều token hơn, suy nghĩ nhanh hơn;

AI Agent sẽ thường xuyên truy cập bộ nhớ (KV Cache), dữ liệu có cấu trúc (cuDF) và dữ liệu phi cấu trúc (cuVS);

Hệ thống lưu trữ sẽ chịu áp lực lớn;

Gọi công cụ yêu cầu CPU có hiệu năng đơn luồng cực cao.

Để đáp ứng điều này, chúng tôi đã phát triển CPU Vera mới — CPU trung tâm dữ liệu duy nhất trên thế giới dùng LPDDR5, có hiệu năng đơn luồng cực cao, khả năng xử lý dữ liệu xuất sắc và hiệu suất năng lượng vô song.

Các đặc điểm chính của hệ thống Vera Rubin:

Hoàn toàn làm mát bằng dung dịch, tất cả cáp được tối giản đáng kể

Thời gian lắp đặt rút ngắn từ hai ngày xuống còn hai giờ

Sử dụng nước nóng 45°C để làm mát, giảm đáng kể tiêu thụ năng lượng làm mát trung tâm dữ liệu

Trang bị hệ thống trao đổi NVLink thế hệ thứ sáu (duy nhất thế giới) — hoàn toàn làm mát bằng dung dịch, cực kỳ khó thực hiện, tôi tự hào về đội ngũ của mình

Cổng chuyển đổi Spectrum-X của CPO (cổng quang tích hợp chung) đã sản xuất hàng loạt: photon tích hợp trực tiếp vào chip, tín hiệu điện chuyển thành photon, kết nối trực tiếp với chip. Công nghệ này do TSMC hợp tác phát triển, chúng tôi là nhà sản xuất duy nhất toàn cầu, gọi là “CoOP”, mang tính cách mạng hoàn toàn.

Các dòng CPU khác cũng đã bắt đầu sản xuất hàng loạt, dự kiến sẽ trở thành lĩnh vực độc lập trị giá hàng tỷ USD.

Rubin Ultra (phiên bản siêu cấp):

Rubin Ultra sử dụng khung “Kyber” hoàn toàn mới, hỗ trợ 144 GPU tạo thành một vùng NVLink duy nhất. Các nút tính toán cắm từ phía trước, switch NVLink kết nối từ phía sau qua bảng trung tâm, tạo thành một siêu máy tính.

Trong lộ trình công nghệ:

Blackwell (hiện tại): Hệ thống Oberon, hỗ trợ NVLink 72

Vera Rubin: Khung Kyber (NVLink 144) + mở rộng bằng cáp đồng/kỹ thuật quang tới NVLink 576

Vera Rubin Ultra: Chip Rubin Ultra + LP 35 (lần đầu giới thiệu cấu trúc tính toán NVFP 4)

Feynman (thế hệ tiếp theo): GPU hoàn toàn mới + LP 40 + CPU Rosa (tên gọi tạm của nền tảng Rosa) + Bluefield 5 + CX 10 + mở rộng bằng cáp đồng và CPO song mode

Mua lại Grok và đột phá về suy luận dị hợp

Chúng tôi đã mua lại đội ngũ kỹ thuật của Grok và nhận quyền công nghệ để tích hợp sâu.

Điểm đặc trưng của bộ xử lý Grok:

Bộ xử lý luồng dữ liệu xác định, biên dịch tĩnh, do trình biên dịch điều phối tính toán

Tính toán và dữ liệu đến cùng lúc, hoàn toàn do phần mềm điều phối, không có điều phối động

Sở hữu SRAM khổng lồ, thiết kế riêng cho công việc suy luận đơn lẻ này

Hạn chế của nó là: mỗi chip Grok chỉ có 500 MB bộ nhớ (so với Rubin có 288 GB), không đủ chứa tham số mô hình lớn và KV Cache, giới hạn khả năng mở rộng — cho đến khi chúng tôi có một ý tưởng tuyệt vời.

Dynamo: Khung tách rời suy luận

Chúng tôi đã phát triển phần mềm Dynamo, tái cấu trúc quy trình suy luận:

Giai đoạn prefill (tiền điền): thực hiện trên Vera Rubin (cần nhiều sức mạnh tính toán)

Giai đoạn decode (giải mã) của Attention: thực hiện trên Vera Rubin (cần nhiều sức mạnh tính toán)

Giai đoạn decode của mạng feedforward (FFN) / sinh token: thực hiện trên chip Grok (cần băng thông lớn, độ trễ thấp)

Hai bộ xử lý hoàn toàn khác nhau — một tối ưu cho throughput cao, một tối ưu cho độ trễ thấp — nhưng được liên kết chặt chẽ qua Dynamo, giảm độ trễ khoảng 50%.

Kết quả: ở cấp dịch vụ có giá trị thương mại cao nhất, hiệu năng tăng 35 lần, đồng thời mở ra một cấp độ mới về khả năng suy luận chưa từng có trước đây.

Grok LP 30 do Samsung gia công, đã bắt đầu sản xuất hàng loạt, dự kiến bắt đầu giao hàng quý III năm 2026.

Chiến lược triển khai tối ưu của Grok:

Nếu công việc chủ yếu dựa vào throughput cao: dùng 100% Vera Rubin

Nếu cần nhiều mã code giá trị cao hoặc tốc độ token cao: đề xuất phân bổ 25% sức mạnh cho Grok, phần còn lại 75% giữ nguyên cho Vera Rubin.

Quy mô và triển vọng của nhà máy AI

Trong một nhà máy quy mô gigawatt, chỉ trong hai năm, nhờ tối ưu kiến trúc này, tốc độ sinh token sẽ tăng từ 22 triệu lên 700 triệu, tăng 350 lần.

Đây chính là sức mạnh của thiết kế hợp tác tối đa — tích hợp dọc, mở ngang, để tất cả cùng hưởng lợi.

Khi quy mô nhà máy AI mở rộng nhanh chóng, chúng tôi nhận thấy một vấn đề then chốt: các nhà cung cấp công nghệ trong trung tâm dữ liệu trước đây chưa từng liên hệ, phát triển độc lập, gây lãng phí năng lượng lớn.

Vì vậy, chúng tôi đã tạo ra nền tảng Nvidia DSX, dựa trên Omniverse, cho phép tất cả các đối tác cùng thiết kế nhà máy AI quy mô gigawatt trong thế giới ảo — mô phỏng toàn hệ thống cơ khí, quản lý nhiệt, điện, mạng, đồng thời kết nối trực tiếp với lưới điện, dùng Max-Q để tối ưu năng lượng và làm mát động.

Chúng tôi tin rằng, chỉ riêng nền tảng này đã có thể tăng hiệu quả gấp đôi — trong quy mô nghìn tỷ USD, đây là giá trị cực kỳ lớn.

Ngoài ra, Nvidia còn tiến vào không gian vũ trụ: chip Thor đã qua chứng nhận bức xạ, đã triển khai trên vệ tinh. Chúng tôi đang hợp tác phát triển Vera Rubin Space-1, xây dựng trung tâm dữ liệu ngoài không gian (giải quyết thách thức kỹ thuật tản nhiệt bức xạ thuần túy).

OpenClaw: Hệ điều hành cho Agent AI

Giờ tôi muốn nói về một khám phá mới quan trọng.

Peter Steinberger đã phát triển một phần mềm gọi là OpenClaw. Nó trở thành dự án mã nguồn mở phổ biến nhất từ trước đến nay, chỉ trong vài tuần đã vượt qua tốc độ lan truyền của Linux trong 30 năm.

OpenClaw là gì? Nó là một hệ thống Agentic, có khả năng:

Kết nối các mô hình ngôn ngữ lớn

Truy cập công cụ và hệ thống file

Thực thi lập lịch và tác vụ định kỳ

Phân tích vấn đề thành các nhiệm vụ nhỏ từng bước thực thi

Tạo và gọi các Agent con

Hỗ trợ đa phương thức tương tác (văn bản, giọng nói, cử chỉ, v.v.)

Nói cách khác, OpenClaw về bản chất chính là hệ điều hành cho máy tính Agentic. Giống như Windows đã làm cho máy tính cá nhân trở nên khả thi, OpenClaw giúp cá nhân hóa Agent trở thành hiện thực.

Câu hỏi then chốt của các doanh nghiệp giờ đây là: chiến lược OpenClaw của bạn là gì?

Giống như trước đây, mọi công ty đều cần chiến lược Linux, chiến lược HTTP/HTML, chiến lược Kubernetes, thì ngày nay, mọi công ty đều phải có chiến lược OpenClaw và hệ thống Agentic.

Chuyển đổi mô hình IT doanh nghiệp:

Mô hình cũ: trung tâm dữ liệu lưu trữ file → công cụ phần mềm → con người dùng công cụ

Mô hình mới: mỗi SaaS sẽ trở thành AaaS (Agentic as a Service), cung cấp dịch vụ Agent chuyên nghiệp.

Tuy nhiên, hệ thống Agentic nội bộ doanh nghiệp đối mặt với thách thức an ninh lớn: nó có thể truy cập dữ liệu nhạy cảm, thực thi mã, liên lạc ra ngoài. Vì vậy, chúng tôi hợp tác cùng Peter Steinberger, phối hợp các chuyên gia an ninh hàng đầu toàn cầu, phát triển phiên bản doanh nghiệp của OpenClaw, dựa trên công nghệ bảo mật OpenShell, trang bị engine chính sách, hàng rào mạng và router riêng tư, xây dựng kiến trúc tham khảo an toàn doanh nghiệp, gọi là NemoClaw, có thể tải về và sử dụng ngay.

Kế hoạch mô hình mở của Nvidia

Nvidia đã khẳng định vị thế dẫn đầu trong các mô hình tiên phong của từng lĩnh vực AI:

Mô hình	Lĩnh vực
Nemotron	Mô hình ngôn ngữ lớn
Cosmos	Mô hình nền tảng toàn cầu
GROOT	Mô hình robot tổng quát
Alpamayo	Tự lái xe
BioNeMo	Sinh học số / Phát hiện thuốc
PhysicsNeMo	Mô phỏng vật lý AI

Hôm nay, chúng tôi chính thức thành lập Liên minh Nemotron, hợp tác cùng các công ty sau để cùng phát triển Nemotron 4:

BlackForest Labs (tạo hình ảnh)

Cursor (chỉnh sửa mã)

LangChain (khung xây dựng Agent tùy chỉnh, đã tải xuống hơn tỷ lần)

Mistral (mô hình mở lớn)

Perplexity (tìm kiếm AI)

Reflection (hệ thống Agentic đa phương thức)

Sarvam (công ty AI của Ấn Độ)

Thinking Machines (laboratory do Mira Murati sáng lập)

Các công ty này đang hợp tác cùng chúng tôi, tích hợp sâu thiết kế tham khảo NemoClaw, bộ công cụ AI Agentic của Nvidia và toàn bộ dòng mô hình mở vào sản phẩm, dịch vụ của họ.

AI vật lý và robot

Ngoài các Agent số, chúng tôi còn lâu dài đầu tư vào lĩnh vực AI vật lý và robot.

Chúng tôi đã xây dựng ba máy tính chủ chốt cho hệ thống robot:

Máy tính huấn luyện

Máy tính tạo dữ liệu tổng hợp và mô phỏng

Máy tính tích hợp trong thân robot

Chúng tôi hợp tác sâu với Siemens, Cadence và nhiều đối tác khác, đồng thời công bố các hợp tác quan trọng:

Trong lĩnh vực tự lái: Thời điểm “ChatGPT” trong tự lái đã đến. Hôm nay, chúng tôi công bố bốn đối tác RoboTaxi mới: BYD, Hyundai, Nissan, Geely, cùng với Mercedes-Benz, Toyota, GM, mỗi năm sản xuất tổng cộng 18 triệu xe, tích hợp hoàn toàn vào nền tảng RoboTaxi Ready của Nvidia. Đồng thời, chúng tôi ký hợp đồng hợp tác lớn với Uber, sẽ triển khai xe RoboTaxi tại nhiều thành phố và kết nối vào mạng lưới của họ.

Trong lĩnh vực robot công nghiệp: Chúng tôi hợp tác với ABB, Universal Robots, KUKA, Caterpillar và nhiều công ty robot công nghiệp khác, tích hợp mô hình AI vật lý và hệ thống mô phỏng vào dây chuyền sản xuất toàn cầu.

Trong lĩnh vực viễn thông: T-Mobile cũng xuất hiện ở đây — các trạm gốc không dây trong tương lai sẽ biến thành hạ tầng tính toán biên AI của Nvidia, có khả năng suy luận luồng dữ liệu động, điều chỉnh thích nghi các chùm tia, nâng cao chất lượng tín hiệu và tiết kiệm năng lượng đáng kể.

Cuối cùng, chúng tôi giới thiệu robot “Olaf” hợp tác cùng Disney — dựa trên nền tảng tính toán Jetson, môi trường huấn luyện Omniverse, và bộ giải pháp vật lý Newton do hợp tác cùng Disney và DeepMind phát triển (chạy trên Nvidia Warp), giúp robot có thể tự thích nghi vận động trong thế giới thực. Đây là minh chứng xuất sắc cho AI vật lý, cũng là màn trình diễn sống động cho các công viên chủ đề trong tương lai.

Tổng kết

Trong GTC này, chúng tôi tập trung vào bốn chủ đề cốt lõi:

Bước ngoặt suy luận — AI từ “hiểu” chuyển sang “sinh tạo”, rồi “suy luận” và cuối cùng “thực thi”, nhu cầu tính toán tăng vọt hàng triệu lần, bước ngoặt suy luận đã chính thức đến;

Nhà máy AI — trung tâm dữ liệu đang chuyển từ “lưu trữ file” thành “nhà máy sinh token”, Vera Rubin sẽ mang lại khoảng 5 lần lợi nhuận ở mọi cấp dịch vụ;

Cách mạng OpenClaw và Agent — doanh nghiệp đang trải qua cuộc cách mạng sâu sắc, mỗi công ty cần xây dựng chiến lược Agent, NemoClaw cung cấp thiết kế tham khảo an toàn;

AI vật lý và robot — tự lái, robot công nghiệp, robot người máy, thời đại AI vật lý đã đến.

Chúc mọi người GTC vui vẻ, cảm ơn!

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.