Nvidia akan memasok Amazon Web Services dengan volume besar GPU hingga 2027 saat penyedia cloud ini meningkatkan infrastruktur AI-nya dan berupaya memenuhi permintaan yang terus meningkat. AWS mengumumkan awal minggu ini bahwa mereka berencana untuk mengerahkan sekitar 1 juta GPU Nvidia sebagai bagian dari pengembangan infrastruktur AI yang diperluas. Seorang eksekutif Nvidia mengonfirmasi kepada Reuters pada hari Kamis bahwa peluncuran ini diperkirakan berlangsung hingga akhir 2027. Dimulai tahun ini di seluruh wilayah cloud global AWS, peluncuran ini akan dilakukan bersamaan dengan perluasan kerja sama dengan Nvidia dalam jaringan dan infrastruktur lainnya untuk membangun sistem “yang mampu bernalar, merencanakan, dan bertindak secara otonom di seluruh alur kerja yang kompleks,” kata AWS, mengacu pada pekerjaannya pada sistem AI agenik.
AWS terus mengembangkan chip AI untuk pelatihan dan inferensi. Kolaborasi ini menunjukkan bahwa permintaan mungkin sedang bergeser di seluruh tumpukan AI, sementara semakin banyak aktivitas tampaknya terkait dengan menjalankan model dalam layanan langsung. Kesepakatan ini muncul saat jaksa AS menindaklanjuti kasus yang menuduh chip Nvidia diselundupkan ke China, menempatkan pasokan dan kontrol global perusahaan ini di bawah pengawasan yang diperbarui. Sejak 2022, chip paling canggih Nvidia telah dikendalikan secara ketat sebagai bagian dari strategi AS yang lebih luas untuk membatasi kemajuan China dalam komputasi canggih dan AI.
Perkembangan hari Kamis yang lebih dekat ke rumah ini bisa saja memperlebar kesenjangan tersebut. Perubahan dalam kecepatan Pengamat mengatakan bahwa struktur kesepakatan ini memberikan petunjuk tentang di mana permintaan sedang berkembang dan bagaimana infrastruktur dasar berubah dengan kecepatan yang semakin cepat. “Nvidia menjadi lapisan infrastruktur di bawah penyedia cloud, bukan hanya vendor chip bagi mereka,” kata Dermot McGrath, salah satu pendiri di studio strategi dan pertumbuhan ZenGen Labs, kepada Decrypt. Chip dalam kesepakatan ini dirancang untuk menjalankan model AI secara skala besar, dengan fokus pada menurunkan biaya penggunaan, kata McGrath, yang mencatat bahwa inferensi sekarang menyumbang sekitar dua pertiga dari komputasi AI, naik dari sekitar sepertiga pada 2023. Pasar chip yang fokus pada inferensi diperkirakan akan melebihi $50 miliar pada 2026, tambahnya, mengutip perkiraan Deloitte. AWS dapat menggunakan baik Nvidia maupun chip miliknya sendiri dalam sistem yang sama, memberi pelanggan lebih banyak pilihan dibandingkan pesaing yang menjaga chip mereka tertutup, jelas McGrath, menambahkan bahwa fleksibilitas ini “adalah pembeda.” “Sekarang Nvidia melakukan hal yang sama satu lapis di bawah, dengan jaringan dan arsitektur rak alih-alih model pemrograman,” katanya. Chip inferensi adalah prosesor yang dirancang untuk menjalankan model AI yang telah dilatih secara waktu nyata, bukan membutuhkan pelatihan ulang.
Permintaan untuk inferensi “mendorong komitmen jangka panjang” untuk lebih banyak daya komputasi, dan menciptakan hubungan yang lebih dekat antara penyedia cloud dan pembuat chip, kata Pichapen Prateepavanich, ahli strategi kebijakan dan pendiri perusahaan infrastruktur Gather Beyond, kepada Decrypt. “Penyedia cloud menginginkan kemandirian dalam jangka panjang, tetapi dalam jangka pendek mereka membutuhkan Nvidia agar tetap kompetitif,” katanya, menyoroti bagaimana ini menciptakan dinamika di mana kerjasama dan kompetisi berlangsung bersamaan. Namun, kendali atas infrastruktur AI juga sedang berubah. Apa yang terjadi adalah “pembalikan infrastruktur,” kata Berna Misa, mitra kesepakatan di Boardy Ventures, sebuah dana investasi yang dipimpin AI, kepada Decrypt. Nvidia “mengintegrasikan seluruh stack-nya di seluruh komputasi, jaringan, dan inferensi di pusat data AWS yang selama bertahun-tahun menjalankan perangkat keras milik sendiri,” katanya. Namun meskipun AWS mengembangkan chip AI sendiri, ini “tidak mengubah perhitungannya,” jelasnya, menyoroti bahwa inferensi bergantung pada banyak komponen di seluruh stack, dengan Nvidia menyuplai sebagian besar dari mereka. “Ketika Anda sedalam itu di stack pelanggan Anda, biaya pengalihan dan lapisan konteks yang muncul darinya menjadi benteng pertahanan,” katanya.