Google meluncurkan TurboQuant, mengompresi penggunaan memori model hingga 6 kali, mempercepat inferensi hingga 8 kali, yang memicu penurunan saham memori dan diskusi tentang perubahan struktur permintaan.
Google meluncurkan algoritma TurboQuant, yang mengompresi penggunaan memori model bahasa besar setidaknya 6 kali, sambil meningkatkan kecepatan perhitungan inferensi hingga 8 kali tanpa mengorbankan akurasi model. Pasar dengan cepat menafsirkan teknologi ini sebagai “kerusakan sisi permintaan”, dengan logika di baliknya cukup langsung: jika kebutuhan memori AI model selama fase inferensi terkompresi beberapa kali, itu berarti kurva pertumbuhan permintaan pusat data untuk DRAM, HBM, bahkan penyimpanan NAND, mungkin mengalami penyesuaian struktural.
Setelah berita dirilis, saham terkait memori dan penyimpanan mengalami penurunan serentak, termasuk SanDisk (SNDK) turun 3,5%, Micron Technology (MU) turun 3,4%, Western Digital (WDC) turun 1,63%; dalam rantai pasokan Asia, Samsung Electronics turun 4,71%, SK Hynix bahkan mengalami penurunan hingga 6,23%. Ada juga pandangan yang berpendapat bahwa TurboQuant lebih mungkin mengubah “efisiensi penggunaan sumber daya” daripada sekadar melemahkan permintaan.
Menurut penjelasan tim penelitian Google, TurboQuant adalah sekumpulan algoritma kuantisasi yang dirancang untuk model bahasa besar dan sistem pencarian vektor, dengan inti yang terletak pada pengompresan besar-besaran “cache key-value” dan struktur data vektor berdimensi tinggi yang paling memakan sumber daya dalam model AI. Dalam pengujian, teknologi ini dapat mengompresi penggunaan memori setidaknya 6 kali, sambil meningkatkan kecepatan perhitungan inferensi hingga 8 kali tanpa mengorbankan akurasi model.
Terobosan ini secara langsung mengenai kendala kunci infrastruktur AI saat ini. Ekspansi AI generatif di lapisan komputasi sangat bergantung pada memori bandwidth tinggi seperti HBM untuk mendukung bobot model dan cache KV berskala besar, menghindari kebuntuan memori selama proses inferensi. Namun, TurboQuant melalui kombinasi metode PolarQuant dan Johnson-Lindenstrauss yang Dikuantisasi (QJL), menyelesaikan kompresi dengan hampir “tidak ada biaya memori tambahan”, setara dengan menyelesaikan perhitungan yang sama atau bahkan lebih efisien dengan lebih sedikit sumber daya perangkat keras.
Pasar dengan cepat menafsirkan teknologi ini sebagai “kerusakan sisi permintaan”. Setelah berita dirilis, saham terkait memori dan penyimpanan mengalami penurunan serentak, termasuk SanDisk (SNDK) turun 3,5%, Micron Technology (MU) turun 3,4%, Western Digital (WDC) turun 1,63%; dalam rantai pasokan Asia, Samsung Electronics turun 4,71%, SK Hynix bahkan mengalami penurunan hingga 6,23%.
Logika di baliknya cukup langsung: jika kebutuhan memori AI model selama fase inferensi terkompresi beberapa kali, itu berarti kurva pertumbuhan permintaan pusat data untuk DRAM, HBM, bahkan penyimpanan NAND, mungkin mengalami penyesuaian struktural. Terutama dalam konteks industri AI yang secara bertahap beralih dari “berorientasi pelatihan” menjadi “berorientasi inferensi”, dampak marginal dari teknologi optimasi efisiensi akan diperbesar.
Namun, ada juga pandangan yang berpendapat bahwa TurboQuant lebih mungkin mengubah “efisiensi penggunaan sumber daya” daripada sekadar melemahkan permintaan. Dengan penurunan biaya dan pengurangan latensi, skenario aplikasi AI justru bisa semakin meluas, yang pada gilirannya akan mendorong pertumbuhan berkelanjutan pada permintaan komputasi total, membentuk struktur “penurunan permintaan per unit, peningkatan permintaan total”. Pabrik memori besar tahun ini sudah terjual habis, mungkin pasar perlu berpikir: seberapa besar batas pertumbuhan AI?