Google lanza TurboQuant, que reduce el uso de memoria del modelo en 6 veces y acelera la inferencia en 8 veces, lo que provoca la caída de las acciones de memoria y un debate sobre el cambio en la estructura de la demanda.
Google ha lanzado el algoritmo TurboQuant, que reduce el uso de memoria de modelos de lenguaje grande al menos 6 veces, al mismo tiempo que aumenta la velocidad de cálculo de inferencia hasta en 8 veces sin sacrificar la precisión del modelo. El mercado rápidamente interpreta esta tecnología como una “destrucción del lado de la demanda”, con una lógica bastante directa: si la demanda de memoria durante la fase de inferencia de un modelo de IA se comprime varias veces, significa que la curva de crecimiento de la demanda de los centros de datos para DRAM, HBM e incluso almacenamiento NAND podría experimentar una revisión estructural a la baja.
Después del anuncio, las acciones relacionadas con la memoria y el almacenamiento cayeron simultáneamente, con SanDisk (SNDK) cayendo un 3.5%, Micron Technology (MU) un 3.4%, y Western Digital (WDC) un 1.63%; en la cadena de suministro asiática, Samsung Electronics cayó un 4.71% y SK Hynix tuvo una caída aún mayor del 6.23%. También hay puntos de vista que sostienen que TurboQuant podría cambiar más la “eficiencia en el uso de recursos” en lugar de simplemente debilitar la demanda.
Según el equipo de investigación de Google, TurboQuant es un algoritmo de cuantización diseñado para modelos de lenguaje grande y sistemas de búsqueda de vectores, centrado en comprimir drásticamente el “key-value cache” y las estructuras de datos de vectores de alta dimensión que consumen más recursos en los modelos de IA. En pruebas, esta tecnología puede reducir el uso de memoria al menos 6 veces, al mismo tiempo que aumenta la velocidad de cálculo de inferencia hasta en un 8% sin sacrificar la precisión del modelo.
Este avance impacta directamente el cuello de botella crítico en la infraestructura de IA actual. La expansión de la IA generativa en la capa de cálculo depende en gran medida de memorias de alta ancho de banda como HBM para soportar los pesos del modelo y un gran KV cache, evitando que el proceso de inferencia se quede sin memoria. Sin embargo, TurboQuant logra esta compresión con casi “cero costo adicional de memoria” al combinar métodos como PolarQuant y Quantized Johnson-Lindenstrauss (QJL), lo que equivale a realizar cálculos con menos recursos de hardware de manera igual o incluso más eficiente.
El mercado rápidamente interpreta esta tecnología como una “destrucción del lado de la demanda”. Después del anuncio, las acciones relacionadas con la memoria y el almacenamiento cayeron simultáneamente, con SanDisk (SNDK) cayendo un 3.5%, Micron Technology (MU) un 3.4%, y Western Digital (WDC) un 1.63%; en la cadena de suministro asiática, Samsung Electronics cayó un 4.71% y SK Hynix tuvo una caída aún mayor del 6.23%.
La lógica detrás es bastante directa: si la demanda de memoria de un modelo de IA se comprime varias veces durante la fase de inferencia, significa que la curva de crecimiento de la demanda de los centros de datos para DRAM, HBM e incluso almacenamiento NAND podría experimentar una revisión estructural a la baja. Especialmente en el contexto de que la industria de IA está pasando gradualmente de estar “orientada al entrenamiento” a “orientada a la inferencia”, el impacto marginal de las tecnologías de optimización de la eficiencia se amplificará.
Sin embargo, también hay puntos de vista que sostienen que TurboQuant podría cambiar más la “eficiencia en el uso de recursos” en lugar de simplemente debilitar la demanda. A medida que los costos disminuyan y las latencias se reduzcan, los escenarios de aplicación de IA podrían expandirse aún más, lo que a su vez podría impulsar un crecimiento continuo en la demanda total de capacidad de cálculo, formando una estructura de “disminución de la demanda por unidad, aumento de la demanda total”. Las capacidades de las grandes fábricas de memoria ya se han vendido este año, quizás el mercado debería preguntarse: ¿cuál es realmente el techo de crecimiento de la IA?