La eficiencia de inferencia de los modelos de código abierto GPT en Blackwell GPU ha mejorado significativamente en solo un mes: la capacidad de procesamiento de tokens por coste unitario ha aumentado un 33%. Este avance se debe a las optimizaciones del proyecto vLLM y al soporte de hardware de NVIDIA, lo que reduce directamente la barrera de coste para el despliegue de grandes modelos de lenguaje. Para la capa de aplicaciones Web3, esto significa que los costes de infraestructura de inferencia de IA continúan disminuyendo, lo que impulsará aún más la expansión de la viabilidad de las aplicaciones de IA en cadena y los contratos inteligentes.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
7 me gusta
Recompensa
7
2
Republicar
Compartir
Comentar
0/400
CrashHotline
· 12-20 01:40
¿Mejorar un 33% en un mes? Estos chicos de vLLM son realmente duros, ¡el costo de la IA en la cadena está bajando en línea recta!
Ver originalesResponder0
GlueGuy
· 12-20 01:40
¡Vaya, una mejora del 33% en eficiencia en un mes? ¿Cuándo podrá este TPS ser tan impresionante?
La eficiencia de inferencia de los modelos de código abierto GPT en Blackwell GPU ha mejorado significativamente en solo un mes: la capacidad de procesamiento de tokens por coste unitario ha aumentado un 33%. Este avance se debe a las optimizaciones del proyecto vLLM y al soporte de hardware de NVIDIA, lo que reduce directamente la barrera de coste para el despliegue de grandes modelos de lenguaje. Para la capa de aplicaciones Web3, esto significa que los costes de infraestructura de inferencia de IA continúan disminuyendo, lo que impulsará aún más la expansión de la viabilidad de las aplicaciones de IA en cadena y los contratos inteligentes.