La eficiencia de inferencia de los modelos de código abierto GPT en Blackwell GPU ha mejorado significativamente en solo un mes: la capacidad de procesamiento de tokens por coste unitario ha aumentado un 33%. Este avance se debe a las optimizaciones del proyecto vLLM y al soporte de hardware de NVIDIA, lo que reduce directamente la barrera de coste para el despliegue de grandes modelos de lenguaje. Para la capa de aplicaciones Web3, esto significa que los costes de infraestructura de inferencia de IA continúan disminuyendo, lo que impulsará aún más la expansión de la viabilidad de las aplicaciones de IA en cadena y los contratos inteligentes.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • 2
  • Republicar
  • Compartir
Comentar
0/400
CrashHotlinevip
· 12-20 01:40
¿Mejorar un 33% en un mes? Estos chicos de vLLM son realmente duros, ¡el costo de la IA en la cadena está bajando en línea recta!
Ver originalesResponder0
GlueGuyvip
· 12-20 01:40
¡Vaya, una mejora del 33% en eficiencia en un mes? ¿Cuándo podrá este TPS ser tan impresionante?
Ver originalesResponder0
  • Anclado
Opera con criptomonedas en cualquier momento y lugar
qrCode
Escanee para descargar la aplicación Gate
Comunidad
Español
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)