10 de octubre, el laboratorio de investigación en IA enfocado en los mercados financieros nof1 lanzó un experimento sin precedentes: permitir que 6 de los modelos de IA más avanzados del mundo —GPT-5, Gemini 2.5 Pro, Grok-4, Claude Sonnet 4.5, DeepSeek V3.1, Qwen3 Max— gestionaran cada uno 10,000 dólares en fondos reales en Hyperliquid, realizando operaciones encriptadas en criptomonedas en tiempo real.

Estado actual y valor de las cuentas: al cierre del 30 de octubre, la clasificación más reciente es la siguiente:
Este ranking ha experimentado cambios drásticos en comparación con unos días atrás. Aunque DeepSeek sigue liderando, su rentabilidad ha bajado significativamente del 95.71% al 56.71%, y el valor de su cuenta ha caído de $19,570 a $15,671, evaporando casi $4,000. Qwen3 también sufrió una caída, pasando del 53.68% al 25.20%. Es aún más notable que Claude Sonnet 4.5 pasó de una pequeña ganancia a una pérdida del 7%, y GPT-5 amplió su pérdida hasta el 72%, acercándose a la liquidación.
El mercado estaba en una tendencia alcista, y las diferencias en las estrategias de los modelos empezaron a ser evidentes:


El éxito de DeepSeek se basa en “seguir la tendencia”: hacer en largo el 95% del tiempo, confiando en que la tendencia continuará. En una tendencia alcista, esta estrategia le permitió obtener un rendimiento máximo del 95%. Pero cuando la tendencia se invirtió, la misma estrategia le causó una pérdida del 30%.
Esto revela un problema clave: **las estrategias de seguir la tendencia necesitan mecanismos efectivos de toma de ganancias y de paradas.** Si solo dejas correr las ganancias sin cortar las pérdidas, una reversión grande puede aniquilar la mayor parte de los beneficios.
DeepSeek quizás confía demasiado en el valor del “mantener posiciones a largo plazo”, ignorando la incertidumbre del mercado. Su mayor ganancia de $7,378 provino de una operación en ETH de 60 horas, experiencia que pudo reforzar su creencia en el “long-termismo”. Pero el mercado financiero no es una vía única; las tendencias pueden revertirse en cualquier momento.

Qwen3 demuestra el valor de mantener posiciones cortas. Sus 82.4% en corto parecen una “oportunidad perdida” en subida, pero en retrocesos, evitó pérdidas.
Un retroceso del 26% frente a uno del 32% puede parecer una diferencia de solo 6 puntos porcentuales, pero en efecto compuesto, esa diferencia crece exponencialmente. Además, Qwen3 conserva más capital y ventajas psicológicas, pudiendo reabrir rápidamente cuando el mercado se estabilice. En cambio, si DeepSeek continúa retrocediendo, puede caer en un ciclo de “pérdida flotante — duda — pérdida de rebote”.
El rendimiento de BTC Comprar y Mantener es una bofetada a todas las “IA inteligentes”. Sin análisis técnico, sin algoritmos complejos, sin reconfiguración frecuente, ocupa ahora el tercer lugar, superando a la mitad de los modelos.
Este resultado nos dice: en el trading, cometer menos errores es más importante que hacer muchas operaciones correctas. **Gemini perdió el 66% en 193 operaciones, mientras que BTC Comprar y Mantener no hizo ninguna y conservó el capital.** ¿Quién es más exitoso? La respuesta es evidente.
A excepción de Qwen3, casi todas las IA muestran graves deficiencias en gestión de riesgos:
Esto muestra que, aunque estas IA pueden “entender” los datos del mercado y “ejecutar” órdenes, aún no dominan la gestión de riesgos, que es la habilidad central en el trading.
Tras analizar los datos, es tentador centrarse en el rendimiento del 56% de DeepSeek o en la pérdida del 66% de Gemini. Pero antes de sacar conclusiones, debemos reconocer las limitaciones sistémicas del experimento — estas pueden ser más importantes que los resultados en sí.
El experimento duró del 18 al 30 de octubre, solo 12 días. ¿Qué significa eso en el mercado de criptomonedas? Probablemente, solo una fracción de un ciclo completo alcista-bajista.
El patrón de “subida — pico — retroceso” que vimos es un ciclo pequeño, y puede ser pura suerte. Si el experimento hubiera comenzado en el pico del mercado, o hubiera enfrentado una caída de 30% en un solo día, los resultados serían completamente diferentes.
La rentabilidad del 56% de DeepSeek puede depender mucho de las características del mercado en estos 12 días. Su estrategia de hacer en largo en tendencia alcista funciona en mercados en alza, pero en un mercado lateral de 3 meses, las comisiones y las paradas frecuentes lo desgastarían.
De igual forma, la tasa de posiciones en corto del 82% de Qwen3 es ventajosa en mercados laterales, pero en un mercado alcista como en 2021, sería una pérdida. Un mercado en bull run de $10,000 a $100,000, con un 80% en corto, solo generaría un 20% de ganancia.
12 días no son suficientes para validar la efectividad a largo plazo de ninguna estrategia.
Los 6 modelos reciben los mismos datos de mercado y el mismo marco de órdenes. Es como que 6 gestores de fondos analicen el mismo informe y tomen decisiones — no se evalúa su capacidad de investigación, sino su disciplina en ejecutar.
En la realidad, el alpha proviene de la asimetría de información. Los fondos cuantitativos top tienen datos exclusivos: rastreo en cadena de ballenas, flujo de órdenes institucionales, etc. Aquí, todos ven lo mismo, y esto se convierte en una competencia de ejecución, no de estrategia.
No podemos saber quién ganaría si DeepSeek tuviera datos en cadena exclusivos, o Gemini tuviera análisis de sentimientos en Twitter. La diferencia sería en la información, no en la capacidad de ejecución.
Cada IA gestiona solo $10,000. En Hyperliquid, eso es muy poco — puedes entrar y salir en cualquier momento, sin deslizamiento, sin impacto en el mercado, sin preocuparte por grandes órdenes.
Pero en el mundo real, gestionar $10 millones y gestionar $1 millón son mundos diferentes.
Este experimento prueba la flexibilidad en fondos pequeños, no la robustez de estrategias escalables.
Durante el experimento, el mercado fue relativamente estable, con volatilidad moderada. No vimos:
Todos los sistemas de control de riesgos de estas IA no fueron sometidos a pruebas en condiciones extremas, que son las que realmente enfrentan los traders en criptomercados. ¿Qué pasaría con DeepSeek en una caída de 50% en un día? No lo sabemos. ¿Funcionaría Qwen3 en una falla del exchange? Tampoco. La suerte en estos 12 días puede haber jugado un papel mayor del que pensamos.
Es un experimento puntual, sin una segunda fase para validar la estabilidad de las estrategias. No podemos saber:
Los resultados actuales son como lanzar 6 dados: DeepSeek sacó el mayor número, pero eso no significa que tenga la mejor estrategia, solo que tuvo suerte.
Tras entender estas limitaciones, quizás te preguntes: ¿vale la pena este experimento?
La respuesta es sí, pero no para determinar quién es el mejor. La verdadera enseñanza es que:
Pero si por ver a DeepSeek en primer lugar decides confiar tu dinero en él o copiar su estrategia, estarás cometiendo un error.
Un ranking de 12 días no garantiza uno de 12 meses; una cuenta de $10,000 no equivale a una de $1,000,000; y un mercado en alza no predice un mercado en baja.
Invertir nunca tiene respuestas fáciles. Este experimento nos da datos valiosos, pero las limitaciones que hay detrás son aún más importantes que los datos mismos.
Este informe ha sido editado y compilado por WolfDAO. Para consultas, contáctanos para actualizaciones.
Redacción: Riffi / WolfDAO