AI2 lanza MolmoWeb, un agente web totalmente de código abierto: puede controlar páginas web solo con "visión"

robot
Generación de resúmenes en curso

El Instituto de Investigación en Inteligencia Artificial de Allen (AI2) ha lanzado recientemente MolmoWeb, un proxy web completamente de código abierto y revolucionario. A diferencia de los proxies tradicionales que dependen del código subyacente de las páginas web (DOM), MolmoWeb toma decisiones únicamente mediante la lectura de capturas de pantalla, marcando un avance significativo en la tecnología de navegación web “visualmente impulsada”.

Tecnología central: “Ver” las páginas web como los humanos

El funcionamiento de MolmoWeb es muy intuitivo: captura una captura de pantalla de la ventana del navegador en ese momento, analiza visualmente para decidir la siguiente acción (como hacer clic, desplazarse o pasar páginas), la ejecuta y repite el proceso. Este modo de “lo que ves es lo que obtienes” lo hace más robusto que los proxies tradicionales, ya que la disposición visual de una página suele ser más estable que su código subyacente, y su proceso de toma de decisiones es completamente transparente y explicable para los usuarios humanos.

Salto en rendimiento: modelos pequeños que superan a los gigantes

Aunque el tamaño de los parámetros de MolmoWeb es solo de 4B y 8B, en términos de rendimiento demuestra una capacidad de “pequeño pero poderoso”:

Líder en la clasificación: en la prueba WebVoyager, la versión de 8B alcanzó una puntuación de hasta 78.2%, no solo destacándose entre los modelos de código abierto, sino también acercándose al modelo propietario de OpenAI, o3 (79.3%).

Gran potencial: investigaciones muestran que, mediante múltiples ejecuciones de tareas y seleccionando los resultados óptimos, la tasa de éxito puede aumentar aún más, alcanzando un 94.7%.

Precisión en la localización: en la prueba de referencia para la localización de elementos UI, incluso supera a Claude3.7 de Anthropic.

Respaldo de datos: el conjunto de datos abierto más grande de la historia

AI2 no solo ha abierto los pesos del modelo, sino que también ha contribuido con un enorme conjunto de datos llamado MolmoWebMix. Este conjunto incluye:

  • 36,000 tareas de navegación reales realizadas por voluntarios humanos.

  • Más de 2.2 millones de capturas de pantalla y pares de preguntas y respuestas.

  • Datos sintéticos automatizados verificados por GPT-4o. Los experimentos demuestran que estos datos sintéticos, en la orientación de agentes inteligentes para buscar la “ruta óptima”, incluso superan las trayectorias humanas.

Espíritu de apertura y desafíos futuros

Actualmente, MolmoWeb está completamente abierto bajo la licencia Apache 2.0 en Hugging Face y GitHub. Aunque aún enfrenta desafíos en el manejo de instrucciones complejas, autenticación de inicio de sesión y cumplimiento legal (como los términos de servicio), AI2 está convencido de que solo mediante una transparencia total y la colaboración comunitaria se podrá contrarrestar verdaderamente el monopolio de datos de las grandes empresas tecnológicas.

Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
  • Recompensa
  • Comentar
  • Republicar
  • Compartir
Comentar
Añadir un comentario
Añadir un comentario
Sin comentarios
  • Anclado