- Fara-7B es un modelo de lenguaje agéntico pequeño (SLM) ultraligero compuesto por 7 mil millones de parámetros, con una arquitectura de Computer Use Agent que realmente manipula un navegador web para realizar tareas
- Predice directamente entradas de mouse y teclado para reconocer y manipular visualmente páginas web, interactuando de la misma forma que un humano sin necesidad de árboles de accesibilidad ni modelos de parsing adicionales
- Puede ejecutarse en el dispositivo, reduciendo la latencia y fortaleciendo la protección de la privacidad, y completa tareas en un promedio de 16 pasos, mejorando la eficiencia frente a modelos de su categoría
- Registró un rendimiento superior al de modelos de su categoría y modelos grandes en varios benchmarks como WebTailBench, destacándose especialmente en automatización web y tareas de múltiples pasos
- Junto con el dataset WebTailBench publicado por Microsoft, ofrece un entorno para evaluación de agentes web y experimentos reproducibles, contribuyendo a la estandarización de la investigación sobre interacción web real
Resumen de Fara-7B
- Es el primer modelo de lenguaje pequeño (SLM) agéntico dedicado al uso de computadoras de Microsoft, y alcanza rendimiento de vanguardia en la escala de 7 mil millones de parámetros
- Basado en Qwen2.5-VL-7B, fue entrenado con datos sintéticos (145,000 trayectorias) usando el framework multiagente Magentic-One
- Está compuesto por 7B parámetros, lo que permite ejecución local, menor latencia y mayor privacidad de los datos
Características principales
- Usa manipulación visual para reconocer páginas web e imitar acciones reales de usuario como desplazarse, hacer clic y escribir
- Utiliza las mismas modalidades de entrada que un humano, sin necesidad de un modelo de parsing adicional
- Completa tareas en un promedio de 16 pasos, mejorando la eficiencia frente a modelos similares (promedio de 41 pasos)
- La implementación en el dispositivo reduce la dependencia de la nube y refuerza la protección de datos personales
Funciones compatibles
- Búsqueda web y resumen de resultados
- Llenado de formularios y gestión de cuentas
- Reserva de vuelos, boletos de cine y restaurantes
- Compras en línea y comparación de precios
- Exploración de ofertas laborales e información inmobiliaria
Comparación de rendimiento
- Evaluado en 4 benchmarks: WebVoyager, Online-M2W, DeepShop y WebTailBench
- Fara-7B registró tasas de éxito de WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
- Superó tanto a un modelo de su categoría (UI-TARS-1.5-7B) como a un modelo grande (GLM-4.1V-9B)
Benchmark WebTailBench
- Está compuesto por 609 tareas que incluyen 11 tipos de tareas web reales
- Incluye tareas de un solo sitio (compras, vuelos, hoteles, etc.) y tareas de múltiples pasos (comparación de compras, tareas combinadas, etc.)
- Fara-7B registró el mejor rendimiento entre los modelos de uso de computadoras en todas las categorías
- Ejemplo: hoteles 53.8%, vuelos 37.9%, compras 52.4%, comparación de compras 32.7%
Infraestructura de evaluación
- Usa Playwright para reproducir un entorno de navegador real
- La Abstract Web Agent Interface permite integrar distintos modelos
- La clase Fara-Agent permite ejecutar y probar el modelo
- Es una versión pública experimental, y se recomienda ejecutarla en un entorno sandbox y restringir el uso de datos sensibles
Instalación y ejecución
Reproducibilidad y entorno de evaluación
- Incluye el framework
webeval/ para reproducir evaluaciones de WebVoyager y OnlineMind2Web
- La integración con BrowserBase permite una gestión estable de sesiones de navegador
- Asegura consistencia en la evaluación con actualizaciones para tareas sensibles al tiempo, manejo de errores del entorno y límite de 100 pasos
- Se eliminaron 48 tareas imposibles del dataset WebVoyager y se actualizaron 50 fechas futuras
Ejecución y análisis de la evaluación
- Los scripts de evaluación se ejecutan desde el directorio
webeval/scripts
- Se puede elegir entre autoalojamiento con VLLM o endpoint de Azure Foundry
- Los resultados se guardan en
gpt_eval/, traj/, screenshot_X.png, etc.
- Con Jupyter Notebook se pueden analizar puntajes promedio, causas de fallos y trayectorias interrumpidas
Planes futuros
- Está prevista la publicación de un pipeline de validación para evaluación LLM-as-a-judge y de los datos oficiales de anotación humana de WebTailBench
- Se busca mejorar la calidad de la evaluación en colaboración con BrowserBase
Información de cita
- Para uso en investigación, se recomienda citar el artículo de Microsoft Research Fara: Fast and Accurate Web Agent (2025)
1 comentarios
Comentarios en Hacker News
Creo que ese es el verdadero punto de partida de esta discusión. Me pregunto si otras grandes empresas también han hecho fine-tuning de modelos externos de esta manera
Parece que ahora las empresas chinas están liderando
Quizá no pueden crear su propio LLM por el contrato con OpenAI. Meta es prácticamente la única en EE. UU. que publica grandes modelos open source, mientras que las empresas chinas siguen lanzando modelos totalmente abiertos
Este modelo es para control de computadoras, así que los datos sintéticos encajan bien. Casi no existen datasets reales para esto.
Las empresas chinas optan por el open source en gran parte para ganar confianza y diferenciarse en marketing
Paper relacionado: https://arxiv.org/pdf/2504.14772v1
Yo probé Qwen3-VL-30B con Playwright y me pareció bastante bueno para automatización en navegador. Aun así, las tareas repetitivas al final hay que capturarlas en código
Es interesante que este modelo sea más pequeño pero esté hecho para un propósito especializado
Me pregunto si de verdad la gente está tercerizando sus compras a la IA
Parece que Microsoft simplemente está lanzando experimentos de IA por todos lados
El modelo recibe capturas de pantalla de la página y un objetivo, y genera los comandos de automatización para llegar a ese objetivo
Cuando lo intenté con Opus3, fue bastante gracioso ver cómo volaba la nave espacial mientras soltaba mensajes como “iniciando procedimiento de escape de emergencia”
Paper relacionado: https://arxiv.org/abs/2511.10395
También vale la pena ver el post de feedback de Sung Kim
No sé si llegamos a esto porque ya no sabemos escribir scripts o porque el stack de software se volvió demasiado complejo
Daba la impresión de que querían inflar el uso de tokens
Como las empresas no ofrecen APIs interoperables, al final es más fácil que un LLM trate la UI a la fuerza, por brute force, como lo haría un humano