Fara-7B: un modelo agéntico eficiente para uso de computadoras

(github.com/microsoft)

3 puntos por GN⁺ 2025-11-28 | 1 comentarios | Compartir por WhatsApp

Fara-7B es un modelo de lenguaje agéntico pequeño (SLM) ultraligero compuesto por 7 mil millones de parámetros, con una arquitectura de Computer Use Agent que realmente manipula un navegador web para realizar tareas
Predice directamente entradas de mouse y teclado para reconocer y manipular visualmente páginas web, interactuando de la misma forma que un humano sin necesidad de árboles de accesibilidad ni modelos de parsing adicionales
Puede ejecutarse en el dispositivo, reduciendo la latencia y fortaleciendo la protección de la privacidad, y completa tareas en un promedio de 16 pasos, mejorando la eficiencia frente a modelos de su categoría
Registró un rendimiento superior al de modelos de su categoría y modelos grandes en varios benchmarks como WebTailBench, destacándose especialmente en automatización web y tareas de múltiples pasos
Junto con el dataset WebTailBench publicado por Microsoft, ofrece un entorno para evaluación de agentes web y experimentos reproducibles, contribuyendo a la estandarización de la investigación sobre interacción web real

Resumen de Fara-7B

Es el primer modelo de lenguaje pequeño (SLM) agéntico dedicado al uso de computadoras de Microsoft, y alcanza rendimiento de vanguardia en la escala de 7 mil millones de parámetros
Basado en Qwen2.5-VL-7B, fue entrenado con datos sintéticos (145,000 trayectorias) usando el framework multiagente Magentic-One
Está compuesto por 7B parámetros, lo que permite ejecución local, menor latencia y mayor privacidad de los datos

Características principales

Usa manipulación visual para reconocer páginas web e imitar acciones reales de usuario como desplazarse, hacer clic y escribir
Utiliza las mismas modalidades de entrada que un humano, sin necesidad de un modelo de parsing adicional
Completa tareas en un promedio de 16 pasos, mejorando la eficiencia frente a modelos similares (promedio de 41 pasos)
La implementación en el dispositivo reduce la dependencia de la nube y refuerza la protección de datos personales

Funciones compatibles

Búsqueda web y resumen de resultados
Llenado de formularios y gestión de cuentas
Reserva de vuelos, boletos de cine y restaurantes
Compras en línea y comparación de precios
Exploración de ofertas laborales e información inmobiliaria

Comparación de rendimiento

Evaluado en 4 benchmarks: WebVoyager, Online-M2W, DeepShop y WebTailBench
Fara-7B registró tasas de éxito de WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
Superó tanto a un modelo de su categoría (UI-TARS-1.5-7B) como a un modelo grande (GLM-4.1V-9B)

Benchmark WebTailBench

Está compuesto por 609 tareas que incluyen 11 tipos de tareas web reales
Incluye tareas de un solo sitio (compras, vuelos, hoteles, etc.) y tareas de múltiples pasos (comparación de compras, tareas combinadas, etc.)
Fara-7B registró el mejor rendimiento entre los modelos de uso de computadoras en todas las categorías
- Ejemplo: hoteles 53.8%, vuelos 37.9%, compras 52.4%, comparación de compras 32.7%

Infraestructura de evaluación

Usa Playwright para reproducir un entorno de navegador real
La Abstract Web Agent Interface permite integrar distintos modelos
La clase Fara-Agent permite ejecutar y probar el modelo
Es una versión pública experimental, y se recomienda ejecutarla en un entorno sandbox y restringir el uso de datos sensibles

Instalación y ejecución

Instalar con pip install -e . o uv sync --all-extras
Es necesario instalar los navegadores de Playwright
Compatible con hosting en la nube mediante Azure Foundry o autoalojamiento en GPU mediante VLLM

Ejemplo de comando:

fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";

Reproducibilidad y entorno de evaluación

Incluye el framework webeval/ para reproducir evaluaciones de WebVoyager y OnlineMind2Web
La integración con BrowserBase permite una gestión estable de sesiones de navegador
Asegura consistencia en la evaluación con actualizaciones para tareas sensibles al tiempo, manejo de errores del entorno y límite de 100 pasos
Se eliminaron 48 tareas imposibles del dataset WebVoyager y se actualizaron 50 fechas futuras

Ejecución y análisis de la evaluación

Los scripts de evaluación se ejecutan desde el directorio webeval/scripts
Se puede elegir entre autoalojamiento con VLLM o endpoint de Azure Foundry
Los resultados se guardan en gpt_eval/, traj/, screenshot_X.png, etc.
Con Jupyter Notebook se pueden analizar puntajes promedio, causas de fallos y trayectorias interrumpidas

Planes futuros

Está prevista la publicación de un pipeline de validación para evaluación LLM-as-a-judge y de los datos oficiales de anotación humana de WebTailBench
Se busca mejorar la calidad de la evaluación en colaboración con BrowserBase

Información de cita

Para uso en investigación, se recomienda citar el artículo de Microsoft Research Fara: Fast and Accurate Web Agent (2025)

1 comentarios

GN⁺ 2025-11-28

Comentarios en Hacker News

Lo clave es que Microsoft hizo fine-tuning de Qwen2.5-VL-7B
Creo que ese es el verdadero punto de partida de esta discusión. Me pregunto si otras grandes empresas también han hecho fine-tuning de modelos externos de esta manera
Se siente como si solo le hubieran pegado una etiqueta de Microsoft a Qwen2.5-VL
Parece que ahora las empresas chinas están liderando
- Sí. Por ejemplo, Fara-7B responde bien sobre la batalla del Somme en la Primera Guerra Mundial, pero sobre la masacre de Tiananmén evade diciendo que no puede responder porque es un “tema político sensible”
El verdadero punto es que se publicó el nuevo benchmark para tareas web WebTailBench
Me pregunto por qué Microsoft sigue sacando solo modelos entrenados con datos sintéticos (synthetic data)
Quizá no pueden crear su propio LLM por el contrato con OpenAI. Meta es prácticamente la única en EE. UU. que publica grandes modelos open source, mientras que las empresas chinas siguen lanzando modelos totalmente abiertos
- No creo que haya restricciones contractuales. Más bien parece que no quieren desperdiciar recursos creando otro modelo fundacional (foundation model)
  Este modelo es para control de computadoras, así que los datos sintéticos encajan bien. Casi no existen datasets reales para esto.
  Las empresas chinas optan por el open source en gran parte para ganar confianza y diferenciarse en marketing
- Es muy probable que legal les haya dicho que lo hicieran así. Las grandes corporaciones, por naturaleza, tienen una estructura incapaz de innovar
- Modelos como Gemma, Phi, OLMO, Mistral y GPT-OSS también son bastante competitivos y corren bien incluso en hardware común
- Entrenar con datos sintéticos es mucho más eficiente. Los datos reales solo te dicen el siguiente token, pero los datos sintéticos te permiten conocer toda la distribución de probabilidad, así que el efecto de entrenamiento se multiplica
  Paper relacionado: https://arxiv.org/pdf/2504.14772v1
- Usar solo datos sintéticos es más seguro. Permite evitar problemas como contenido para adultos o roleplay
Parece que el modelo está limitado solo al uso del navegador. Por ejemplo, no puede controlar programas generales como KiCAD
Yo probé Qwen3-VL-30B con Playwright y me pareció bastante bueno para automatización en navegador. Aun así, las tareas repetitivas al final hay que capturarlas en código
Es interesante que este modelo sea más pequeño pero esté hecho para un propósito especializado
- Si quieres convertir este tipo de acciones CUA en scripts deterministas, vale la pena revisar la guía de caché de Stagehand
- Se puede si lo emulas con WASM dentro del navegador. Esto se debe más a restricciones del sandbox de seguridad que a una limitación del modelo
- Hay quien pide que compartan herramientas o código relacionado, si existe
- Al probarlo de verdad, resulta que solo funciona en un entorno de Playwright
Viendo la tabla, no entiendo bien la mayoría de los casos de uso. Solo me hace sentido algo como comparar compras
Me pregunto si de verdad la gente está tercerizando sus compras a la IA
- No tiene que ser solo para consumidores. Por ejemplo, sirve para automatizar sitios web de aseguradoras sin API
- Reunir productos por categoría y resumirlos sí parece una función bastante útil
- Me incomoda que la IA haga pagos o reservas por mí. Preferiría dejarle solo la investigación y exploración
- Yo sí le estoy dejando a la IA mis compras de vino
Este tipo de automatización ya era posible desde hace años. Ni siquiera hace falta GPU, y si cambia la interfaz, basta con ajustar el script
Parece que Microsoft simplemente está lanzando experimentos de IA por todos lados
- La clave es que puedes automatizar más de mil millones de sitios web sin tener que escribir scripts a mano
  El modelo recibe capturas de pantalla de la página y un objetivo, y genera los comandos de automatización para llegar a ese objetivo
Me pregunto si este tipo de modelo también podría servir para controlar entradas en videojuegos. Sería divertido ver a una IA jugando Kerbal Space Program
- Ya se han hecho experimentos así desde antes. Con kRPC, el modelo puede interactuar fácilmente con el juego
  Cuando lo intenté con Opus3, fue bastante gracioso ver cómo volaba la nave espacial mientras soltaba mensajes como “iniciando procedimiento de escape de emergencia”
- También vale la pena revisar SIMA-2 de DeepMind (no es un modelo local)
- AgentEvolver de Alibaba no es exclusivo para juegos, pero resulta interesante como sistema de agentes basado en el ciclo OODA
  Paper relacionado: https://arxiv.org/abs/2511.10395
  También vale la pena ver el post de feedback de Sung Kim
- Me da curiosidad ver qué pasaría si lo pones a jugar póker en línea
Parece que Microsoft hizo fine-tuning de Qwen-7B
- Para ser precisos, fue Qwen2.5-VL-7B. Esa diferencia importa bastante
- Ya se siente que el tablero está cambiando
Da risa pensar que hace falta un modelo de 7 mil millones de parámetros para automatizar clics en páginas web
No sé si llegamos a esto porque ya no sabemos escribir scripts o porque el stack de software se volvió demasiado complejo
- Hace poco vi un video llamado ‘My New Agent Coding Workflow’, donde le pedían por prompt al IDE algo tan simple como descargar un archivo
  Daba la impresión de que querían inflar el uso de tokens
- Esto no es un problema técnico sino un problema de cooperación social.
  Como las empresas no ofrecen APIs interoperables, al final es más fácil que un LLM trate la UI a la fuerza, por brute force, como lo haría un humano
- Hoy, la mitad del software y de la industria financiera está construida sobre barreras de entrada artificiales creadas por una complejidad excesiva

Fara-7B: un modelo agéntico eficiente para uso de computadoras

Resumen de Fara-7B

Características principales

Funciones compatibles

Comparación de rendimiento

Benchmark WebTailBench

Infraestructura de evaluación

Instalación y ejecución

Reproducibilidad y entorno de evaluación

Ejecución y análisis de la evaluación

Planes futuros

Información de cita

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News