3 puntos por GN⁺ 2025-11-28 | 1 comentarios | Compartir por WhatsApp
  • Fara-7B es un modelo de lenguaje agéntico pequeño (SLM) ultraligero compuesto por 7 mil millones de parámetros, con una arquitectura de Computer Use Agent que realmente manipula un navegador web para realizar tareas
  • Predice directamente entradas de mouse y teclado para reconocer y manipular visualmente páginas web, interactuando de la misma forma que un humano sin necesidad de árboles de accesibilidad ni modelos de parsing adicionales
  • Puede ejecutarse en el dispositivo, reduciendo la latencia y fortaleciendo la protección de la privacidad, y completa tareas en un promedio de 16 pasos, mejorando la eficiencia frente a modelos de su categoría
  • Registró un rendimiento superior al de modelos de su categoría y modelos grandes en varios benchmarks como WebTailBench, destacándose especialmente en automatización web y tareas de múltiples pasos
  • Junto con el dataset WebTailBench publicado por Microsoft, ofrece un entorno para evaluación de agentes web y experimentos reproducibles, contribuyendo a la estandarización de la investigación sobre interacción web real

Resumen de Fara-7B

  • Es el primer modelo de lenguaje pequeño (SLM) agéntico dedicado al uso de computadoras de Microsoft, y alcanza rendimiento de vanguardia en la escala de 7 mil millones de parámetros
  • Basado en Qwen2.5-VL-7B, fue entrenado con datos sintéticos (145,000 trayectorias) usando el framework multiagente Magentic-One
  • Está compuesto por 7B parámetros, lo que permite ejecución local, menor latencia y mayor privacidad de los datos

Características principales

  • Usa manipulación visual para reconocer páginas web e imitar acciones reales de usuario como desplazarse, hacer clic y escribir
  • Utiliza las mismas modalidades de entrada que un humano, sin necesidad de un modelo de parsing adicional
  • Completa tareas en un promedio de 16 pasos, mejorando la eficiencia frente a modelos similares (promedio de 41 pasos)
  • La implementación en el dispositivo reduce la dependencia de la nube y refuerza la protección de datos personales

Funciones compatibles

  • Búsqueda web y resumen de resultados
  • Llenado de formularios y gestión de cuentas
  • Reserva de vuelos, boletos de cine y restaurantes
  • Compras en línea y comparación de precios
  • Exploración de ofertas laborales e información inmobiliaria

Comparación de rendimiento

  • Evaluado en 4 benchmarks: WebVoyager, Online-M2W, DeepShop y WebTailBench
  • Fara-7B registró tasas de éxito de WebVoyager 73.5%, Online-M2W 34.1%, DeepShop 26.2%, WebTailBench 38.4%
  • Superó tanto a un modelo de su categoría (UI-TARS-1.5-7B) como a un modelo grande (GLM-4.1V-9B)

Benchmark WebTailBench

  • Está compuesto por 609 tareas que incluyen 11 tipos de tareas web reales
  • Incluye tareas de un solo sitio (compras, vuelos, hoteles, etc.) y tareas de múltiples pasos (comparación de compras, tareas combinadas, etc.)
  • Fara-7B registró el mejor rendimiento entre los modelos de uso de computadoras en todas las categorías
    • Ejemplo: hoteles 53.8%, vuelos 37.9%, compras 52.4%, comparación de compras 32.7%

Infraestructura de evaluación

  • Usa Playwright para reproducir un entorno de navegador real
  • La Abstract Web Agent Interface permite integrar distintos modelos
  • La clase Fara-Agent permite ejecutar y probar el modelo
  • Es una versión pública experimental, y se recomienda ejecutarla en un entorno sandbox y restringir el uso de datos sensibles

Instalación y ejecución

  • Instalar con pip install -e . o uv sync --all-extras
  • Es necesario instalar los navegadores de Playwright
  • Compatible con hosting en la nube mediante Azure Foundry o autoalojamiento en GPU mediante VLLM
  • Ejemplo de comando:
    fara-cli --task "how many pages does wikipedia have" --start_page "https://www.bing.com";
    

Reproducibilidad y entorno de evaluación

  • Incluye el framework webeval/ para reproducir evaluaciones de WebVoyager y OnlineMind2Web
  • La integración con BrowserBase permite una gestión estable de sesiones de navegador
  • Asegura consistencia en la evaluación con actualizaciones para tareas sensibles al tiempo, manejo de errores del entorno y límite de 100 pasos
  • Se eliminaron 48 tareas imposibles del dataset WebVoyager y se actualizaron 50 fechas futuras

Ejecución y análisis de la evaluación

  • Los scripts de evaluación se ejecutan desde el directorio webeval/scripts
  • Se puede elegir entre autoalojamiento con VLLM o endpoint de Azure Foundry
  • Los resultados se guardan en gpt_eval/, traj/, screenshot_X.png, etc.
  • Con Jupyter Notebook se pueden analizar puntajes promedio, causas de fallos y trayectorias interrumpidas

Planes futuros

  • Está prevista la publicación de un pipeline de validación para evaluación LLM-as-a-judge y de los datos oficiales de anotación humana de WebTailBench
  • Se busca mejorar la calidad de la evaluación en colaboración con BrowserBase

Información de cita

  • Para uso en investigación, se recomienda citar el artículo de Microsoft Research Fara: Fast and Accurate Web Agent (2025)

1 comentarios

 
GN⁺ 2025-11-28
Comentarios en Hacker News
  • Lo clave es que Microsoft hizo fine-tuning de Qwen2.5-VL-7B
    Creo que ese es el verdadero punto de partida de esta discusión. Me pregunto si otras grandes empresas también han hecho fine-tuning de modelos externos de esta manera
  • Se siente como si solo le hubieran pegado una etiqueta de Microsoft a Qwen2.5-VL
    Parece que ahora las empresas chinas están liderando
    • Sí. Por ejemplo, Fara-7B responde bien sobre la batalla del Somme en la Primera Guerra Mundial, pero sobre la masacre de Tiananmén evade diciendo que no puede responder porque es un “tema político sensible”
  • El verdadero punto es que se publicó el nuevo benchmark para tareas web WebTailBench
  • Me pregunto por qué Microsoft sigue sacando solo modelos entrenados con datos sintéticos (synthetic data)
    Quizá no pueden crear su propio LLM por el contrato con OpenAI. Meta es prácticamente la única en EE. UU. que publica grandes modelos open source, mientras que las empresas chinas siguen lanzando modelos totalmente abiertos
    • No creo que haya restricciones contractuales. Más bien parece que no quieren desperdiciar recursos creando otro modelo fundacional (foundation model)
      Este modelo es para control de computadoras, así que los datos sintéticos encajan bien. Casi no existen datasets reales para esto.
      Las empresas chinas optan por el open source en gran parte para ganar confianza y diferenciarse en marketing
    • Es muy probable que legal les haya dicho que lo hicieran así. Las grandes corporaciones, por naturaleza, tienen una estructura incapaz de innovar
    • Modelos como Gemma, Phi, OLMO, Mistral y GPT-OSS también son bastante competitivos y corren bien incluso en hardware común
    • Entrenar con datos sintéticos es mucho más eficiente. Los datos reales solo te dicen el siguiente token, pero los datos sintéticos te permiten conocer toda la distribución de probabilidad, así que el efecto de entrenamiento se multiplica
      Paper relacionado: https://arxiv.org/pdf/2504.14772v1
    • Usar solo datos sintéticos es más seguro. Permite evitar problemas como contenido para adultos o roleplay
  • Parece que el modelo está limitado solo al uso del navegador. Por ejemplo, no puede controlar programas generales como KiCAD
    Yo probé Qwen3-VL-30B con Playwright y me pareció bastante bueno para automatización en navegador. Aun así, las tareas repetitivas al final hay que capturarlas en código
    Es interesante que este modelo sea más pequeño pero esté hecho para un propósito especializado
    • Si quieres convertir este tipo de acciones CUA en scripts deterministas, vale la pena revisar la guía de caché de Stagehand
    • Se puede si lo emulas con WASM dentro del navegador. Esto se debe más a restricciones del sandbox de seguridad que a una limitación del modelo
    • Hay quien pide que compartan herramientas o código relacionado, si existe
    • Al probarlo de verdad, resulta que solo funciona en un entorno de Playwright
  • Viendo la tabla, no entiendo bien la mayoría de los casos de uso. Solo me hace sentido algo como comparar compras
    Me pregunto si de verdad la gente está tercerizando sus compras a la IA
    • No tiene que ser solo para consumidores. Por ejemplo, sirve para automatizar sitios web de aseguradoras sin API
    • Reunir productos por categoría y resumirlos sí parece una función bastante útil
    • Me incomoda que la IA haga pagos o reservas por mí. Preferiría dejarle solo la investigación y exploración
    • Yo sí le estoy dejando a la IA mis compras de vino
  • Este tipo de automatización ya era posible desde hace años. Ni siquiera hace falta GPU, y si cambia la interfaz, basta con ajustar el script
    Parece que Microsoft simplemente está lanzando experimentos de IA por todos lados
    • La clave es que puedes automatizar más de mil millones de sitios web sin tener que escribir scripts a mano
      El modelo recibe capturas de pantalla de la página y un objetivo, y genera los comandos de automatización para llegar a ese objetivo
  • Me pregunto si este tipo de modelo también podría servir para controlar entradas en videojuegos. Sería divertido ver a una IA jugando Kerbal Space Program
    • Ya se han hecho experimentos así desde antes. Con kRPC, el modelo puede interactuar fácilmente con el juego
      Cuando lo intenté con Opus3, fue bastante gracioso ver cómo volaba la nave espacial mientras soltaba mensajes como “iniciando procedimiento de escape de emergencia”
    • También vale la pena revisar SIMA-2 de DeepMind (no es un modelo local)
    • AgentEvolver de Alibaba no es exclusivo para juegos, pero resulta interesante como sistema de agentes basado en el ciclo OODA
      Paper relacionado: https://arxiv.org/abs/2511.10395
      También vale la pena ver el post de feedback de Sung Kim
    • Me da curiosidad ver qué pasaría si lo pones a jugar póker en línea
  • Parece que Microsoft hizo fine-tuning de Qwen-7B
    • Para ser precisos, fue Qwen2.5-VL-7B. Esa diferencia importa bastante
    • Ya se siente que el tablero está cambiando
  • Da risa pensar que hace falta un modelo de 7 mil millones de parámetros para automatizar clics en páginas web
    No sé si llegamos a esto porque ya no sabemos escribir scripts o porque el stack de software se volvió demasiado complejo
    • Hace poco vi un video llamado ‘My New Agent Coding Workflow’, donde le pedían por prompt al IDE algo tan simple como descargar un archivo
      Daba la impresión de que querían inflar el uso de tokens
    • Esto no es un problema técnico sino un problema de cooperación social.
      Como las empresas no ofrecen APIs interoperables, al final es más fácil que un LLM trate la UI a la fuerza, por brute force, como lo haría un humano
    • Hoy, la mitad del software y de la industria financiera está construida sobre barreras de entrada artificiales creadas por una complejidad excesiva