42 puntos por xguru 2026-02-11 | 3 comentarios | Compartir por WhatsApp
  • WebMCP es un estándar propuesto diseñado para que los sitios web expongan directamente herramientas estructuradas a los agentes de IA dentro del navegador
  • En lugar del scraping de pantalla o la inferencia del DOM, la web misma proporciona "qué se puede hacer en esta página" junto con sus entradas y salidas en forma de un contrato explícito
  • Mediante APIs declarativas e imperativas, admite desde tareas basadas en formularios HTML hasta interacciones complejas en JavaScript
  • Tiene una estructura de contrato donde el agente descubre (Discovery) las herramientas de la página, define entradas y salidas con JSON Schema y comparte el estado (State) actual de la página
  • Fue incluido como versión early preview en Chrome 146. Para probarlo anticipadamente, es necesario inscribirse en el Chrome built-in AI Early Preview Program
  • Mientras que MCP existente es un protocolo del lado del servidor, WebMCP se diferencia por ser un protocolo para agentes de IA del lado del cliente dentro del navegador

Borrador de la especificación: WebMCP Early Preview

Contexto de la aparición de WebMCP

  • En entornos web con agentes, la IA está asumiendo cada vez más tareas reales en nombre del usuario, como reservar, enviar, cambiar configuraciones y navegar
  • La web tradicional fue diseñada pensando en usuarios humanos, por lo que los agentes tenían que inferir el significado de los botones o la estructura de los formularios
  • Esto provocaba repetidamente errores de entrada, mapeos incorrectos de campos y fragilidad ante cambios en la UI
  • Para resolver estos problemas, WebMCP introduce un contrato explícito de interacción entre la web y los agentes
  • En vez de que el agente adivine el propósito de un botón o la estructura de un formulario, el sitio web publica explícitamente su propia interfaz
  • Este contrato se compone de tres elementos clave:
    • Discovery: el agente consulta de forma estandarizada las herramientas que admite la página (por ejemplo, checkout, filter_results)
    • JSON Schema: definición explícita de las entradas y salidas esperadas para reducir alucinaciones y malentendidos
    • State: comprensión compartida del contexto actual de la página, para que el agente identifique en tiempo real los recursos disponibles

Conceptos clave de WebMCP

  • Exposición de herramientas estructuradas

    • El sitio web declara las funciones que ofrece en forma de herramientas (tools)
    • Cada herramienta define claramente su nombre, descripción, esquema de entrada (JSON Schema) y resultado de ejecución
    • El agente puede saber con precisión “qué debe invocar” sin interpretar el DOM
  • Contratos en lugar de inferencia

    • En lugar de adivinar el significado de botones o analizar una UI de calendario, la web expone directamente sus intenciones y reglas
    • Como los formatos de entrada y salida están fijados, se reducen las alucinaciones y los fallos de funcionamiento
    • Aunque cambie la UI, si el contrato de la herramienta se mantiene, el comportamiento del agente también permanece estable

Dos modelos de API

  • API declarativa (Declarative API)

    • Convierte elementos HTML <form> en herramientas agregando solo atributos
    • Declara el significado de la herramienta con los atributos toolname y tooldescription
    • Los campos del formulario pasan a ser los parámetros de entrada de la herramienta
    • El navegador los transforma automáticamente a JSON Schema
    • Es adecuada para tareas simples y repetitivas, así como para UIs existentes basadas en formularios
  • API imperativa (Imperative API)

    • Permite registrar herramientas directamente con JavaScript
    • Ofrece APIs como registerTool, provideContext y unregisterTool
    • Es adecuada para lógica compleja, bifurcaciones condicionales, procesamiento asíncrono y comportamiento basado en estado
    • Tiene gran utilidad en SPA y aplicaciones web avanzadas

Cómo interactúan el navegador y el agente

  • Cuando el agente invoca una herramienta, el navegador enfoca e introduce datos automáticamente en la UI correspondiente
  • Se distingue si un formulario fue invocado por el agente mediante la marca agentInvoked
  • En caso de éxito o cancelación, se generan los eventos toolactivated y toolcancel
  • Se proporciona retroalimentación visual mediante las pseudo-clases CSS (:tool-form-active, :tool-submit-active)
  • Es posible integrar el flujo de uso humano y el del agente en un mismo modelo de estado de UI

Escenarios de uso representativos

  • Si un sitio de aerolínea ofrece la herramienta book_flight, el agente puede enviar directamente información estructurada de los pasajeros sin interpretar una UI de calendario
  • En portales médicos o legales, la herramienta submit_application permite transmitir claramente el significado de cada campo
  • En páginas de configuración para desarrolladores, exponer herramientas como run_diagnostics permite ejecutar automáticamente menús ocultos
  • Es especialmente efectivo en áreas que requieren entradas de alta confiabilidad, como soporte al cliente, comercio electrónico y servicios de viaje

Diferencias entre WebMCP y MCP

  • MCP (Model Context Protocol) es un protocolo del lado del servidor, que requiere desplegar un servidor separado
  • WebMCP funciona dentro del navegador y se integra directamente en aplicaciones web existentes
  • Permite ofrecer funciones del lado del cliente a los agentes sin necesidad de servidor
  • La diferencia clave es que se trata de un enfoque centrado en el frontend pensado para navegadores con agentes

Estado actual y limitaciones

  • Puede usarse en Chrome 146 o superior al activar una flag
  • No funciona en entornos headless y requiere un contexto de navegación visible
  • Aún no existe un mecanismo para descubrir automáticamente sitios que ofrezcan herramientas
  • La sincronización del estado de la UI queda bajo responsabilidad del desarrollador
  • Al estar en fase inicial de preview, existen posibilidades de cambios en la API y fricción de implementación

3 comentarios

 
crawler 2026-02-11

Si Chrome lo impulsa, seguramente llegará muy pronto a los demás navegadores.

 
parkindani 2026-02-11

Parece una especie de Swagger para agentes.