Presentación de WebMCP (Web Model Context Protocol)
(developer.chrome.com)- WebMCP es un estándar propuesto diseñado para que los sitios web expongan directamente herramientas estructuradas a los agentes de IA dentro del navegador
- En lugar del scraping de pantalla o la inferencia del DOM, la web misma proporciona "qué se puede hacer en esta página" junto con sus entradas y salidas en forma de un contrato explícito
- Mediante APIs declarativas e imperativas, admite desde tareas basadas en formularios HTML hasta interacciones complejas en JavaScript
- Tiene una estructura de contrato donde el agente descubre (Discovery) las herramientas de la página, define entradas y salidas con JSON Schema y comparte el estado (State) actual de la página
- Fue incluido como versión early preview en Chrome 146. Para probarlo anticipadamente, es necesario inscribirse en el Chrome built-in AI Early Preview Program
- Mientras que MCP existente es un protocolo del lado del servidor, WebMCP se diferencia por ser un protocolo para agentes de IA del lado del cliente dentro del navegador
Borrador de la especificación: WebMCP Early Preview
Contexto de la aparición de WebMCP
- En entornos web con agentes, la IA está asumiendo cada vez más tareas reales en nombre del usuario, como reservar, enviar, cambiar configuraciones y navegar
- La web tradicional fue diseñada pensando en usuarios humanos, por lo que los agentes tenían que inferir el significado de los botones o la estructura de los formularios
- Esto provocaba repetidamente errores de entrada, mapeos incorrectos de campos y fragilidad ante cambios en la UI
- Para resolver estos problemas, WebMCP introduce un contrato explícito de interacción entre la web y los agentes
- En vez de que el agente adivine el propósito de un botón o la estructura de un formulario, el sitio web publica explícitamente su propia interfaz
- Este contrato se compone de tres elementos clave:
- Discovery: el agente consulta de forma estandarizada las herramientas que admite la página (por ejemplo,
checkout,filter_results) - JSON Schema: definición explícita de las entradas y salidas esperadas para reducir alucinaciones y malentendidos
- State: comprensión compartida del contexto actual de la página, para que el agente identifique en tiempo real los recursos disponibles
- Discovery: el agente consulta de forma estandarizada las herramientas que admite la página (por ejemplo,
Conceptos clave de WebMCP
-
Exposición de herramientas estructuradas
- El sitio web declara las funciones que ofrece en forma de herramientas (tools)
- Cada herramienta define claramente su nombre, descripción, esquema de entrada (JSON Schema) y resultado de ejecución
- El agente puede saber con precisión “qué debe invocar” sin interpretar el DOM
-
Contratos en lugar de inferencia
- En lugar de adivinar el significado de botones o analizar una UI de calendario, la web expone directamente sus intenciones y reglas
- Como los formatos de entrada y salida están fijados, se reducen las alucinaciones y los fallos de funcionamiento
- Aunque cambie la UI, si el contrato de la herramienta se mantiene, el comportamiento del agente también permanece estable
Dos modelos de API
-
API declarativa (Declarative API)
- Convierte elementos HTML
<form>en herramientas agregando solo atributos - Declara el significado de la herramienta con los atributos
toolnameytooldescription - Los campos del formulario pasan a ser los parámetros de entrada de la herramienta
- El navegador los transforma automáticamente a JSON Schema
- Es adecuada para tareas simples y repetitivas, así como para UIs existentes basadas en formularios
- Convierte elementos HTML
-
API imperativa (Imperative API)
- Permite registrar herramientas directamente con JavaScript
- Ofrece APIs como
registerTool,provideContextyunregisterTool - Es adecuada para lógica compleja, bifurcaciones condicionales, procesamiento asíncrono y comportamiento basado en estado
- Tiene gran utilidad en SPA y aplicaciones web avanzadas
Cómo interactúan el navegador y el agente
- Cuando el agente invoca una herramienta, el navegador enfoca e introduce datos automáticamente en la UI correspondiente
- Se distingue si un formulario fue invocado por el agente mediante la marca
agentInvoked - En caso de éxito o cancelación, se generan los eventos
toolactivatedytoolcancel - Se proporciona retroalimentación visual mediante las pseudo-clases CSS (
:tool-form-active,:tool-submit-active) - Es posible integrar el flujo de uso humano y el del agente en un mismo modelo de estado de UI
Escenarios de uso representativos
- Si un sitio de aerolínea ofrece la herramienta
book_flight, el agente puede enviar directamente información estructurada de los pasajeros sin interpretar una UI de calendario - En portales médicos o legales, la herramienta
submit_applicationpermite transmitir claramente el significado de cada campo - En páginas de configuración para desarrolladores, exponer herramientas como
run_diagnosticspermite ejecutar automáticamente menús ocultos - Es especialmente efectivo en áreas que requieren entradas de alta confiabilidad, como soporte al cliente, comercio electrónico y servicios de viaje
Diferencias entre WebMCP y MCP
- MCP (Model Context Protocol) es un protocolo del lado del servidor, que requiere desplegar un servidor separado
- WebMCP funciona dentro del navegador y se integra directamente en aplicaciones web existentes
- Permite ofrecer funciones del lado del cliente a los agentes sin necesidad de servidor
- La diferencia clave es que se trata de un enfoque centrado en el frontend pensado para navegadores con agentes
Estado actual y limitaciones
- Puede usarse en Chrome 146 o superior al activar una flag
- No funciona en entornos headless y requiere un contexto de navegación visible
- Aún no existe un mecanismo para descubrir automáticamente sitios que ofrezcan herramientas
- La sincronización del estado de la UI queda bajo responsabilidad del desarrollador
- Al estar en fase inicial de preview, existen posibilidades de cambios en la API y fricción de implementación
3 comentarios
Después de que @firt hablara de esto en X, el tema se ha vuelto bastante comentado. Puse el enlace de Google.
Dicen que para automatizar sitios web, se puede lograr usando solo el 10% de los tokens en comparación con el análisis de capturas de pantalla/DOM.
Esto también coincide con la predicción de que el software que ahorra costos de tokens sobrevivirá por presión evolutiva.
Si Chrome lo impulsa, seguramente llegará muy pronto a los demás navegadores.
Parece una especie de Swagger para agentes.