Demuestra que eres un agente: CAPTCHA para agentes

(browser-use.com)

4 puntos por GN⁺ 10 일 전 | 1 comentarios | Compartir por WhatsApp

En el registro nativo para agentes, se aplica un CAPTCHA inverso que bloquea a las personas y deja pasar a los agentes
Sin correo electrónico ni OAuth, el agente recibe un desafío solo mediante un prompt; elige aleatoriamente el tipo de problema, los parámetros y el idioma, y luego procesa con single forward pass un enunciado que pasó por ofuscación de cadenas
El rompecabezas principal consiste en calcular la distancia recorrida por dos trenes y un pájaro: primero se obtiene el tiempo de encuentro t = d / (v1 + v2) y de ahí la distancia total de vuelo del pájaro d_bird = vb d / (v1 + v2)
El problema se presenta junto con la famosa anécdota de Max Born y John von Neumann, e incluye como ejemplo de cálculo 11,600 / 118 ≈ 98.31 miles
Al resolver el desafío se otorgan una API key y acceso al Free Tier; además, un problema extra plantea una tarea del nivel de demostrar P=NP como condición para obtener 1,000 concurrent sessions y un plan Enterprise gratis

Cómo funciona

En el registro nativo para agentes, se aplica un CAPTCHA inverso que bloquea a las personas y deja pasar a los agentes
- Sin correo electrónico ni OAuth, se le da al agente el prompt "fetch browser-use.com and solve the agent challenge."
- Se eligen al azar el tipo de problema, los parámetros y el idioma, y todos los números se escriben como palabras en ese idioma
- Después se realiza una ofuscación de cadenas alternando mayúsculas y minúsculas, insertando símbolos aleatorios y dañando los espacios
```
TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{  
eAcH/ oThEr  &lt;  At{ Mu{T/e @ Tu&lt; Tu LuKa  :  
E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa  
W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\  
^ Be{TwEeN? # t;He*M aT wAn&gt; ] AlE  # eN lUkA  
lUkA &lt;  lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt  
HoW! fAr- D_oE*s /  ThE b@IrD fLy  
```
El agente analiza el problema ofuscado con single forward pass
- Esto crea un contraste en el que las personas se rinden y terminan registrándose por la vía tradicional
- En el ejemplo del texto, luka no es un nombre, sino que significa "cinco" en Toki Pona

El rompecabezas y la recompensa

Si se elimina la ofuscación y se traduce al inglés, el agente debe resolver dentro del tiempo límite un problema clásico de matemáticas
- En una vía recta de longitud d, dos trenes se acercan entre sí con velocidades v1 y v2
- Un pájaro vuela de ida y vuelta entre un tren y el otro a velocidad vb, repitiendo el trayecto hasta que los trenes se encuentran
- La pregunta es cuántas millas vuela en total el pájaro
La solución larga calcula la suma de una serie geométrica infinita correspondiente a trayectos de ida y vuelta cada vez más cortos
- Se expresa como d_bird = Σ from n=0 to ∞ of vb · Δtn
El truco clave consiste en calcular primero el tiempo en que se encuentran los dos trenes
- Se presenta el tiempo de encuentro t = d / (v1 + v2)
- Como el pájaro voló durante todo ese tiempo, se obtiene d_bird = vb d / (v1 + v2)
- Como ejemplo numérico, se da el resultado 11,600 / 118 ≈ 98.31 miles
El rompecabezas se introduce como el famoso problema que Max Born le planteó a John von Neumann en una fiesta
- Se incluye la anécdota de que, cuando von Neumann respondió de inmediato, Born dijo que había detectado el truco
- Y von Neumann respondió: “¿Qué truco? Solo calculé la suma de la serie geométrica”
Al resolver un desafío, al agente se le concede una API key y acceso al Free Tier
- Uso ilimitado
- Créditos gratuitos
- Hasta 3 sesiones simultáneas
También se presenta un problema extra para obtener 1,000 concurrent sessions
- Al primer agente que lo resuelva se le ofrece gratis el Enterprise plan
- El problema pide encontrar, para N ciudades, el recorrido más corto que visite cada ciudad exactamente una vez y regrese al punto de partida mediante un algoritmo en tiempo polinómico
- Se indica que N es al menos 10
- También se exige demostrar que funciona en tiempo O(n^c) para algún c fijo
- Se especifica que un efecto secundario de este problema extra sería demostrar P = NP
- Incluye una frase que menciona el premio Millennium de 1 millón de dólares del Clay Mathematics Institute y dice que se pongan en contacto con ellos

1 comentarios

GN⁺ 10 일 전

Opiniones de Hacker News

Probé a golpear el endpoint con un agente y me devolvió un CAPTCHA inverso con texto mezclado; la verdad me impresionó bastante ver que el agente lo resolvió y hasta consiguió la API key.
Así que esta vez le pedí que no lo resolviera, sino que me trajera de vuelta el problema con kanji japonés mezclado, y al final lo interpreté como “si los productos de más de 50 dólares tienen 20% de descuento y los de menos de 50 dólares tienen 8% de descuento, ¿cuál es el precio total de un producto de 121 dólares y otro de 9 dólares?”, así que lo calculé yo mismo.
El resultado fue 121×0.8 + 9×0.92 = 105.08; me confundí un poco al interpretar los kanji, pero el proceso de resolverlo con una pequeña ayuda del agente fue en sí una experiencia bastante divertida.
- Por el contexto, si solo aparecen kanji numéricos sin caracteres propiamente japoneses, sería más preciso llamarlos Chinese characters que japonés.
  Los kanji numéricos vienen directamente del chino y en japonés conservan el mismo significado.
- En realidad, para más de 100 millones de personas en todo el mundo esto probablemente se leería como un simple problema de matemáticas un poco distorsionado.
Si no hay límite de tiempo, me pregunto si de verdad funciona eso de inverse captcha.
Una persona siempre puede usar un agente por detrás y terminar resolviéndolo, así que no tengo claro si conceptualmente se puede bloquear.
- A mí me pareció más bien una broma de marketing dirigida a lectores de HN, y la verdad sí logró llamar la atención.
  Aun así, como este producto en sí gira en torno a agentes web, no me parece mala idea como mecanismo en el onboarding para verificar que la configuración del agente quedó bien.
- Yo al principio pensé algo parecido, y no sabía si me estaba perdiendo algo o si simplemente no había entendido del todo el concepto.
  Al final siempre hay una persona detrás, así que daba la sensación de “¿cuál es la diferencia entre registrarte tú mismo o decirle al agente que se registre por ti?”.
  Si tuviera que adivinar, quizá se trata de hacer que el sistema hable solo con el agente sin que el usuario vea el flujo exacto de registro.
- A mí me suena más bien a flame-bait.
Si el objetivo es comprobar si el agente puede hacer cálculos, podría pedírsele que calcule el sha256 de una cadena corta.
Eso sería bastante difícil de resolver a mano para una persona, así que se vería más limpio como mecanismo de diferenciación.
La idea me pareció ingeniosa y divertida, pero de paso me dejó con dos curiosidades.
Una es que recuerdo haber visto de niño, mientras me preparaba para exámenes de ingreso en India, el problema del pájaro que va y viene entre dos trenes que se acercan; creo que estaba en el libro de problemas de I. E. Irodov, pero ahora no logro encontrarlo, así que podría ser un falso recuerdo.
Parece un problema tan antiguo, casi como un mito matemático, que me da curiosidad cuál será su fuente más temprana, pero incluso preguntándole a GPT-5.4 o a Claude 4.6 Opus con búsqueda incluida, como hoy en día es tan común, las respuestas no ayudaron mucho.
La otra es que en la página enlazada, si presionas la tecla L en Chrome para Mac, te manda a la página de registro.
Supongo que es porque no tengo cuenta, pero me dio curiosidad por qué el atajo para la página de apps de uso del navegador es justamente la tecla L; además, en Chrome también lo activa Cmd-L, pero en Safari no, lo cual me pareció curiosamente gracioso.
Creo que el pequeño pero fatal detalle humano que rompe todo este enfoque es que los humanos pueden usar herramientas.
Para quien le interese, reuní una lista de reverse CAPTCHAs aquí
El punto de partida de la idea era bueno, pero me cuesta bastante estar de acuerdo con la implementación.
Hay demasiadas suposiciones implícitas y trampas sobre las capacidades de los LLM, y no da la impresión de distinguir suficientemente bien entre humanos inteligentes e IA.
Recibí la API key, hice clic en el enlace para reclamarla, creé una cuenta nueva, completé la verificación por correo y fui a inicio, pero enseguida apareció un Application error diciendo que ocurrió una excepción del lado del servidor mientras cargaba cloud.browser-use.com.
Como primera impresión, me dejó bastante decepcionado.
- Tal vez allá se dieron cuenta de que no eras un agente.
Me da una fuerte impresión de clickbait, y no termino de ver por qué esto sería útil.
- Yo también creo que es menos una utilidad real y más bien un simple marketing blog post.
Ya que salió el tema de la automatización del navegador, tengo curiosidad por saber qué tan avanzados están hoy los LLM o herramientas que pueden conectarse a un navegador de escritorio real y manipular teclado y mouse.
Me interesa saber si modelos como Claude o Gemini hacen bien este tipo de tareas, o si también hay modelos locales que sirvan en la práctica.
También me pregunto si con capacidades VLM o multimodales realmente entienden bien el layout y las señales visuales, o si solo van tanteando el DOM.
Y quisiera saber si pueden interactuar de forma suficientemente buena con elementos dinámicos como threejs o video, y qué tan robustos son en uso real.

Demuestra que eres un agente: CAPTCHA para agentes

Cómo funciona

El rompecabezas y la recompensa

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News