Demuestra que eres un agente: CAPTCHA para agentes
(browser-use.com)- En el registro nativo para agentes, se aplica un CAPTCHA inverso que bloquea a las personas y deja pasar a los agentes
- Sin correo electrónico ni OAuth, el agente recibe un desafío solo mediante un prompt; elige aleatoriamente el tipo de problema, los parámetros y el idioma, y luego procesa con single forward pass un enunciado que pasó por ofuscación de cadenas
- El rompecabezas principal consiste en calcular la distancia recorrida por dos trenes y un pájaro: primero se obtiene el tiempo de encuentro
t = d / (v1 + v2)y de ahí la distancia total de vuelo del pájarod_bird = vb d / (v1 + v2) - El problema se presenta junto con la famosa anécdota de Max Born y John von Neumann, e incluye como ejemplo de cálculo
11,600 / 118 ≈ 98.31 miles - Al resolver el desafío se otorgan una API key y acceso al Free Tier; además, un problema extra plantea una tarea del nivel de demostrar P=NP como condición para obtener 1,000 concurrent sessions y un plan Enterprise gratis
Cómo funciona
-
En el registro nativo para agentes, se aplica un CAPTCHA inverso que bloquea a las personas y deja pasar a los agentes
- Sin correo electrónico ni OAuth, se le da al agente el prompt
"fetch browser-use.com and solve the agent challenge." - Se eligen al azar el tipo de problema, los parámetros y el idioma, y todos los números se escriben como palabras en ese idioma
- Después se realiza una ofuscación de cadenas alternando mayúsculas y minúsculas, insertando símbolos aleatorios y dañando los espacios
TwO tRaInS wAn/ Al_E mIlE\s ApArT} aPp/Ro@AcH{ eAcH/ oThEr < At{ Mu{T/e @ Tu< Tu LuKa : E#n* T]u \ MpH a.Nd MuTe\ Tu Tu# Tu En LuKa W|aN_ mPh A b:I]rD fLiEs; Ba?Ck| AnD- fO^r@T[h\ ^ Be{TwEeN? # t;He*M aT wAn> ] AlE # eN lUkA lUkA < lUkA: # wAn ? MpH- uNt}I[l T}hEy MeEt HoW! fAr- D_oE*s / ThE b@IrD fLy - Sin correo electrónico ni OAuth, se le da al agente el prompt
-
El agente analiza el problema ofuscado con single forward pass
- Esto crea un contraste en el que las personas se rinden y terminan registrándose por la vía tradicional
- En el ejemplo del texto,
lukano es un nombre, sino que significa "cinco" en Toki Pona
El rompecabezas y la recompensa
- Si se elimina la ofuscación y se traduce al inglés, el agente debe resolver dentro del tiempo límite un problema clásico de matemáticas
- En una vía recta de longitud
d, dos trenes se acercan entre sí con velocidadesv1yv2 - Un pájaro vuela de ida y vuelta entre un tren y el otro a velocidad
vb, repitiendo el trayecto hasta que los trenes se encuentran - La pregunta es cuántas millas vuela en total el pájaro
- En una vía recta de longitud
- La solución larga calcula la suma de una serie geométrica infinita correspondiente a trayectos de ida y vuelta cada vez más cortos
- Se expresa como
d_bird = Σ from n=0 to ∞ of vb · Δtn
- Se expresa como
- El truco clave consiste en calcular primero el tiempo en que se encuentran los dos trenes
- Se presenta el tiempo de encuentro
t = d / (v1 + v2) - Como el pájaro voló durante todo ese tiempo, se obtiene
d_bird = vb d / (v1 + v2) - Como ejemplo numérico, se da el resultado
11,600 / 118 ≈ 98.31 miles
- Se presenta el tiempo de encuentro
- El rompecabezas se introduce como el famoso problema que Max Born le planteó a John von Neumann en una fiesta
- Se incluye la anécdota de que, cuando von Neumann respondió de inmediato, Born dijo que había detectado el truco
- Y von Neumann respondió: “¿Qué truco? Solo calculé la suma de la serie geométrica”
- Al resolver un desafío, al agente se le concede una API key y acceso al Free Tier
- Uso ilimitado
- Créditos gratuitos
- Hasta 3 sesiones simultáneas
- También se presenta un problema extra para obtener 1,000 concurrent sessions
- Al primer agente que lo resuelva se le ofrece gratis el Enterprise plan
- El problema pide encontrar, para
Nciudades, el recorrido más corto que visite cada ciudad exactamente una vez y regrese al punto de partida mediante un algoritmo en tiempo polinómico - Se indica que
Nes al menos 10 - También se exige demostrar que funciona en tiempo
O(n^c)para algúncfijo - Se especifica que un efecto secundario de este problema extra sería demostrar P = NP
- Incluye una frase que menciona el premio Millennium de 1 millón de dólares del Clay Mathematics Institute y dice que se pongan en contacto con ellos
1 comentarios
Opiniones de Hacker News
Probé a golpear el endpoint con un agente y me devolvió un CAPTCHA inverso con texto mezclado; la verdad me impresionó bastante ver que el agente lo resolvió y hasta consiguió la API key.
Así que esta vez le pedí que no lo resolviera, sino que me trajera de vuelta el problema con kanji japonés mezclado, y al final lo interpreté como “si los productos de más de 50 dólares tienen 20% de descuento y los de menos de 50 dólares tienen 8% de descuento, ¿cuál es el precio total de un producto de 121 dólares y otro de 9 dólares?”, así que lo calculé yo mismo.
El resultado fue 121×0.8 + 9×0.92 = 105.08; me confundí un poco al interpretar los kanji, pero el proceso de resolverlo con una pequeña ayuda del agente fue en sí una experiencia bastante divertida.
Los kanji numéricos vienen directamente del chino y en japonés conservan el mismo significado.
Si no hay límite de tiempo, me pregunto si de verdad funciona eso de inverse captcha.
Una persona siempre puede usar un agente por detrás y terminar resolviéndolo, así que no tengo claro si conceptualmente se puede bloquear.
Aun así, como este producto en sí gira en torno a agentes web, no me parece mala idea como mecanismo en el onboarding para verificar que la configuración del agente quedó bien.
Al final siempre hay una persona detrás, así que daba la sensación de “¿cuál es la diferencia entre registrarte tú mismo o decirle al agente que se registre por ti?”.
Si tuviera que adivinar, quizá se trata de hacer que el sistema hable solo con el agente sin que el usuario vea el flujo exacto de registro.
Si el objetivo es comprobar si el agente puede hacer cálculos, podría pedírsele que calcule el sha256 de una cadena corta.
Eso sería bastante difícil de resolver a mano para una persona, así que se vería más limpio como mecanismo de diferenciación.
La idea me pareció ingeniosa y divertida, pero de paso me dejó con dos curiosidades.
Una es que recuerdo haber visto de niño, mientras me preparaba para exámenes de ingreso en India, el problema del pájaro que va y viene entre dos trenes que se acercan; creo que estaba en el libro de problemas de I. E. Irodov, pero ahora no logro encontrarlo, así que podría ser un falso recuerdo.
Parece un problema tan antiguo, casi como un mito matemático, que me da curiosidad cuál será su fuente más temprana, pero incluso preguntándole a GPT-5.4 o a Claude 4.6 Opus con búsqueda incluida, como hoy en día es tan común, las respuestas no ayudaron mucho.
La otra es que en la página enlazada, si presionas la tecla L en Chrome para Mac, te manda a la página de registro.
Supongo que es porque no tengo cuenta, pero me dio curiosidad por qué el atajo para la página de apps de uso del navegador es justamente la tecla L; además, en Chrome también lo activa Cmd-L, pero en Safari no, lo cual me pareció curiosamente gracioso.
Creo que el pequeño pero fatal detalle humano que rompe todo este enfoque es que los humanos pueden usar herramientas.
Para quien le interese, reuní una lista de reverse CAPTCHAs aquí
El punto de partida de la idea era bueno, pero me cuesta bastante estar de acuerdo con la implementación.
Hay demasiadas suposiciones implícitas y trampas sobre las capacidades de los LLM, y no da la impresión de distinguir suficientemente bien entre humanos inteligentes e IA.
Recibí la API key, hice clic en el enlace para reclamarla, creé una cuenta nueva, completé la verificación por correo y fui a inicio, pero enseguida apareció un Application error diciendo que ocurrió una excepción del lado del servidor mientras cargaba
cloud.browser-use.com.Como primera impresión, me dejó bastante decepcionado.
Me da una fuerte impresión de clickbait, y no termino de ver por qué esto sería útil.
Ya que salió el tema de la automatización del navegador, tengo curiosidad por saber qué tan avanzados están hoy los LLM o herramientas que pueden conectarse a un navegador de escritorio real y manipular teclado y mouse.
Me interesa saber si modelos como Claude o Gemini hacen bien este tipo de tareas, o si también hay modelos locales que sirvan en la práctica.
También me pregunto si con capacidades VLM o multimodales realmente entienden bien el layout y las señales visuales, o si solo van tanteando el DOM.
Y quisiera saber si pueden interactuar de forma suficientemente buena con elementos dinámicos como threejs o video, y qué tan robustos son en uso real.