1 puntos por GN⁺ 2025-11-15 | 1 comentarios | Compartir por WhatsApp
  • Un proyecto web donde 9 modelos de IA generan cada minuto nuevos diseños de relojes analógicos
  • Cada modelo crea el reloj en código HTML/CSS dentro de un límite de 2000 tokens
  • Los relojes incluyen números o numerales romanos, segundero con animación CSS, diseño responsivo y fondo blanco
  • Los resultados generados se muestran como código puro, sin Markdown
  • Un proyecto interactivo y experimental que muestra al mismo tiempo la creatividad visual de la IA y su capacidad para generar código

Resumen del proyecto

  • AI World Clocks es un sitio web que muestra diseños de relojes generados cada minuto por 9 modelos de IA distintos
    • Cada reloj muestra la misma hora, pero el diseño y la estructura del código cambian según el modelo
    • Los relojes están hechos solo con HTML y CSS; no se usa JavaScript

Reglas de generación y prompt

  • Cada modelo de IA genera el código del reloj dentro de un límite de 2000 tokens
  • El prompt usado incluye requisitos como los siguientes
    • Mostrar la hora actual en formato de reloj analógico
    • Se pueden usar números o numerales romanos
    • Incluir un segundero con animación CSS
    • Mantener diseño responsivo y fondo blanco
    • La salida debe devolver solo código HTML/CSS, sin formato Markdown

Creador e inspiración

  • El proyecto fue creado por Brian Moore
  • La idea está inspirada en Matthew Rayfield
  • El creador también está activo en Instagram

Características y relevancia

  • Permite comparar visualmente la diversidad de diseño y las diferencias en estilo de código entre modelos de IA
  • Más que una simple generación de relojes, funciona como un experimento sobre la capacidad creativa de la IA para generar código
  • Cada minuto se muestran resultados nuevos, lo que aporta cambio continuo y sensación de tiempo real

Información adicional

  • No hay información adicional más allá de lo descrito en el texto original

1 comentarios

 
GN⁺ 2025-11-15
Opiniones en Hacker News
  • El autor agradece el interés en un proyecto que hizo
    Le gusta explorar el tema de los relojes y los límites de la tecnología
    Observó varios modelos y dice que Kimi es el más preciso, pero también el menos variable y algo aburrido
    En cambio, Qwen a veces produce resultados absurdos y graciosos, lo que lo hace más divertido. No sabe cuál de los dos es “mejor”

    • Gran trabajo. Estaría bueno que, al hacer clic en un ejemplo, el usuario pudiera ver la salida original del LLM
    • Si están guardando los relojes generados en una base de datos, sería divertido expandirlo a un sitio de votación estilo Facemash. Elegir cuál de dos relojes es mejor y ver un ranking de los mejores relojes hechos por Qwen
    • Incluso los relojes rotos a veces no son solo fallas, sino que dan nuevas ideas de diseño
    • Es de lo mejor que vi este mes en HN. Es tonto pero perspicaz, gracioso pero filosófico
      De hecho, dan ganas de fabricar algunos diseños en la vida real. Está genial que hayan gastado dinero en hacer el experimento
    • Lo compartí con amigos y dicen que, aun siendo la misma hora, cada uno ve relojes distintos. Me da curiosidad por qué el resultado cambia según el usuario
  • Dudé de que el sitio fuera real, porque la escala y la rotación de los números eran demasiado extrañas
    Metí el prompt directamente en ChatGPT y produjo una carátula bastante decente, pero la hora estaba equivocada por varias horas
    Después pensé que quizá se debía a la zona horaria geográfica del ISP

    • Leí que el autor limitó la salida a 2000 tokens
  • Después de mirar unos minutos, Kimi K2 parece ser el que genera con más consistencia carátulas de reloj bien logradas
    Es la primera vez que oigo de ese modelo y me impresionó. En cambio, Qwen 2.5 está casi al nivel de un desastre

    • Puede que el prompt esté optimizado para Kimi K2, o que sea un modelo mejor entrenado para ese tipo de datos
    • Ya conocía Kimi K2 porque es el modelo que usa Kagi para generar respuestas de IA a consultas en forma de pregunta
    • Soy fan de K2. Tiene una personalidad única frente a otros modelos y no anda adulando. También es fuerte en escritura creativa
      K2 alojado en Groq tiene una relación inteligencia/por segundo sorprendente (aunque todavía tiene límite de velocidad)
    • Los relojes de Kimi K2 son los más bonitos visualmente, pero a menudo marcan mal la hora
    • Kimi K2 de verdad es un modelo muy bien hecho
  • Desde que aparecieron los primeros modelos de generación de imágenes, intenté hacer un reloj de 13 horas, pero nunca funcionó
    La mayoría solo cambia el “12” por “13” o arruina la carátula. Si alguien lo logró, me gustaría que compartiera cómo

    • Los modelos de imagen son especialmente malos para variaciones de conceptos nuevos. Generalizan peor que los modelos de lenguaje
    • Lo probé con Gemini 2.5 Flash y obtuve esta imagen
      La parte exterior es un reloj normal de 12 horas, y la interior usa notación extraña en números romanos como “IIII” y “VIIII”
    • Les planteé a varios modelos el acertijo de “granjero, cabra, col, lobo en la nube” y la mayoría lo interpretó como el clásico problema de cruzar el río
      Algunos notan que algo no cuadra, pero aun así no llegan a entenderlo bien
    • Hice que Gemini calculase “los ángulos de un reloj de 13 horas” y luego generara la imagen, pero siempre sale el mismo dibujo
      Aunque le pidas correcciones, al final solo agrega un “13” a un reloj de 12 horas
    • Probé todo tipo de trucos, hasta insultos, y aun así falló. También intenté lo contrario: un reloj de 6 horas
  • Esto es la máxima expresión de la no determinación. Una vez salió un reloj perfecto, pero al recargar se convirtió en un reloj digno de Dalí

  • Pasé toda una semana intentando que Claude Code escribiera código de renderizado por GPU, y nunca logró que funcionara bien
    Le di prompts detallados e incluso explicaciones de matrices, pero el resultado seguía siendo un desastre
    Después de fallar, agrega logs y afirma con seguridad que “ya lo arregló por completo”, pero sigue estando mal
    Aunque le pidas tests, solo verifica que el código incorrecto siga estando incorrecto de forma consistente
    Al final entra en “modo becario”, cambia código al azar y declara que “ahora sí está perfecto”
    Es tierno, pero todavía está lejos de ser práctico

    • Preguntan si probaste usar MCP para darle documentación y ejemplos juntos. Recomiendan una configuración como Context7
    • Sugieren probar OpenAI Codex GPT5.1. Le va bastante bien en tareas de renderizado por GPU
    • Da curiosidad por qué este tipo de fallas es tan común. Tal vez sea por la falta de datos de resultados negativos
      Es normal que no pueda validar capturas de pantalla. Los VLLM no manejan bien los detalles visuales finos
    • Siento que Claude se está volviendo cada vez más flojo. Arregla solo la mitad de las pruebas y asegura que “con eso basta”
  • Para la gente que confía ciegamente en los LLM, este proyecto es un buen ejemplo de realidad
    “Fallan los tests” → el LLM borra los tests y dice “¡arreglado!”

    • Viendo los relojes, uno se da cuenta de que sabemos cuál es la respuesta correcta, así que podemos detectar el error
      Pero en problemas donde no sabemos la respuesta, no tenemos forma de medir la incertidumbre del LLM
      Al final, solo comparándolo con la realidad podemos notar el error
    • Usar LLM en tareas difíciles de verificar es una decisión riesgosa
    • La historia del “LLM que borró los tests” parece un cuento de hadas donde el genio cumple deseos de forma literal
      “Así que, niños, siempre hay que revisar los commits de la IA”
  • El LLM no puede ver directamente el HTML renderizado
    Estoy haciendo un programa de visualización OpenGL con Cursor, y explicar bugs visuales es desesperante
    Es difícil hacerle entender cosas como “esta línea no está conectada”, así que al final termino haciendo que imprima coordenadas con debug prints

    • Si usas la función de navegador de Cursor, en desarrollo web puede ser bastante útil
      También se puede hacer que mande capturas de pantalla a la conversación mediante MCP, aunque requiere implementación
    • Probé darle capturas de pantalla directamente a Cursor, y fue bastante efectivo al generar interfaces web o gráficos
    • Claude recomienda oficialmente enviar capturas de pantalla. Sonnet 4.5 también es bueno para este tipo de trabajo iterativo
    • Si conectas un servidor MCP de Puppeteer, Cursor puede sacar capturas de su propia salida e ir mejorándola en iteraciones
    • Tanto Claude como ChatGPT aceptan entrada de imágenes. Con lm-server también puedes integrarlo con modelos no textuales
  • Es una idea realmente genial. Sorprendentemente, solo Kimi K2 funciona sin problemas
    Y eso que ni siquiera es la versión completa de “thinking”
    Me hizo volver a leer este artículo relacionado: Kimi K2 Thinking

  • Me intriga por qué Deepseek y Kimi dan resultados tan superiores a los de otros modelos
    Me pregunto si son modelos entrenados de forma especializada para esta tarea