4 puntos por GN⁺ 2025-12-11 | 1 comentarios | Compartir por WhatsApp
  • Proyecto que analiza publicaciones y comentarios de Hacker News de hace 10 años con LLM para evaluar su ‘capacidad de anticipación’, calificando automáticamente la calidad de las intuiciones en debates pasados
  • Se recopilaron y analizaron con ChatGPT 5.1 Thinking y Opus 4.5 la portada de Hacker News de diciembre de 2015 (un total de 930 artículos)
  • A partir de cada artículo y su hilo de comentarios, se generan automáticamente resúmenes, resultados reales, los comentarios más acertados y más equivocados, y una puntuación de interés
  • Los resultados se convierten en páginas HTML estáticas y pueden consultarse en karpathy.ai/hncapsule; en el ‘Hall of Fame’ se puede ver el ranking de los autores de comentarios más perspicaces
  • Se destaca tanto la posibilidad de hacer análisis retrospectivos masivos con LLM sobre datos del pasado como el mensaje de que “los LLM del futuro nos están observando”

Resumen del proyecto

  • Se construyó un sistema de análisis retrospectivo automático con LLM sobre la portada de Hacker News de diciembre de 2015
    • 30 artículos por día × 31 días = 930 artículos en total
    • Cada artículo y su hilo de comentarios se recopilaron con la Algolia API y luego se pidió su análisis a ChatGPT 5.1 Thinking
  • Los resultados del análisis se renderizaron como páginas HTML estáticas y se publicaron en un sitio web

Estructura del prompt de análisis

  • Para cada artículo se usó un prompt compuesto por 6 secciones
    1. Resumen del artículo y la discusión
    2. Qué ocurrió realmente después
    3. Selección del comentario más acertado y del más equivocado
    4. Otros elementos interesantes
    5. Lista de calificaciones finales (Final grades) por autor de comentarios
    6. Puntuación de interés retrospectivo del artículo (0 a 10)
  • El formato de ejemplo se definió de manera estricta para que el programa pudiera parsearlo automáticamente
  • Acumulando la puntuación promedio de cada cuenta, se identificó a los usuarios con mayor capacidad de anticipación

Implementación y costo

  • Se implementó en unas 3 horas con Opus 4.5 y, salvo algunos errores, avanzó sin mayores problemas
  • El costo total de procesar las 930 solicitudes al LLM fue de aproximadamente $58, con un tiempo total de procesamiento de cerca de 1 hora
  • Repositorio de GitHub: karpathy/hn-time-capsule
    • Cualquiera puede reproducir o modificar los resultados

Principales hilos de ejemplo

  • 3 de diciembre de 2015: Swift se vuelve open source
  • 6 de diciembre: Lanzamiento de Figma
  • 11 de diciembre: Anuncio de la fundación de OpenAI
  • 16 de diciembre: Proyecto Comma de geohot
  • 22 de diciembre: Lanzamiento de SpaceX Orbcomm-2
  • 28 de diciembre: Cobertura sobre los problemas de Theranos
  • Cada enlace lleva a la página de análisis de esa fecha, donde es posible comparar lo que se discutía entonces con lo que realmente ocurrió

Hall of Fame

  • Los autores de comentarios más perspicaces en Hacker News durante diciembre de 2015 se ordenan con una media al estilo IMDb
  • Usuarios destacados: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
  • En la parte inferior también se incluye una lista de usuarios con baja puntuación clasificados como ‘ruido (noise) de HN’

Mensaje filosófico

  • Citando la frase “Be good, future LLMs are watching”, se enfatiza que
    se acerca una era en la que los LLM del futuro podrán analizar con gran detalle la actividad humana del pasado
  • Se sugiere que el comportamiento en línea actual podría reconstruirse por completo en un futuro donde la ‘inteligencia se vuelva demasiado barata’
  • Se plantea la posibilidad de que los actos humanos pasen a ser objeto no de una ‘vigilancia invisible’, sino de un registro y una reconstrucción completos

Conclusión

  • Este experimento muestra que los LLM pueden usarse como herramientas para reevaluar datos del pasado a gran escala
  • Presenta un nuevo caso de uso: la calificación automática de la perspicacia en discusiones históricas, y deja ver la posibilidad de que la IA evolucione hacia un analista retrospectivo del conocimiento humano

1 comentarios

 
GN⁺ 2025-12-11
Opiniones de Hacker News
  • No esperaba que un comentario que dejé en 2015 volviera a llamar tanto la atención
    Estoy sintiendo un poco de orgullo al ver el enlace a mi comentario antiguo

  • Parece problemático que el código no anonimize los nombres de usuario cuando envía los hilos para evaluación
    Eso podría hacer que la reputación de ciertos usuarios introduzca un sesgo en la puntuación
    Sería interesante probar si el sesgo se reduce reasignando nombres de usuario al azar o usando seudónimos generados de forma procedural
    Además, usar un modelo que cite fuentes, como la API de Gemini, podría aumentar la confiabilidad de la evaluación

  • Volver a leer comentarios viejos es realmente divertido
    Incluso hice mi propio sistema de reproducción para ver cómo se desarrollaban las discusiones antes
    Comparto algunos enlaces como ejemplo para visualizar la lista de publicaciones evaluadas por Karpathy

  • Estaría bien tener una extensión de Chrome que mostrara una puntuación de concordancia con la realidad junto a cada nombre de usuario
    La idea sería ver con un puntaje quién hizo predicciones correctas y quién no
    Además, si se ponderara por la proporción de upvotes dados a comentarios acertados, parecería un ranking más justo

    • Reddit Enhancement Suite ofrece algo parecido de forma indirecta
      Hace seguimiento de los usuarios a los que suelo darles upvote, y lo uso como criterio de “esta persona es confiable”
      Es completamente subjetivo, pero al menos hay transparencia
    • Si se expandiera este sistema de puntajes, incluso podría existir una puntuación como “esta persona no tiene convicciones morales
      Un sistema así también podría hacer que la comunidad se sintiera más pequeña y cercana
    • Me hizo pensar en que, antes de que Elon comprara Twitter, quiso crear un sistema de seguimiento de credibilidad digital para periodistas (Pravda)
      En la práctica también vivimos recordando qué tan confiables son nuestros amigos o ciertos periodistas
    • También había pensado en una idea parecida para comunidades de acciones
      Sería clasificar la precisión de quienes hacen predicciones bursátiles en WSB o Twitter
      Pero en comentarios generales es mucho más difícil definir “qué cuenta como predicción”
    • La definición de “comentario acertado” no está clara
      Algo como “mañana saldrá el sol” podría recibir la puntuación más alta, pero eso no tendría sentido
  • Bromeé con “pcwalton, ¡allá va!”, pero en realidad la evaluación por hilo se ve algo aleatoria
    Este hilo tuvo una capacidad predictiva excelente, pero solo tiene 11 comentarios y el mío era de una sola línea
    Aun así, me alegra que mi comentario sobre la accesibilidad a la participación accionaria en startups haya quedado entre los primeros puestos

    • Me sorprendió ver que habían evaluado mi comentario
      La forma en que el sistema define “predicción” es bastante subjetiva
      De hecho yo intentaba evitar hacer predicciones, pero parece que igual lo contó como una
  • Como recibí una evaluación de que la visión de “trillion tamagotchi” no se hizo realidad, acepto con humildad mi puntaje bajo

  • Lo que me dejó este proyecto es que, al final, las opiniones aburridas son las más correctas
    Cuanto más provocador y seguro suena un comentario, más probable es que con el tiempo termine estando equivocado
    Por ejemplo, algo como “el precio de las baterías de ion-litio cayó a $108/kWh” es una predicción de curva de costos bastante confiable
    En cambio, un titular como “los LLM fracasan en salud mental” depende de benchmarks que cambian muy rápido
    Al final, ojalá hubiera una forma de detectar por adelantado las opiniones “aburridas pero correctas”

    • Una opinión dice que lo “aburrido pero correcto” ya es una predicción incorporada en el mundo, así que es difícil asignarle puntaje
    • Con el chiste de “en 2035, 1+1=2” se satiriza lo inútiles que son las predicciones demasiado obvias
    • “LLM y salud mental” no es una predicción, sino una noticia del presente
      Pero dado que el avance constante de la IA podría terminar destruyendo el papel económico de los humanos, quizá en realidad sea una predicción inquietantemente acertada
    • Como los feeds algorítmicos funcionan en base al engagement, el contenido provocador recibe recompensa
      Por eso las opiniones aburridas y prudentes tienden a quedar enterradas
    • Al evaluar predicciones, habría que ponderar la incertidumbre de ese momento
      Como en los mercados de predicción, haría falta un sistema que puntúe cuánto se apartó una predicción de la probabilidad que se le asignaba entonces
  • Recibí una alerta de que Gmail estaba al 90% y pasé el fin de semana en un proyecto de análisis de correos
    Clasifiqué más de 65 mil mensajes y más de la mitad eran basura
    Al principio quería borrar correos innecesarios, pero últimamente pienso que más bien es más seguro borrar los correos personales y valiosos
    y dejarle a Google solo datos inútiles como newsletters o recibos

  • A menudo uso LLM para resumir comentarios de HN
    Muchas veces salen resúmenes más perspicaces que el texto original, así que me parece un completo game changer

  • Me sorprende que el autor pensara que esto pasó control de calidad
    La evaluación del LLM parece en gran parte un desastre
    Si uno ve las reseñas del sitio, da la impresión de que el modelo evaluó no “si la predicción fue correcta”, sino “si está de acuerdo con ella”
    Al final, la estructura recompensa opiniones complacientes

    • Por ejemplo, un comentario de tptacek sobre DF recibió una ‘A’, y la reseña del LLM
      lo evalúa diciendo que “describió bien la naturaleza dura del juego”
      Pero eso no es una predicción del futuro, sino solo una descripción del presente en ese momento
      Y además, en realidad podría significar lo contrario
      Que un caso así esté tan arriba demuestra que el criterio de evaluación está hecho un desastre
    • Pero en la tercera sección de cada reseña sí aparecen por separado los comentarios “más perspicaces” y los “más equivocados”
      Por ejemplo, en el artículo Kickstarter is Debt,
      se evalúa como correcta una predicción que comparaba el futuro de Oculus y Pebble
      Esa parte sí parece un análisis bastante preciso y útil
    • La evaluación del LLM es en general imprecisa e inconsistente
      Ignora instrucciones, mezcla sus propias opiniones y no está calibrada
      Un buen sistema de evaluación con LLM debería funcionar sumando muchos juicios binarios simples (correcto/incorrecto)
      Este proyecto está bien como curiosidad, pero no sirve como herramienta de evaluación real