Calificar automáticamente con LLM una discusión de Hacker News de hace 10 años

(karpathy.bearblog.dev)

4 puntos por GN⁺ 2025-12-11 | 1 comentarios | Compartir por WhatsApp

Proyecto que analiza publicaciones y comentarios de Hacker News de hace 10 años con LLM para evaluar su ‘capacidad de anticipación’, calificando automáticamente la calidad de las intuiciones en debates pasados
Se recopilaron y analizaron con ChatGPT 5.1 Thinking y Opus 4.5 la portada de Hacker News de diciembre de 2015 (un total de 930 artículos)
A partir de cada artículo y su hilo de comentarios, se generan automáticamente resúmenes, resultados reales, los comentarios más acertados y más equivocados, y una puntuación de interés
Los resultados se convierten en páginas HTML estáticas y pueden consultarse en karpathy.ai/hncapsule; en el ‘Hall of Fame’ se puede ver el ranking de los autores de comentarios más perspicaces
Se destaca tanto la posibilidad de hacer análisis retrospectivos masivos con LLM sobre datos del pasado como el mensaje de que “los LLM del futuro nos están observando”

Resumen del proyecto

Se construyó un sistema de análisis retrospectivo automático con LLM sobre la portada de Hacker News de diciembre de 2015
- 30 artículos por día × 31 días = 930 artículos en total
- Cada artículo y su hilo de comentarios se recopilaron con la Algolia API y luego se pidió su análisis a ChatGPT 5.1 Thinking
Los resultados del análisis se renderizaron como páginas HTML estáticas y se publicaron en un sitio web
- Página de resultados: https://karpathy.ai/hncapsule/
- Los datos originales (data.zip) también están disponibles en la misma ruta

Estructura del prompt de análisis

Para cada artículo se usó un prompt compuesto por 6 secciones
1. Resumen del artículo y la discusión
2. Qué ocurrió realmente después
3. Selección del comentario más acertado y del más equivocado
4. Otros elementos interesantes
5. Lista de calificaciones finales (Final grades) por autor de comentarios
6. Puntuación de interés retrospectivo del artículo (0 a 10)
El formato de ejemplo se definió de manera estricta para que el programa pudiera parsearlo automáticamente
Acumulando la puntuación promedio de cada cuenta, se identificó a los usuarios con mayor capacidad de anticipación

Implementación y costo

Se implementó en unas 3 horas con Opus 4.5 y, salvo algunos errores, avanzó sin mayores problemas
El costo total de procesar las 930 solicitudes al LLM fue de aproximadamente $58, con un tiempo total de procesamiento de cerca de 1 hora
Repositorio de GitHub: karpathy/hn-time-capsule
- Cualquiera puede reproducir o modificar los resultados

Principales hilos de ejemplo

3 de diciembre de 2015: Swift se vuelve open source
6 de diciembre: Lanzamiento de Figma
11 de diciembre: Anuncio de la fundación de OpenAI
16 de diciembre: Proyecto Comma de geohot
22 de diciembre: Lanzamiento de SpaceX Orbcomm-2
28 de diciembre: Cobertura sobre los problemas de Theranos
Cada enlace lleva a la página de análisis de esa fecha, donde es posible comparar lo que se discutía entonces con lo que realmente ocurrió

Hall of Fame

Los autores de comentarios más perspicaces en Hacker News durante diciembre de 2015 se ordenan con una media al estilo IMDb
Usuarios destacados: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
En la parte inferior también se incluye una lista de usuarios con baja puntuación clasificados como ‘ruido (noise) de HN’

Mensaje filosófico

Citando la frase “Be good, future LLMs are watching”, se enfatiza que
se acerca una era en la que los LLM del futuro podrán analizar con gran detalle la actividad humana del pasado
Se sugiere que el comportamiento en línea actual podría reconstruirse por completo en un futuro donde la ‘inteligencia se vuelva demasiado barata’
Se plantea la posibilidad de que los actos humanos pasen a ser objeto no de una ‘vigilancia invisible’, sino de un registro y una reconstrucción completos

Conclusión

Este experimento muestra que los LLM pueden usarse como herramientas para reevaluar datos del pasado a gran escala
Presenta un nuevo caso de uso: la calificación automática de la perspicacia en discusiones históricas, y deja ver la posibilidad de que la IA evolucione hacia un analista retrospectivo del conocimiento humano

1 comentarios

GN⁺ 2025-12-11

Opiniones de Hacker News

No esperaba que un comentario que dejé en 2015 volviera a llamar tanto la atención
Estoy sintiendo un poco de orgullo al ver el enlace a mi comentario antiguo
Parece problemático que el código no anonimize los nombres de usuario cuando envía los hilos para evaluación
Eso podría hacer que la reputación de ciertos usuarios introduzca un sesgo en la puntuación
Sería interesante probar si el sesgo se reduce reasignando nombres de usuario al azar o usando seudónimos generados de forma procedural
Además, usar un modelo que cite fuentes, como la API de Gemini, podría aumentar la confiabilidad de la evaluación
Volver a leer comentarios viejos es realmente divertido
Incluso hice mi propio sistema de reproducción para ver cómo se desarrollaban las discusiones antes
Comparto algunos enlaces como ejemplo para visualizar la lista de publicaciones evaluadas por Karpathy
- Swift is Open Source
- Launch of Figma
- Introducing OpenAI
- Self-driving car by iPhone hacker
- SpaceX Orbcomm-2 Mission
- At Theranos, Many Strategies and Snags
- También me gustaría probar un análisis de sentimiento por franjas horarias a lo largo del día
  Parece que hay bastante diferencia entre las opiniones de la mañana y de la noche, así que sería interesante comprobarlo con números
- El sitio está realmente muy divertido. Gracias
Estaría bien tener una extensión de Chrome que mostrara una puntuación de concordancia con la realidad junto a cada nombre de usuario
La idea sería ver con un puntaje quién hizo predicciones correctas y quién no
Además, si se ponderara por la proporción de upvotes dados a comentarios acertados, parecería un ranking más justo
- Reddit Enhancement Suite ofrece algo parecido de forma indirecta
  Hace seguimiento de los usuarios a los que suelo darles upvote, y lo uso como criterio de “esta persona es confiable”
  Es completamente subjetivo, pero al menos hay transparencia
- Si se expandiera este sistema de puntajes, incluso podría existir una puntuación como “esta persona no tiene convicciones morales”
  Un sistema así también podría hacer que la comunidad se sintiera más pequeña y cercana
- Me hizo pensar en que, antes de que Elon comprara Twitter, quiso crear un sistema de seguimiento de credibilidad digital para periodistas (Pravda)
  En la práctica también vivimos recordando qué tan confiables son nuestros amigos o ciertos periodistas
- También había pensado en una idea parecida para comunidades de acciones
  Sería clasificar la precisión de quienes hacen predicciones bursátiles en WSB o Twitter
  Pero en comentarios generales es mucho más difícil definir “qué cuenta como predicción”
- La definición de “comentario acertado” no está clara
  Algo como “mañana saldrá el sol” podría recibir la puntuación más alta, pero eso no tendría sentido
Bromeé con “pcwalton, ¡allá va!”, pero en realidad la evaluación por hilo se ve algo aleatoria
Este hilo tuvo una capacidad predictiva excelente, pero solo tiene 11 comentarios y el mío era de una sola línea
Aun así, me alegra que mi comentario sobre la accesibilidad a la participación accionaria en startups haya quedado entre los primeros puestos
- Me sorprendió ver que habían evaluado mi comentario
  La forma en que el sistema define “predicción” es bastante subjetiva
  De hecho yo intentaba evitar hacer predicciones, pero parece que igual lo contó como una
Como recibí una evaluación de que la visión de “trillion tamagotchi” no se hizo realidad, acepto con humildad mi puntaje bajo
Lo que me dejó este proyecto es que, al final, las opiniones aburridas son las más correctas
Cuanto más provocador y seguro suena un comentario, más probable es que con el tiempo termine estando equivocado
Por ejemplo, algo como “el precio de las baterías de ion-litio cayó a $108/kWh” es una predicción de curva de costos bastante confiable
En cambio, un titular como “los LLM fracasan en salud mental” depende de benchmarks que cambian muy rápido
Al final, ojalá hubiera una forma de detectar por adelantado las opiniones “aburridas pero correctas”
- Una opinión dice que lo “aburrido pero correcto” ya es una predicción incorporada en el mundo, así que es difícil asignarle puntaje
- Con el chiste de “en 2035, 1+1=2” se satiriza lo inútiles que son las predicciones demasiado obvias
- “LLM y salud mental” no es una predicción, sino una noticia del presente
  Pero dado que el avance constante de la IA podría terminar destruyendo el papel económico de los humanos, quizá en realidad sea una predicción inquietantemente acertada
- Como los feeds algorítmicos funcionan en base al engagement, el contenido provocador recibe recompensa
  Por eso las opiniones aburridas y prudentes tienden a quedar enterradas
- Al evaluar predicciones, habría que ponderar la incertidumbre de ese momento
  Como en los mercados de predicción, haría falta un sistema que puntúe cuánto se apartó una predicción de la probabilidad que se le asignaba entonces
Recibí una alerta de que Gmail estaba al 90% y pasé el fin de semana en un proyecto de análisis de correos
Clasifiqué más de 65 mil mensajes y más de la mitad eran basura
Al principio quería borrar correos innecesarios, pero últimamente pienso que más bien es más seguro borrar los correos personales y valiosos
y dejarle a Google solo datos inútiles como newsletters o recibos
A menudo uso LLM para resumir comentarios de HN
Muchas veces salen resúmenes más perspicaces que el texto original, así que me parece un completo game changer
Me sorprende que el autor pensara que esto pasó control de calidad
La evaluación del LLM parece en gran parte un desastre
Si uno ve las reseñas del sitio, da la impresión de que el modelo evaluó no “si la predicción fue correcta”, sino “si está de acuerdo con ella”
Al final, la estructura recompensa opiniones complacientes
- Por ejemplo, un comentario de tptacek sobre DF recibió una ‘A’, y la reseña del LLM
  lo evalúa diciendo que “describió bien la naturaleza dura del juego”
  Pero eso no es una predicción del futuro, sino solo una descripción del presente en ese momento
  Y además, en realidad podría significar lo contrario
  Que un caso así esté tan arriba demuestra que el criterio de evaluación está hecho un desastre
- Pero en la tercera sección de cada reseña sí aparecen por separado los comentarios “más perspicaces” y los “más equivocados”
  Por ejemplo, en el artículo Kickstarter is Debt,
  se evalúa como correcta una predicción que comparaba el futuro de Oculus y Pebble
  Esa parte sí parece un análisis bastante preciso y útil
- La evaluación del LLM es en general imprecisa e inconsistente
  Ignora instrucciones, mezcla sus propias opiniones y no está calibrada
  Un buen sistema de evaluación con LLM debería funcionar sumando muchos juicios binarios simples (correcto/incorrecto)
  Este proyecto está bien como curiosidad, pero no sirve como herramienta de evaluación real

Calificar automáticamente con LLM una discusión de Hacker News de hace 10 años

Resumen del proyecto

Estructura del prompt de análisis

Implementación y costo

Principales hilos de ejemplo

Hall of Fame

Mensaje filosófico

Conclusión

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News