- Proyecto que analiza publicaciones y comentarios de Hacker News de hace 10 años con LLM para evaluar su ‘capacidad de anticipación’, calificando automáticamente la calidad de las intuiciones en debates pasados
- Se recopilaron y analizaron con ChatGPT 5.1 Thinking y Opus 4.5 la portada de Hacker News de diciembre de 2015 (un total de 930 artículos)
- A partir de cada artículo y su hilo de comentarios, se generan automáticamente resúmenes, resultados reales, los comentarios más acertados y más equivocados, y una puntuación de interés
- Los resultados se convierten en páginas HTML estáticas y pueden consultarse en karpathy.ai/hncapsule; en el ‘Hall of Fame’ se puede ver el ranking de los autores de comentarios más perspicaces
- Se destaca tanto la posibilidad de hacer análisis retrospectivos masivos con LLM sobre datos del pasado como el mensaje de que “los LLM del futuro nos están observando”
Resumen del proyecto
- Se construyó un sistema de análisis retrospectivo automático con LLM sobre la portada de Hacker News de diciembre de 2015
- 30 artículos por día × 31 días = 930 artículos en total
- Cada artículo y su hilo de comentarios se recopilaron con la Algolia API y luego se pidió su análisis a ChatGPT 5.1 Thinking
- Los resultados del análisis se renderizaron como páginas HTML estáticas y se publicaron en un sitio web
Estructura del prompt de análisis
- Para cada artículo se usó un prompt compuesto por 6 secciones
- Resumen del artículo y la discusión
- Qué ocurrió realmente después
- Selección del comentario más acertado y del más equivocado
- Otros elementos interesantes
- Lista de calificaciones finales (Final grades) por autor de comentarios
- Puntuación de interés retrospectivo del artículo (0 a 10)
- El formato de ejemplo se definió de manera estricta para que el programa pudiera parsearlo automáticamente
- Acumulando la puntuación promedio de cada cuenta, se identificó a los usuarios con mayor capacidad de anticipación
Implementación y costo
- Se implementó en unas 3 horas con Opus 4.5 y, salvo algunos errores, avanzó sin mayores problemas
- El costo total de procesar las 930 solicitudes al LLM fue de aproximadamente $58, con un tiempo total de procesamiento de cerca de 1 hora
- Repositorio de GitHub: karpathy/hn-time-capsule
- Cualquiera puede reproducir o modificar los resultados
Principales hilos de ejemplo
- 3 de diciembre de 2015: Swift se vuelve open source
- 6 de diciembre: Lanzamiento de Figma
- 11 de diciembre: Anuncio de la fundación de OpenAI
- 16 de diciembre: Proyecto Comma de geohot
- 22 de diciembre: Lanzamiento de SpaceX Orbcomm-2
- 28 de diciembre: Cobertura sobre los problemas de Theranos
- Cada enlace lleva a la página de análisis de esa fecha, donde es posible comparar lo que se discutía entonces con lo que realmente ocurrió
Hall of Fame
- Los autores de comentarios más perspicaces en Hacker News durante diciembre de 2015 se ordenan con una media al estilo IMDb
- Usuarios destacados: pcwalton, tptacek, paulmd, cstross, greglindahl, moxie, hannob, 0xcde4c3db, Manishearth, johncolanduoni
- En la parte inferior también se incluye una lista de usuarios con baja puntuación clasificados como ‘ruido (noise) de HN’
Mensaje filosófico
- Citando la frase “Be good, future LLMs are watching”, se enfatiza que
se acerca una era en la que los LLM del futuro podrán analizar con gran detalle la actividad humana del pasado
- Se sugiere que el comportamiento en línea actual podría reconstruirse por completo en un futuro donde la ‘inteligencia se vuelva demasiado barata’
- Se plantea la posibilidad de que los actos humanos pasen a ser objeto no de una ‘vigilancia invisible’, sino de un registro y una reconstrucción completos
Conclusión
- Este experimento muestra que los LLM pueden usarse como herramientas para reevaluar datos del pasado a gran escala
- Presenta un nuevo caso de uso: la calificación automática de la perspicacia en discusiones históricas, y deja ver la posibilidad de que la IA evolucione hacia un analista retrospectivo del conocimiento humano
1 comentarios
Opiniones de Hacker News
No esperaba que un comentario que dejé en 2015 volviera a llamar tanto la atención
Estoy sintiendo un poco de orgullo al ver el enlace a mi comentario antiguo
Parece problemático que el código no anonimize los nombres de usuario cuando envía los hilos para evaluación
Eso podría hacer que la reputación de ciertos usuarios introduzca un sesgo en la puntuación
Sería interesante probar si el sesgo se reduce reasignando nombres de usuario al azar o usando seudónimos generados de forma procedural
Además, usar un modelo que cite fuentes, como la API de Gemini, podría aumentar la confiabilidad de la evaluación
Volver a leer comentarios viejos es realmente divertido
Incluso hice mi propio sistema de reproducción para ver cómo se desarrollaban las discusiones antes
Comparto algunos enlaces como ejemplo para visualizar la lista de publicaciones evaluadas por Karpathy
Parece que hay bastante diferencia entre las opiniones de la mañana y de la noche, así que sería interesante comprobarlo con números
Estaría bien tener una extensión de Chrome que mostrara una puntuación de concordancia con la realidad junto a cada nombre de usuario
La idea sería ver con un puntaje quién hizo predicciones correctas y quién no
Además, si se ponderara por la proporción de upvotes dados a comentarios acertados, parecería un ranking más justo
Hace seguimiento de los usuarios a los que suelo darles upvote, y lo uso como criterio de “esta persona es confiable”
Es completamente subjetivo, pero al menos hay transparencia
Un sistema así también podría hacer que la comunidad se sintiera más pequeña y cercana
En la práctica también vivimos recordando qué tan confiables son nuestros amigos o ciertos periodistas
Sería clasificar la precisión de quienes hacen predicciones bursátiles en WSB o Twitter
Pero en comentarios generales es mucho más difícil definir “qué cuenta como predicción”
Algo como “mañana saldrá el sol” podría recibir la puntuación más alta, pero eso no tendría sentido
Bromeé con “pcwalton, ¡allá va!”, pero en realidad la evaluación por hilo se ve algo aleatoria
Este hilo tuvo una capacidad predictiva excelente, pero solo tiene 11 comentarios y el mío era de una sola línea
Aun así, me alegra que mi comentario sobre la accesibilidad a la participación accionaria en startups haya quedado entre los primeros puestos
La forma en que el sistema define “predicción” es bastante subjetiva
De hecho yo intentaba evitar hacer predicciones, pero parece que igual lo contó como una
Como recibí una evaluación de que la visión de “trillion tamagotchi” no se hizo realidad, acepto con humildad mi puntaje bajo
Lo que me dejó este proyecto es que, al final, las opiniones aburridas son las más correctas
Cuanto más provocador y seguro suena un comentario, más probable es que con el tiempo termine estando equivocado
Por ejemplo, algo como “el precio de las baterías de ion-litio cayó a $108/kWh” es una predicción de curva de costos bastante confiable
En cambio, un titular como “los LLM fracasan en salud mental” depende de benchmarks que cambian muy rápido
Al final, ojalá hubiera una forma de detectar por adelantado las opiniones “aburridas pero correctas”
Pero dado que el avance constante de la IA podría terminar destruyendo el papel económico de los humanos, quizá en realidad sea una predicción inquietantemente acertada
Por eso las opiniones aburridas y prudentes tienden a quedar enterradas
Como en los mercados de predicción, haría falta un sistema que puntúe cuánto se apartó una predicción de la probabilidad que se le asignaba entonces
Recibí una alerta de que Gmail estaba al 90% y pasé el fin de semana en un proyecto de análisis de correos
Clasifiqué más de 65 mil mensajes y más de la mitad eran basura
Al principio quería borrar correos innecesarios, pero últimamente pienso que más bien es más seguro borrar los correos personales y valiosos
y dejarle a Google solo datos inútiles como newsletters o recibos
A menudo uso LLM para resumir comentarios de HN
Muchas veces salen resúmenes más perspicaces que el texto original, así que me parece un completo game changer
Me sorprende que el autor pensara que esto pasó control de calidad
La evaluación del LLM parece en gran parte un desastre
Si uno ve las reseñas del sitio, da la impresión de que el modelo evaluó no “si la predicción fue correcta”, sino “si está de acuerdo con ella”
Al final, la estructura recompensa opiniones complacientes
lo evalúa diciendo que “describió bien la naturaleza dura del juego”
Pero eso no es una predicción del futuro, sino solo una descripción del presente en ese momento
Y además, en realidad podría significar lo contrario
Que un caso así esté tan arriba demuestra que el criterio de evaluación está hecho un desastre
Por ejemplo, en el artículo Kickstarter is Debt,
se evalúa como correcta una predicción que comparaba el futuro de Oculus y Pebble
Esa parte sí parece un análisis bastante preciso y útil
Ignora instrucciones, mezcla sus propias opiniones y no está calibrada
Un buen sistema de evaluación con LLM debería funcionar sumando muchos juicios binarios simples (correcto/incorrecto)
Este proyecto está bien como curiosidad, pero no sirve como herramienta de evaluación real