La reseña anual de 2025 sobre LLM de Andrej Karpathy

(karpathy.bearblog.dev)

21 puntos por GN⁺ 2025-12-21 | 2 comentarios | Compartir por WhatsApp

2025 fue el año en que el aprendizaje por refuerzo a partir de recompensas verificables (RLVR) emergió como una nueva etapa central del entrenamiento de LLM, sumándose al pipeline tradicional de pretraining-SFT-RLHF
Los LLM desarrollan por sí solos estrategias de razonamiento en entornos verificables como matemáticas y acertijos de código, y adquieren formas de resolver problemas que para los humanos parecen “pensamiento”
Cursor define una nueva capa de apps LLM, mostrando una forma de hacer ingeniería de contexto y de orquestar llamadas complejas a LLM en verticales específicos
Claude Code aparece como el primer caso realmente convincente de un agente LLM que corre en la computadora local del usuario, proponiendo un nuevo paradigma de interacción con la IA
El vibe coding permite que incluso personas no especializadas creen programas usando solo inglés, anticipando la democratización del desarrollo de software y cambios en la definición del trabajo

1. El auge del aprendizaje por refuerzo a partir de recompensas verificables (RLVR)

Hasta inicios de 2025, el stack de producción de LLM tenía una estructura de tres etapas: pretraining, ajuste fino supervisado (SFT) y aprendizaje por refuerzo con retroalimentación humana (RLHF)
RLVR (Reinforcement Learning from Verifiable Rewards) se añadió como una nueva etapa principal, entrenando a los LLM con recompensas verificables automáticamente en tareas como matemáticas y acertijos de código
Los LLM adquirieron de forma espontánea comportamientos parecidos al “razonamiento”, descomponiendo por sí mismos los problemas en pasos intermedios de cálculo y desarrollando distintas estrategias de resolución
- Estas estrategias eran difíciles de lograr en el paradigma anterior porque no estaba claro cuál era la traza de razonamiento óptima
- El LLM tiene que descubrir por sí mismo la forma que mejor le funciona mediante la optimización de recompensas
A diferencia de SFT/RLHF, RLVR permite optimizaciones mucho más largas sobre funciones de recompensa objetivas y que no se pueden manipular fácilmente
Debido al alto capability/$ de RLVR, recursos de cómputo originalmente destinados al pretraining se reasignaron hacia RLVR
- Gran parte del avance en capacidades durante 2025 se definió por aplicar corridas de RL más largas a LLM de tamaño similar
Aparece una nueva perilla de ajuste (y nueva ley de escalamiento): el cómputo en tiempo de prueba, que permite regular capacidades generando trazas de razonamiento más largas y aumentando el “tiempo de pensamiento”
OpenAI o1 (a fines de 2024) fue la primera demostración de un modelo RLVR, y el lanzamiento de o3 (a inicios de 2025) fue el punto de inflexión donde la diferencia se volvió intuitivamente evidente

2. Fantasmas vs. animales / inteligencia irregular (Jagged Intelligence)

En 2025 empezamos a entender de forma más intuitiva la “forma” de la inteligencia de los LLM
Los LLM no son “hacer evolucionar o crecer a un animal”, sino “invocar un fantasma”
- La arquitectura neuronal, los datos de entrenamiento, los algoritmos de entrenamiento y las presiones de optimización son distintos, así que se generan entidades muy diferentes dentro del espacio de inteligencias
Las redes neuronales humanas están optimizadas para la supervivencia del grupo en la selva, mientras que las redes neuronales de los LLM están optimizadas para imitar el texto de la humanidad, recolectar recompensas en acertijos matemáticos y obtener upvotes en LM Arena
A medida que RLVR se volvió posible en dominios verificables, las capacidades de los LLM en esas áreas se dispararon, mostrando características de desempeño irregulares
- Al mismo tiempo pueden actuar como genios polímatas y como niños de primaria confundidos, y dejarse engañar por un jailbreak en segundos para filtrar datos
Surgió una pérdida de confianza e indiferencia frente a los benchmarks
- Casi por definición, los benchmarks son entornos verificables, por lo que son inmediatamente vulnerables tanto a RLVR como a formas débiles de generación de datos sintéticos
- En el proceso de benchmaxxing, los equipos construyen entornos cercanos al espacio de embeddings del benchmark para cubrirlos
- Aprender el test set se convierte en una nueva técnica
¿Cómo sería una situación en la que “se superan todos los benchmarks pero aun así no se llega a AGI”?
Artículos relacionados

3. Cursor / una nueva capa de apps LLM

Con el crecimiento explosivo de Cursor, se hizo visible una nueva capa de “apps LLM”
- Empezó a usarse la expresión “Cursor for X”
Las apps LLM como Cursor empaquetan y orquestan llamadas a LLM para un vertical específico
1. Hacen ingeniería de contexto
2. Orquestan múltiples llamadas a LLM en DAGs cada vez más complejos para equilibrar desempeño y costo
3. Ofrecen una GUI específica de la aplicación para el esquema de human-in-the-loop
4. Ofrecen un “slider de autonomía”
Hay mucha discusión sobre qué tan “gruesa” será esta nueva capa de aplicaciones
- Se debate si los laboratorios de LLM dominarán todas las aplicaciones o si habrá espacio de oportunidad para las apps LLM
Los laboratorios de LLM suelen tender a producir algo parecido a un estudiante universitario capaz, pero se espera que las apps LLM, al aportar datos privados, sensores, actuadores y bucles de retroalimentación en verticales específicos, los organicen, ajusten y activen como verdaderos expertos

4. Claude Code / IA residente en la computadora

Claude Code (CC) apareció como la primera demostración convincente de un agente LLM
- Conecta el uso de herramientas y el razonamiento en un bucle para resolver problemas de forma extendida
CC se ejecuta en la computadora del usuario junto con entorno privado, datos y contexto
OpenAI tomó una dirección equivocada al enfocar sus primeros esfuerzos con Codex/agentes en despliegues de contenedores en la nube orquestados desde ChatGPT
- Se enfocó en la nube en lugar de simplemente en localhost
Que un enjambre de agentes corra en la nube se siente como un “endgame de AGI”, pero hoy estamos en un mundo intermedio, lento y de saltos parciales de capacidades irregulares
- Tiene más sentido ejecutar agentes directamente en la computadora del desarrollador
La distinción importante no es dónde corre el “trabajo de IA”, sino el hecho de que ya existe una computadora encendida con instalaciones, contexto, datos, secretos, configuración e interacción de baja latencia
Anthropic entendió bien esta prioridad y empaquetó CC en un formato CLI conciso
- Un nuevo paradigma de interacción donde la IA no es un sitio web que visitas como Google, sino una pequeña alma/fantasma que “vive” en tu computadora

5. Vibe Coding

2025 fue el año en que la IA cruzó el umbral de capacidad para crear programas impresionantes usando solo inglés
- Ya es posible programar olvidándose incluso de que existe el código
Acuñó el término “vibe coding” en un tuit, pero no anticipó qué tan ampliamente se difundiría
Con vibe coding, programar deja de ser un terreno exclusivo de especialistas altamente entrenados y pasa a ser algo que cualquiera puede hacer
A diferencia de otras tecnologías, este es un caso en el que los LLM hacen que la gente común se beneficie mucho más que los expertos, las empresas o los gobiernos
Vibe coding no solo da acceso a la programación a personas comunes; también hace que especialistas entrenados escriban muchísimo más software que de otro modo no se habría escrito (software vibe-coded)
Ejemplos concretos:
- En nanochat, hizo vibe coding de un tokenizador BPE personalizado y de alta eficiencia en Rust sin adoptar bibliotecas existentes ni profundizar en Rust
- Hizo vibe coding de demos rápidas de apps como menugen, llm-council, reader3 y HN time capsule, cosas que le gustaría que existieran
- Hizo vibe coding de una app completa de un solo uso para encontrar un único bug: de pronto el código es gratis, temporal, flexible y desechable
El vibe coding va a terraformar el software y cambiar la definición de los trabajos

6. Nano Banana / GUI para LLM

Nano Banana de Google Gemini es uno de los cambios de paradigma más sorprendentes de 2025
Bajo la visión de que los LLM son el próximo gran paradigma de cómputo, análogo a las computadoras de los años 70 y 80, surgirán innovaciones equivalentes por razones profundamente similares
- Aparecerán equivalentes a la computación personal, a los microcontroladores (núcleos cognitivos), a internet (de agentes), etc.
Desde el punto de vista de UIUX, “chatear” con un LLM se parece a darle comandos a la consola de una computadora en los 80
El texto es una representación primitiva de datos que la computadora (y el LLM) prefieren, pero no es el formato preferido por las personas
- Especialmente del lado de la entrada, a la gente no le gusta leer texto: es lento y requiere esfuerzo
A la gente le gusta consumir información de forma visual y espacial, y por eso se inventó la GUI en la computación tradicional
Del mismo modo, los LLM deberían comunicarse en formatos preferidos por las personas, como imágenes, infografías, diapositivas, pizarras, animaciones/video y apps web
Las primeras versiones hoy son cosas como emojis y Markdown: títulos, negritas, cursivas, listas y tablas para “decorar visualmente” el texto y organizarlo
Nano Banana es la primera pista temprana de cómo podría verse una GUI para LLM
- Lo importante no es solo la generación de imágenes, sino la capacidad combinada en la que generación de texto, generación de imágenes y conocimiento del mundo están entrelazados en los pesos del modelo

TLDR; resumen general

2025 fue un año interesante y algo sorprendente para los LLM
Los LLM emergieron como un nuevo tipo de inteligencia: mucho más inteligentes de lo esperado y al mismo tiempo mucho más tontos de lo esperado
Aun así, los LLM son muy útiles, y cree que la industria todavía no está aprovechando ni el 10% de su potencial con el nivel técnico actual
Hay una cantidad infinita de ideas que vale la pena probar, y conceptualmente este campo todavía parece tener muchísimo recorrido por delante
Aunque parezca paradójico, cree que habrá un progreso rápido y sostenido hacia adelante y, al mismo tiempo, que todavía queda muchísimo por hacer

2 comentarios

laeyoung 2025-12-21

"vibe coding" de cosas que me gustaría que existieran, como menugen, llm-council, reader3 y la cápsula del tiempo de HN, en demos rápidas de apps

Como corresponde al padre del vibe coding, las cosas que hace con vibe coding son muchísimo más distintas de las cositas insignificantes que hago yo. 🤣

GN⁺ 2025-12-21

Comentarios en Hacker News

Para mí, la innovación más impresionante de este año fue Claude Code
Cursor era una buena prueba de concepto, pero lo que realmente hizo que usara un LLM para programar fue Claude Code
El código que genera Claude es casi igual al que escribiría yo mismo, como si me leyera la mente
Gracias a eso, también es fácil dar mantenimiento al código que hace Claude
Puedo predecir su estilo de código en un 90~95%, y escribe mucho más rápido que yo
Gemini también impresiona, pero especialmente Nano Banana es útil para diseño gráfico
Todavía no he probado Gemini para programar. Claude Code funciona tan bien que siento que si programara aún más rápido, me daría fatiga de decisión
Yo prefiero no apresurar decisiones de arquitectura o UX, sino pensarlas uno o dos días antes de empezar a implementar. Una vez que empiezas a ir en una dirección, es difícil volver atrás, y por el sesgo del costo hundido terminas aferrándote a una mala elección
- Ya casi no siento que tenga razones para usar Cursor
  Instalé el plugin de Claude Code en IntelliJ IDEA, y ahora uso el IDE solo para explorar o revisar código
  Ya ni recuerdo la última vez que escribí más de dos líneas de código por mi cuenta
  Gracias a Claude Code, mi productividad mejoró al menos 5 veces, y como el costo de escribir tests es casi nulo, la cobertura de pruebas también mejoró muchísimo
  Estoy usando un flujo de trabajo completo de agente de IA: planifico con Claude, le hago preguntas, le pido que implemente, revise y corrija
  No hay nada de programación manual. Cero absoluto
- Nano Banana Pro es una herramienta absolutamente brutal si sabes usarla bien
  Todavía no puedo creer que hayan publicado algo así
- Al principio empecé en la programación con agentes usando el plan de codificación de GLM, como de 2 dólares al mes
  Pero como cada vez terminaba pidiéndole a Claude que hiciera el código más elegante y legible, al final simplemente me cambié a Claude Code
  GLM también se acerca bastante si usas buenos prompts, pero si por 0.6 dólares al día ya no tienes que preocuparte por eso, sentí que no había mucho que pensar
- Como no tengo tiempo para evaluar una herramienta nueva cada mes, me quedé con Cursor
  Me pregunto qué me estoy perdiendo si al final usan el mismo modelo
Me gusta lo que escribe Karpathy, pero últimamente cuando veo estructuras de frase típicas de los LLM, como “It’s not X, it’s Y”, me provoca un rechazo instintivo
Hace 3 años no me pasaba nada, pero ahora siento que ese estilo está completamente arruinado
- Sí, ahora que me lo hicieron notar, ya no puedo dejar de verlo
- Antes usaba mucho el em dash (—) en mis textos, pero la gente empezó a decir que “parece escrito por IA”, así que tuve que cambiar mi manera de escribir
- Vine a leer a Karpathy, pero ahora empiezo a pensar que quizá ya sería mejor simplemente preguntárselo al LLM
- Yo odiaba ese tipo de frases desde antes de los LLM
  A cosas como “It’s not just a website…” les llamo grasa retórica (rhetorical fat)
  Si quitas esa grasa, queda una frase más plana, pero clara
  Expresiones como “little spirit” en particular me suenan exageradas y me hacen poner los ojos en blanco
  Claro, el autor las adornó para dar énfasis, pero como no encajan con mi ideal de escritura, me generan rechazo
  Frases como “It’s not just about image generation…” crean una tensión conceptual innecesaria
  Preferiría algo como “la generación de imágenes se vuelve más interesante cuando se combina con generación de texto”
- Ahora que ya no puedo dejar de ver ese estilo, se me hace difícil disfrutar internet
Fue una reseña excelente y realista
Me preocupa eso de que “los LLM son más inteligentes de lo esperado y al mismo tiempo más tontos”
¿Cómo se supone que uno sepa con cuál de las dos caras se va a topar?
En programación es fácil detectar errores, pero en ámbitos generales no tanto
Y sobre la idea de que “la gente común se beneficia más de los LLM que los expertos”, ya hubo expectativas parecidas con AppleScript, VB y la programación visual, pero al final la IA se está usando como un buscador inteligente
Y justamente ese es el ámbito donde las alucinaciones son más graves, así que me parece un problema. Me pregunto cuál será la solución
Me gusta el optimismo de Andrej, pero también quisiera escuchar su visión sobre cómo cambió en 2025 la concentración de poder industrial, y sobre temas como open source, inferencia local y limitaciones de hardware
Por ejemplo, él dijo que Claude Code “corre localmente”, pero en realidad solo la TUI es local y la inferencia ocurre en la nube
Me da curiosidad cómo evolucionará esa estructura después de 2026
- El punto de CC tiene que ver con los datos y el contexto del entorno, no con dónde se hace el cómputo
  Lo incómodo de una configuración en la nube no es por el cálculo, sino por la UI/UX y el bucle del usuario
- llama.cpp ahora soporta el formato de mensajes de Anthropic y puede usarse junto con Claude Code
- Uno de los agentes de programación interesantes que puede ejecutarse localmente es OpenAI Codex
  Se puede correr junto con modelos gpt-oss alojados en Ollama
  Algo como codex --oss -m gpt-oss:20b, y también se puede con modelos más grandes (120b)
- Cuando Karpathy habló de “agentes que corren localmente”, se refería no a un servicio web tipo LangChain, sino a un wrapper de software (harness) que llama a la API del LLM
  Ese agente invoca Bash, maneja el sistema de archivos y puede hacer casi cualquier cosa dentro del OS
  O sea, el modelo es un cerebro lejano y el agente es algo así como un traje mecánico
- Creo que la parte de Claude Code quedó escrita de forma algo ambigua
  Parece que quiso decir no que la inferencia fuera local, sino que el agente corre localmente
  Mientras OpenAI diseñó Codex con un enfoque centrado en la nube, CC optó por un enfoque local-first
  Pero esta distinción debería explicarse con mucha más claridad
Siento que la analogía de Karpathy sobre RLVR como “criar un animal” vs “invocar un fantasma” es un modelo perfecto para explicar la actual inteligencia irregular (jagged intelligence)
No estamos creando un sobreviviente generalista, sino sobreoptimizando dominios específicos según recompensas verificables
Y también me hizo clic la idea de software desechable generado con vibe coding
Eso de crear una app temporal solo para depurar un problema y luego borrarla sí se siente como un cambio real
- Pero no creo que la analogía de “animal vs fantasma” sea tan profunda
  Los humanos y los animales sí son seres realmente inteligentes, pero los LLM solo hacen eco de la producción humana dentro de un rango estrecho
  Para llegar a ser una inteligencia artificial real harían falta rasgos como autonomía, aprendizaje continuo, curiosidad y una corporalidad virtual
  La mayoría de los animales actúan por instinto, pero solo seres con capacidad de aprendizaje generalizado como los humanos poseen verdadera inteligencia
- Aun así, el uso actual de los LLM solo es posible gracias a los subsidios
  Habrá que ver si cuando toque pagar el costo real esa producción de apps desechables sigue siendo viable
- Yo ya llevo meses usándolo así. Es realmente divertido
  Lo resumí en mi texto: es el stack que termina lo que empezó Jupyter
  Tiene una estructura de fence funcional, invocable y componible
  Es parecido a MCP, y solo hace falta aprender patrones, no entrenarlo
  Incluso existe un funtor que conecta la pedagogía pianística del siglo XVIII con la ingeniería de contexto
Me pareció interesante la parte donde Karpathy dice que los LLM deberían comunicarse en el formato preferido por el usuario, como imágenes, diapositivas o pizarras
Pero si los LLM crean una UX distinta para cada persona cada vez, eso también podría convertirse en un infierno de interfaces impredecibles
Podrían aparecer situaciones como “¿qué hace Command-W en esta app?”
- Por otro lado, algunos agentes recientes ya están empezando a preocuparse por la accesibilidad
  En el caso de Codex, incluso la cuidan mejor que los humanos
- Si vemos cómo se comunica de verdad la gente, probablemente el puesto número 1 sea texto/voz y el 2 imagen
- Pero en realidad el LLM ya resolvió ese problema
  El propio LLM es la mejor UI
  Como entiende múltiples idiomas y conceptos abstractos, no hace falta generar una UI aleatoria
  Yo no soy angloparlante nativo y aun así me entiende bien aunque mezcle palabras en alemán
Muchos influencers de IA están convencidos de que “la UI de texto va a desaparecer”, pero en la práctica la interfaz de texto sigue siendo central
- Hace unos días intenté cancelar la suscripción de una herramienta de modelado 3D con IA y pasé 5 minutos sin encontrar el botón
  Al final estaba escondido en un menú de tres puntos de bajo contraste dentro de la tarjeta del plan, y al darle clic se abrió una ventana de chat con un bot de IA
  Solo después de escribir el prompt “unsubscribe” apareció el botón
  Siento que meter ese tipo de UX estilo contestadora automática en una app es terrible
  Como ingeniero frontend, esta tendencia me da miedo
- A lo largo de mi vida, siento que la gente cada vez escribe más texto que antes y conversa menos
Me gustaría saber qué piensa Andrej sobre los modelos rápidos de este año, como Gemini 3 Flash y Grok 4 Fast
Han aparecido modelos tan rápidos, baratos y buenos, pero parece que la comunidad casi no les presta atención
Para que se materialice esa visión de interfaces visuales con LLM, me parece que estos modelos serán imprescindibles
- Lo más probable es que estos modelos pequeños sean versiones destiladas de modelos grandes
  Supongo que fueron entrenados con trazas de razonamiento generadas por modelos mayores
- Recomiendo revisar la investigación de Sasha Luccioni
2025 también fue el año en que los fantasmas empezaron a habitar los datos de entrenamiento
Ahora la mitad de X (Twitter) consiste en LLM respondiéndole a otros LLM
O sea, es una situación donde las llamadas ocurren dentro del propio dataset
- Si alguien tiene consejos para distinguir esas cuentas de LLM, me gustaría saberlos. No quiero ponerme a discutir con bots
Coincido en que o3 fue un punto de inflexión
Alguien dijo que o3 y o4-mini eran, en la práctica, casi del nivel de gpt-5
Pero como los nombres sonaban raros, no recibieron atención, y en cambio gpt-5 decepcionó porque solo mostró una mejora incremental
o4-mini quizá no habría servido como modelo base porque su lenguaje conversacional era torpe, pero tal vez habría funcionado si lo hubieran puesto en el plan de 20 dólares con un nombre como “gpt-5 pro”
- Yo también estoy de acuerdo. En ese momento casi nadie había probado o3, y como el nombre era raro, no atrajo interés
  Viéndolo ahora, creo que ese fue el momento adecuado para un lanzamiento grande