- 2025 fue el año en que el aprendizaje por refuerzo a partir de recompensas verificables (RLVR) emergió como una nueva etapa central del entrenamiento de LLM, sumándose al pipeline tradicional de pretraining-SFT-RLHF
- Los LLM desarrollan por sí solos estrategias de razonamiento en entornos verificables como matemáticas y acertijos de código, y adquieren formas de resolver problemas que para los humanos parecen “pensamiento”
- Cursor define una nueva capa de apps LLM, mostrando una forma de hacer ingeniería de contexto y de orquestar llamadas complejas a LLM en verticales específicos
- Claude Code aparece como el primer caso realmente convincente de un agente LLM que corre en la computadora local del usuario, proponiendo un nuevo paradigma de interacción con la IA
- El vibe coding permite que incluso personas no especializadas creen programas usando solo inglés, anticipando la democratización del desarrollo de software y cambios en la definición del trabajo
1. El auge del aprendizaje por refuerzo a partir de recompensas verificables (RLVR)
- Hasta inicios de 2025, el stack de producción de LLM tenía una estructura de tres etapas: pretraining, ajuste fino supervisado (SFT) y aprendizaje por refuerzo con retroalimentación humana (RLHF)
- RLVR (Reinforcement Learning from Verifiable Rewards) se añadió como una nueva etapa principal, entrenando a los LLM con recompensas verificables automáticamente en tareas como matemáticas y acertijos de código
- Los LLM adquirieron de forma espontánea comportamientos parecidos al “razonamiento”, descomponiendo por sí mismos los problemas en pasos intermedios de cálculo y desarrollando distintas estrategias de resolución
- Estas estrategias eran difíciles de lograr en el paradigma anterior porque no estaba claro cuál era la traza de razonamiento óptima
- El LLM tiene que descubrir por sí mismo la forma que mejor le funciona mediante la optimización de recompensas
- A diferencia de SFT/RLHF, RLVR permite optimizaciones mucho más largas sobre funciones de recompensa objetivas y que no se pueden manipular fácilmente
- Debido al alto capability/$ de RLVR, recursos de cómputo originalmente destinados al pretraining se reasignaron hacia RLVR
- Gran parte del avance en capacidades durante 2025 se definió por aplicar corridas de RL más largas a LLM de tamaño similar
- Aparece una nueva perilla de ajuste (y nueva ley de escalamiento): el cómputo en tiempo de prueba, que permite regular capacidades generando trazas de razonamiento más largas y aumentando el “tiempo de pensamiento”
- OpenAI o1 (a fines de 2024) fue la primera demostración de un modelo RLVR, y el lanzamiento de o3 (a inicios de 2025) fue el punto de inflexión donde la diferencia se volvió intuitivamente evidente
2. Fantasmas vs. animales / inteligencia irregular (Jagged Intelligence)
- En 2025 empezamos a entender de forma más intuitiva la “forma” de la inteligencia de los LLM
- Los LLM no son “hacer evolucionar o crecer a un animal”, sino “invocar un fantasma”
- La arquitectura neuronal, los datos de entrenamiento, los algoritmos de entrenamiento y las presiones de optimización son distintos, así que se generan entidades muy diferentes dentro del espacio de inteligencias
- Las redes neuronales humanas están optimizadas para la supervivencia del grupo en la selva, mientras que las redes neuronales de los LLM están optimizadas para imitar el texto de la humanidad, recolectar recompensas en acertijos matemáticos y obtener upvotes en LM Arena
- A medida que RLVR se volvió posible en dominios verificables, las capacidades de los LLM en esas áreas se dispararon, mostrando características de desempeño irregulares
- Al mismo tiempo pueden actuar como genios polímatas y como niños de primaria confundidos, y dejarse engañar por un jailbreak en segundos para filtrar datos
- Surgió una pérdida de confianza e indiferencia frente a los benchmarks
- Casi por definición, los benchmarks son entornos verificables, por lo que son inmediatamente vulnerables tanto a RLVR como a formas débiles de generación de datos sintéticos
- En el proceso de benchmaxxing, los equipos construyen entornos cercanos al espacio de embeddings del benchmark para cubrirlos
- Aprender el test set se convierte en una nueva técnica
- ¿Cómo sería una situación en la que “se superan todos los benchmarks pero aun así no se llega a AGI”?
- Artículos relacionados
3. Cursor / una nueva capa de apps LLM
- Con el crecimiento explosivo de Cursor, se hizo visible una nueva capa de “apps LLM”
- Empezó a usarse la expresión “Cursor for X”
- Las apps LLM como Cursor empaquetan y orquestan llamadas a LLM para un vertical específico
1. Hacen ingeniería de contexto
2. Orquestan múltiples llamadas a LLM en DAGs cada vez más complejos para equilibrar desempeño y costo
3. Ofrecen una GUI específica de la aplicación para el esquema de human-in-the-loop
4. Ofrecen un “slider de autonomía”
- Hay mucha discusión sobre qué tan “gruesa” será esta nueva capa de aplicaciones
- Se debate si los laboratorios de LLM dominarán todas las aplicaciones o si habrá espacio de oportunidad para las apps LLM
- Los laboratorios de LLM suelen tender a producir algo parecido a un estudiante universitario capaz, pero se espera que las apps LLM, al aportar datos privados, sensores, actuadores y bucles de retroalimentación en verticales específicos, los organicen, ajusten y activen como verdaderos expertos
4. Claude Code / IA residente en la computadora
- Claude Code (CC) apareció como la primera demostración convincente de un agente LLM
- Conecta el uso de herramientas y el razonamiento en un bucle para resolver problemas de forma extendida
- CC se ejecuta en la computadora del usuario junto con entorno privado, datos y contexto
- OpenAI tomó una dirección equivocada al enfocar sus primeros esfuerzos con Codex/agentes en despliegues de contenedores en la nube orquestados desde ChatGPT
- Se enfocó en la nube en lugar de simplemente en
localhost
- Que un enjambre de agentes corra en la nube se siente como un “endgame de AGI”, pero hoy estamos en un mundo intermedio, lento y de saltos parciales de capacidades irregulares
- Tiene más sentido ejecutar agentes directamente en la computadora del desarrollador
- La distinción importante no es dónde corre el “trabajo de IA”, sino el hecho de que ya existe una computadora encendida con instalaciones, contexto, datos, secretos, configuración e interacción de baja latencia
- Anthropic entendió bien esta prioridad y empaquetó CC en un formato CLI conciso
- Un nuevo paradigma de interacción donde la IA no es un sitio web que visitas como Google, sino una pequeña alma/fantasma que “vive” en tu computadora
5. Vibe Coding
- 2025 fue el año en que la IA cruzó el umbral de capacidad para crear programas impresionantes usando solo inglés
- Ya es posible programar olvidándose incluso de que existe el código
- Acuñó el término “vibe coding” en un tuit, pero no anticipó qué tan ampliamente se difundiría
- Con vibe coding, programar deja de ser un terreno exclusivo de especialistas altamente entrenados y pasa a ser algo que cualquiera puede hacer
- A diferencia de otras tecnologías, este es un caso en el que los LLM hacen que la gente común se beneficie mucho más que los expertos, las empresas o los gobiernos
- Vibe coding no solo da acceso a la programación a personas comunes; también hace que especialistas entrenados escriban muchísimo más software que de otro modo no se habría escrito (software vibe-coded)
- Ejemplos concretos:
- En nanochat, hizo vibe coding de un tokenizador BPE personalizado y de alta eficiencia en Rust sin adoptar bibliotecas existentes ni profundizar en Rust
- Hizo vibe coding de demos rápidas de apps como menugen, llm-council, reader3 y HN time capsule, cosas que le gustaría que existieran
- Hizo vibe coding de una app completa de un solo uso para encontrar un único bug: de pronto el código es gratis, temporal, flexible y desechable
- El vibe coding va a terraformar el software y cambiar la definición de los trabajos
6. Nano Banana / GUI para LLM
- Nano Banana de Google Gemini es uno de los cambios de paradigma más sorprendentes de 2025
- Bajo la visión de que los LLM son el próximo gran paradigma de cómputo, análogo a las computadoras de los años 70 y 80, surgirán innovaciones equivalentes por razones profundamente similares
- Aparecerán equivalentes a la computación personal, a los microcontroladores (núcleos cognitivos), a internet (de agentes), etc.
- Desde el punto de vista de UIUX, “chatear” con un LLM se parece a darle comandos a la consola de una computadora en los 80
- El texto es una representación primitiva de datos que la computadora (y el LLM) prefieren, pero no es el formato preferido por las personas
- Especialmente del lado de la entrada, a la gente no le gusta leer texto: es lento y requiere esfuerzo
- A la gente le gusta consumir información de forma visual y espacial, y por eso se inventó la GUI en la computación tradicional
- Del mismo modo, los LLM deberían comunicarse en formatos preferidos por las personas, como imágenes, infografías, diapositivas, pizarras, animaciones/video y apps web
- Las primeras versiones hoy son cosas como emojis y Markdown: títulos, negritas, cursivas, listas y tablas para “decorar visualmente” el texto y organizarlo
- Nano Banana es la primera pista temprana de cómo podría verse una GUI para LLM
- Lo importante no es solo la generación de imágenes, sino la capacidad combinada en la que generación de texto, generación de imágenes y conocimiento del mundo están entrelazados en los pesos del modelo
TLDR; resumen general
- 2025 fue un año interesante y algo sorprendente para los LLM
- Los LLM emergieron como un nuevo tipo de inteligencia: mucho más inteligentes de lo esperado y al mismo tiempo mucho más tontos de lo esperado
- Aun así, los LLM son muy útiles, y cree que la industria todavía no está aprovechando ni el 10% de su potencial con el nivel técnico actual
- Hay una cantidad infinita de ideas que vale la pena probar, y conceptualmente este campo todavía parece tener muchísimo recorrido por delante
- Aunque parezca paradójico, cree que habrá un progreso rápido y sostenido hacia adelante y, al mismo tiempo, que todavía queda muchísimo por hacer
2 comentarios
"vibe coding" de cosas que me gustaría que existieran, como
menugen,llm-council,reader3y la cápsula del tiempo de HN, en demos rápidas de appsComo corresponde al padre del vibe coding, las cosas que hace con vibe coding son muchísimo más distintas de las cositas insignificantes que hago yo. 🤣
Comentarios en Hacker News
Para mí, la innovación más impresionante de este año fue Claude Code
Cursor era una buena prueba de concepto, pero lo que realmente hizo que usara un LLM para programar fue Claude Code
El código que genera Claude es casi igual al que escribiría yo mismo, como si me leyera la mente
Gracias a eso, también es fácil dar mantenimiento al código que hace Claude
Puedo predecir su estilo de código en un 90~95%, y escribe mucho más rápido que yo
Gemini también impresiona, pero especialmente Nano Banana es útil para diseño gráfico
Todavía no he probado Gemini para programar. Claude Code funciona tan bien que siento que si programara aún más rápido, me daría fatiga de decisión
Yo prefiero no apresurar decisiones de arquitectura o UX, sino pensarlas uno o dos días antes de empezar a implementar. Una vez que empiezas a ir en una dirección, es difícil volver atrás, y por el sesgo del costo hundido terminas aferrándote a una mala elección
Instalé el plugin de Claude Code en IntelliJ IDEA, y ahora uso el IDE solo para explorar o revisar código
Ya ni recuerdo la última vez que escribí más de dos líneas de código por mi cuenta
Gracias a Claude Code, mi productividad mejoró al menos 5 veces, y como el costo de escribir tests es casi nulo, la cobertura de pruebas también mejoró muchísimo
Estoy usando un flujo de trabajo completo de agente de IA: planifico con Claude, le hago preguntas, le pido que implemente, revise y corrija
No hay nada de programación manual. Cero absoluto
Todavía no puedo creer que hayan publicado algo así
Pero como cada vez terminaba pidiéndole a Claude que hiciera el código más elegante y legible, al final simplemente me cambié a Claude Code
GLM también se acerca bastante si usas buenos prompts, pero si por 0.6 dólares al día ya no tienes que preocuparte por eso, sentí que no había mucho que pensar
Me pregunto qué me estoy perdiendo si al final usan el mismo modelo
Me gusta lo que escribe Karpathy, pero últimamente cuando veo estructuras de frase típicas de los LLM, como “It’s not X, it’s Y”, me provoca un rechazo instintivo
Hace 3 años no me pasaba nada, pero ahora siento que ese estilo está completamente arruinado
A cosas como “It’s not just a website…” les llamo grasa retórica (rhetorical fat)
Si quitas esa grasa, queda una frase más plana, pero clara
Expresiones como “little spirit” en particular me suenan exageradas y me hacen poner los ojos en blanco
Claro, el autor las adornó para dar énfasis, pero como no encajan con mi ideal de escritura, me generan rechazo
Frases como “It’s not just about image generation…” crean una tensión conceptual innecesaria
Preferiría algo como “la generación de imágenes se vuelve más interesante cuando se combina con generación de texto”
Fue una reseña excelente y realista
Me preocupa eso de que “los LLM son más inteligentes de lo esperado y al mismo tiempo más tontos”
¿Cómo se supone que uno sepa con cuál de las dos caras se va a topar?
En programación es fácil detectar errores, pero en ámbitos generales no tanto
Y sobre la idea de que “la gente común se beneficia más de los LLM que los expertos”, ya hubo expectativas parecidas con AppleScript, VB y la programación visual, pero al final la IA se está usando como un buscador inteligente
Y justamente ese es el ámbito donde las alucinaciones son más graves, así que me parece un problema. Me pregunto cuál será la solución
Me gusta el optimismo de Andrej, pero también quisiera escuchar su visión sobre cómo cambió en 2025 la concentración de poder industrial, y sobre temas como open source, inferencia local y limitaciones de hardware
Por ejemplo, él dijo que Claude Code “corre localmente”, pero en realidad solo la TUI es local y la inferencia ocurre en la nube
Me da curiosidad cómo evolucionará esa estructura después de 2026
Lo incómodo de una configuración en la nube no es por el cálculo, sino por la UI/UX y el bucle del usuario
Se puede correr junto con modelos
gpt-ossalojados en OllamaAlgo como
codex --oss -m gpt-oss:20b, y también se puede con modelos más grandes (120b)Ese agente invoca Bash, maneja el sistema de archivos y puede hacer casi cualquier cosa dentro del OS
O sea, el modelo es un cerebro lejano y el agente es algo así como un traje mecánico
Parece que quiso decir no que la inferencia fuera local, sino que el agente corre localmente
Mientras OpenAI diseñó Codex con un enfoque centrado en la nube, CC optó por un enfoque local-first
Pero esta distinción debería explicarse con mucha más claridad
Siento que la analogía de Karpathy sobre RLVR como “criar un animal” vs “invocar un fantasma” es un modelo perfecto para explicar la actual inteligencia irregular (jagged intelligence)
No estamos creando un sobreviviente generalista, sino sobreoptimizando dominios específicos según recompensas verificables
Y también me hizo clic la idea de software desechable generado con vibe coding
Eso de crear una app temporal solo para depurar un problema y luego borrarla sí se siente como un cambio real
Los humanos y los animales sí son seres realmente inteligentes, pero los LLM solo hacen eco de la producción humana dentro de un rango estrecho
Para llegar a ser una inteligencia artificial real harían falta rasgos como autonomía, aprendizaje continuo, curiosidad y una corporalidad virtual
La mayoría de los animales actúan por instinto, pero solo seres con capacidad de aprendizaje generalizado como los humanos poseen verdadera inteligencia
Habrá que ver si cuando toque pagar el costo real esa producción de apps desechables sigue siendo viable
Lo resumí en mi texto: es el stack que termina lo que empezó Jupyter
Tiene una estructura de fence funcional, invocable y componible
Es parecido a MCP, y solo hace falta aprender patrones, no entrenarlo
Incluso existe un funtor que conecta la pedagogía pianística del siglo XVIII con la ingeniería de contexto
Me pareció interesante la parte donde Karpathy dice que los LLM deberían comunicarse en el formato preferido por el usuario, como imágenes, diapositivas o pizarras
Pero si los LLM crean una UX distinta para cada persona cada vez, eso también podría convertirse en un infierno de interfaces impredecibles
Podrían aparecer situaciones como “¿qué hace Command-W en esta app?”
En el caso de Codex, incluso la cuidan mejor que los humanos
El propio LLM es la mejor UI
Como entiende múltiples idiomas y conceptos abstractos, no hace falta generar una UI aleatoria
Yo no soy angloparlante nativo y aun así me entiende bien aunque mezcle palabras en alemán
Muchos influencers de IA están convencidos de que “la UI de texto va a desaparecer”, pero en la práctica la interfaz de texto sigue siendo central
Al final estaba escondido en un menú de tres puntos de bajo contraste dentro de la tarjeta del plan, y al darle clic se abrió una ventana de chat con un bot de IA
Solo después de escribir el prompt “unsubscribe” apareció el botón
Siento que meter ese tipo de UX estilo contestadora automática en una app es terrible
Como ingeniero frontend, esta tendencia me da miedo
Me gustaría saber qué piensa Andrej sobre los modelos rápidos de este año, como Gemini 3 Flash y Grok 4 Fast
Han aparecido modelos tan rápidos, baratos y buenos, pero parece que la comunidad casi no les presta atención
Para que se materialice esa visión de interfaces visuales con LLM, me parece que estos modelos serán imprescindibles
Supongo que fueron entrenados con trazas de razonamiento generadas por modelos mayores
2025 también fue el año en que los fantasmas empezaron a habitar los datos de entrenamiento
Ahora la mitad de X (Twitter) consiste en LLM respondiéndole a otros LLM
O sea, es una situación donde las llamadas ocurren dentro del propio dataset
Coincido en que o3 fue un punto de inflexión
Alguien dijo que o3 y o4-mini eran, en la práctica, casi del nivel de gpt-5
Pero como los nombres sonaban raros, no recibieron atención, y en cambio gpt-5 decepcionó porque solo mostró una mejora incremental
o4-mini quizá no habría servido como modelo base porque su lenguaje conversacional era torpe, pero tal vez habría funcionado si lo hubieran puesto en el plan de 20 dólares con un nombre como “gpt-5 pro”
Viéndolo ahora, creo que ese fue el momento adecuado para un lanzamiento grande