- La afirmación de que los LLM no son más que loros estocásticos casi desapareció en 2025, y la mayoría pasó a reconocer que existe una representación interna del significado del prompt y de la dirección de la respuesta
- Chain of Thought (CoT) se convirtió en una técnica clave para mejorar la calidad de salida de los LLM, al combinar el muestreo dentro de las representaciones del modelo con el aprendizaje secuencial de tokens mediante aprendizaje por refuerzo
- El aprendizaje por refuerzo con recompensas verificables abrió la posibilidad de escalar más allá del límite del número de tokens, y se espera que esta área sea la próxima dirección clave de desarrollo en IA
- La resistencia al soporte de programación basado en LLM disminuyó mucho, y las formas de uso se dividieron entre la colaboración mediante interfaces web y el uso como agentes de codificación independientes
- La investigación de alternativas a Transformer y la posibilidad de AGI avanzan en paralelo, y está ganando fuerza la perspectiva de que distintas arquitecturas pueden alcanzar de forma independiente la inteligencia general
- Durante mucho tiempo existió la afirmación de que los LLM eran máquinas probabilísticas (stochastic parrots) con dos características que no entienden el significado
- 1. No tienen absolutamente ninguna información sobre el significado del prompt
- 2. Tampoco tienen absolutamente ninguna información sobre lo que van a decir
- A medida que se acumularon de forma continua resultados funcionales e indicios científicos, esta visión fue perdiendo poder de persuasión gradualmente, y para 2025 la afirmación prácticamente había desaparecido
- Chain of Thought (CoT) se consolidó como una técnica clave para mejorar el rendimiento actual de los LLM
- El efecto de CoT eleva al contexto la información y los conceptos relevantes, permitiendo el muestreo en el espacio de representación interna del modelo, es decir, la exploración interna
- Cuando se combina con aprendizaje por refuerzo, se van colocando tokens uno por uno, cambiando el estado del modelo para aprender el proceso de converger hacia respuestas útiles
- La visión anterior de que el límite del escalado estaba determinado por el número de tokens ya no es válida
- La introducción del aprendizaje por refuerzo basado en recompensas verificables (RLVR) amplió el alcance del escalado
- En tareas donde existe una señal de recompensa clara, como la mejora de la velocidad de un programa, teóricamente existe la posibilidad de una mejora continua sostenida a largo plazo
- La mejora del aprendizaje por refuerzo aplicado a los LLM será la tecnología clave de la próxima generación de IA
- La resistencia de los desarrolladores hacia la programación asistida por IA disminuyó de forma visible
- Incluso cuando los LLM cometen errores, su capacidad de proporcionar código útil y pistas mejoró mucho
- Al hacerse evidente la utilidad frente a la inversión, incluso desarrolladores escépticos comenzaron a utilizarlos
- Coexisten el uso del LLM como compañero mediante una interfaz web y su uso como agente de codificación independiente
- Entre algunos científicos de IA reconocidos se ha extendido la percepción de que incluso después de Transformer podría haber otro gran avance
- Han aparecido equipos y empresas que exploran alternativas a Transformer, representación simbólica explícita (symbolic representation) y modelos del mundo (world model)
- Se considera que los LLM son máquinas diferenciables entrenadas en un espacio capaz de aproximar pasos de razonamiento discretos
- Se cree que existe la posibilidad de alcanzar la AGI mediante LLM incluso sin un paradigma fundamentalmente nuevo
- Existe la posibilidad de alcanzar de forma independiente la inteligencia artificial general (AGI) mediante diversas arquitecturas
- También se ha planteado la afirmación de que Chain of Thought cambió la esencia de los LLM
- Se observa que algunas personas que antes evaluaban a los LLM como limitados cambiaron de postura después de CoT
- Dicen que los LLM cambiaron por completo a causa de CoT, pero eso es falso
- Siguen teniendo la misma arquitectura y el objetivo de predecir el siguiente token, y CoT sigue siendo exactamente la generación de tokens uno por uno
- La prueba ARC, que antes servía para verificar los límites de los LLM, ahora pasó a ser un indicador para demostrar su rendimiento
- A diferencia de sus inicios, la prueba ARC ya no parece una tarea imposible de superar
- Modelos pequeños optimizados para tareas específicas lograron resultados significativos en ARC-AGI-1
- Utilizando LLM grandes y CoT extensivo, se alcanzaron resultados impresionantes en ARC-AGI-2 con una arquitectura de la que muchos pensaban que no produciría resultados
- Durante los próximos 20 años, el desafío más fundamental que enfrentará la IA será evitar la extinción de la humanidad
2 comentarios
Está bueno leerlo junto con la reseña anual de LLM de 2025 de Andrej Karpathy.
Opiniones de Hacker News
Aunque los LLM se han vuelto muy útiles para los ingenieros de software, da miedo cuánto confía la sociedad en general en sus resultados
Los desarrolladores pueden ejecutar el código y verificar de inmediato si sirve, pero la gente común muchas veces cree como si fueran hechos las alucinaciones (hallucinations) en áreas difíciles de validar, como la medicina o los consejos de vida
Al ver citas falsas o noticias inventadas influyendo en decisiones reales, se siente que todo el mundo está ignorando el problema de la responsabilidad (accountability)
En la práctica, la gente no puede preguntarle a un médico diez veces al día, y un LLM da respuestas del 80~90% al instante
Es mejor que buscar en Google y, sobre todo, un LLM no estafa ni persigue su propio interés
No es perfecto, pero sí una alternativa lo bastante útil
Pero la mayoría de la gente casi nunca tiene la oportunidad de hablar con un experto de verdad, y muchas veces un LLM termina siendo un paso mejor que blogs o foros
Con el consejo médico pasa algo parecido: considerando lo difícil que es acceder a especialistas, usar LLM no es necesariamente algo malo
Por ahora los LLM parecen intentar dar información relativamente confiable, pero da miedo que el mundo se vuelva cada vez más caótico y más difícil de entender qué está pasando realmente
Enlace a la nota
Todo terminó con una disculpa, pero queda la duda de cuánta información errónea ya estará afectando decisiones reales
Los buscadores tradicionales son distintos de los LLM en que no presionan para que “hagas merge del PR”
Desde la perspectiva de alguien con más de 30 mil horas programando, siento que los LLM generan mal código con frecuencia, pero aun así son muy útiles
La clave es saber qué hay que hacer incluso sin LLM
Eventualmente llegará el momento de ajustarse a una estructura de costos realista
Le dejas el problema, haces otra cosa y luego revisas el resultado
Si exigiera mucho esfuerzo de entrada, no sería tan útil
Al final, en su estado base es débil, pero si defines bien el problema se vuelve un gran arquitecto
Ya da curiosidad saber cómo están evaluando los empleadores a los desarrolladores junior
No me gusta la expresión de que “disminuyó la resistencia de los programadores a la IA”
Palabras como “resistencia” o “escéptico” sugieren que estaban equivocados
El cambio no ocurrió por la gente, sino porque la tecnología mejoró
Yo uso LLM con mucha utilidad para generar código o buscar documentación, pero no creo que tengan inteligencia
Así como Python no reemplazó a Java, los LLM tampoco van a eliminar empleos
Las afirmaciones extremas de que “la IA superará la inteligencia humana” todavía no están demostradas
En un ambiente donde se siente que “si no amas la IA te pueden despedir”, todos terminan diciendo que les gusta
Incluso en 2026 no dejan de aparecer comentarios diciendo que “los LLM no sirven para nada”
Yo los uso de forma casual por unos 20 dólares al mes, pero si comparto consejos de uso me tratan como “promotor de IA”
Quienes dicen eso realmente están pensando mal las cosas
Ahora la tecnología avanzó y se ajustó al gusto de los programadores
Creo que los LLM no lograron cumplir la promesa de crecimiento exponencial de 2022~2023
La diferencia entre 2025 y 2023 no es tan grande como la diferencia entre 2023 y 2021
Aun así, siguen siendo útiles y cambiaron la forma de escribir software
Pero la gente sigue obsesionada con que los LLM sean algo más
Incluso he visto a algunos caer en una psicosis por IA (psychosis), perder relaciones humanas o convertir la IA en su consejero permanente
Solo viendo el tamaño de contexto, GPT‑4 pasó de 8K a cientos de miles de palabras
Si sumas la capacidad de razonamiento y lo multimodal, el avance es enorme
¿Por qué el futuro de la AGI siempre tiene que ser apocalíptico?
Tal vez porque solo una “AGI malvada” justifica el poder de las élites tecnológicas
Los LLM se sienten como una tecnología que explota con mucha astucia la psicología humana
La gente no está mentalmente preparada para lidiar con esta tecnología
Halagan sin parar al usuario para ganarse su favor
Como los chatbots no critican y adulan, enseguida se elevan al rango de consejero personal
Se siente casi como el Ojo de Sauron en la era tecnológica
Al leer que los LLM podrían seguir mejorando en tareas con señales de recompensa claras, como la optimización de velocidad, me vino a la mente la ley de Goodhart
Según Goodhart’s law, cuando una métrica se vuelve objetivo, termina distorsionándose
Podría producirse código rápido, pero difícil de entender
Es muy probable que los LLM produzcan resultados parecidos
La Superoptimization existe desde 1987 y genera código incomprensible pero rápido
No estoy de acuerdo con la idea de que “el código es gratis”
Detrás del código que generan los LLM hay centros de datos que consumen energía, agua y recursos
Esta cultura de la “programación gratis” está causando un daño real al planeta
Hace falta contexto
Hay que mirar las cifras de forma relativa
En la práctica sí existen costos que no se traducen en dinero
Hubo una crítica diciendo que “esto es solo una colección de afirmaciones sin fundamento”
No todo texto tiene que ser un paper académico
No deja de ser un espacio para compartir opiniones
No estoy de acuerdo con la afirmación de que “los LLM no representan significado”
El propio mecanismo de attention de los Transformer está hecho para crear múltiples capas de representación semántica
Cuantos más parámetros tiene, más representaciones (representations) puede almacenar
Es difícil imaginar que los investigadores nieguen este principio básico
Yo también creo que se podría llegar a la AGI incluso sin un nuevo paradigma
Frente a la crítica de que “solo enumeró afirmaciones imposibles de verificar”,
eso no deja de ser simplemente un texto de opinión
Los blogs son justamente ese tipo de espacio, y a veces esas ideas abren nuevas perspectivas