Reflexiones sobre la IA vistas desde finales de 2025

(antirez.com)

21 puntos por GN⁺ 2025-12-23 | 2 comentarios | Compartir por WhatsApp

La afirmación de que los LLM no son más que loros estocásticos casi desapareció en 2025, y la mayoría pasó a reconocer que existe una representación interna del significado del prompt y de la dirección de la respuesta
Chain of Thought (CoT) se convirtió en una técnica clave para mejorar la calidad de salida de los LLM, al combinar el muestreo dentro de las representaciones del modelo con el aprendizaje secuencial de tokens mediante aprendizaje por refuerzo
El aprendizaje por refuerzo con recompensas verificables abrió la posibilidad de escalar más allá del límite del número de tokens, y se espera que esta área sea la próxima dirección clave de desarrollo en IA
La resistencia al soporte de programación basado en LLM disminuyó mucho, y las formas de uso se dividieron entre la colaboración mediante interfaces web y el uso como agentes de codificación independientes
La investigación de alternativas a Transformer y la posibilidad de AGI avanzan en paralelo, y está ganando fuerza la perspectiva de que distintas arquitecturas pueden alcanzar de forma independiente la inteligencia general

Durante mucho tiempo existió la afirmación de que los LLM eran máquinas probabilísticas (stochastic parrots) con dos características que no entienden el significado
- 1. No tienen absolutamente ninguna información sobre el significado del prompt
- 2. Tampoco tienen absolutamente ninguna información sobre lo que van a decir
A medida que se acumularon de forma continua resultados funcionales e indicios científicos, esta visión fue perdiendo poder de persuasión gradualmente, y para 2025 la afirmación prácticamente había desaparecido

Chain of Thought (CoT) se consolidó como una técnica clave para mejorar el rendimiento actual de los LLM
El efecto de CoT eleva al contexto la información y los conceptos relevantes, permitiendo el muestreo en el espacio de representación interna del modelo, es decir, la exploración interna
Cuando se combina con aprendizaje por refuerzo, se van colocando tokens uno por uno, cambiando el estado del modelo para aprender el proceso de converger hacia respuestas útiles

La visión anterior de que el límite del escalado estaba determinado por el número de tokens ya no es válida
La introducción del aprendizaje por refuerzo basado en recompensas verificables (RLVR) amplió el alcance del escalado
En tareas donde existe una señal de recompensa clara, como la mejora de la velocidad de un programa, teóricamente existe la posibilidad de una mejora continua sostenida a largo plazo
La mejora del aprendizaje por refuerzo aplicado a los LLM será la tecnología clave de la próxima generación de IA

La resistencia de los desarrolladores hacia la programación asistida por IA disminuyó de forma visible
Incluso cuando los LLM cometen errores, su capacidad de proporcionar código útil y pistas mejoró mucho
Al hacerse evidente la utilidad frente a la inversión, incluso desarrolladores escépticos comenzaron a utilizarlos
Coexisten el uso del LLM como compañero mediante una interfaz web y su uso como agente de codificación independiente

Entre algunos científicos de IA reconocidos se ha extendido la percepción de que incluso después de Transformer podría haber otro gran avance
- Han aparecido equipos y empresas que exploran alternativas a Transformer, representación simbólica explícita (symbolic representation) y modelos del mundo (world model)
Se considera que los LLM son máquinas diferenciables entrenadas en un espacio capaz de aproximar pasos de razonamiento discretos
Se cree que existe la posibilidad de alcanzar la AGI mediante LLM incluso sin un paradigma fundamentalmente nuevo
Existe la posibilidad de alcanzar de forma independiente la inteligencia artificial general (AGI) mediante diversas arquitecturas

También se ha planteado la afirmación de que Chain of Thought cambió la esencia de los LLM
Se observa que algunas personas que antes evaluaban a los LLM como limitados cambiaron de postura después de CoT
Dicen que los LLM cambiaron por completo a causa de CoT, pero eso es falso
Siguen teniendo la misma arquitectura y el objetivo de predecir el siguiente token, y CoT sigue siendo exactamente la generación de tokens uno por uno

La prueba ARC, que antes servía para verificar los límites de los LLM, ahora pasó a ser un indicador para demostrar su rendimiento
A diferencia de sus inicios, la prueba ARC ya no parece una tarea imposible de superar
Modelos pequeños optimizados para tareas específicas lograron resultados significativos en ARC-AGI-1
Utilizando LLM grandes y CoT extensivo, se alcanzaron resultados impresionantes en ARC-AGI-2 con una arquitectura de la que muchos pensaban que no produciría resultados

Durante los próximos 20 años, el desafío más fundamental que enfrentará la IA será evitar la extinción de la humanidad

2 comentarios

xguru 2025-12-23

Está bueno leerlo junto con la reseña anual de LLM de 2025 de Andrej Karpathy.

GN⁺ 2025-12-23

Opiniones de Hacker News

Aunque los LLM se han vuelto muy útiles para los ingenieros de software, da miedo cuánto confía la sociedad en general en sus resultados
Los desarrolladores pueden ejecutar el código y verificar de inmediato si sirve, pero la gente común muchas veces cree como si fueran hechos las alucinaciones (hallucinations) en áreas difíciles de validar, como la medicina o los consejos de vida
Al ver citas falsas o noticias inventadas influyendo en decisiones reales, se siente que todo el mundo está ignorando el problema de la responsabilidad (accountability)
- El núcleo del problema es la falta de expertos
  En la práctica, la gente no puede preguntarle a un médico diez veces al día, y un LLM da respuestas del 80~90% al instante
  Es mejor que buscar en Google y, sobre todo, un LLM no estafa ni persigue su propio interés
  No es perfecto, pero sí una alternativa lo bastante útil
- Incluso en el campo de redes informáticas, que conozco bien, los LLM a menudo dan respuestas plausibles pero incorrectas
  Pero la mayoría de la gente casi nunca tiene la oportunidad de hablar con un experto de verdad, y muchas veces un LLM termina siendo un paso mejor que blogs o foros
  Con el consejo médico pasa algo parecido: considerando lo difícil que es acceder a especialistas, usar LLM no es necesariamente algo malo
- En el mundo actual, cuesta confiar en fuentes de información que tienen incentivos de lucro
  Por ahora los LLM parecen intentar dar información relativamente confiable, pero da miedo que el mundo se vuelva cada vez más caótico y más difícil de entender qué está pasando realmente
- Hubo un caso en que la política sueca Ebba Busch escribió un discurso con un LLM e incluyó una cita falsa
  Enlace a la nota
  Todo terminó con una disculpa, pero queda la duda de cuánta información errónea ya estará afectando decisiones reales
- El código también puede verse correcto por fuera, pero estar sutilmente mal
  Los buscadores tradicionales son distintos de los LLM en que no presionan para que “hagas merge del PR”
Desde la perspectiva de alguien con más de 30 mil horas programando, siento que los LLM generan mal código con frecuencia, pero aun así son muy útiles
La clave es saber qué hay que hacer incluso sin LLM
- En lo económico, todavía casi no hay empresas de IA que ganen dinero solo con el costo de inferencia, y parece que el progreso técnico entró en una meseta
  Eventualmente llegará el momento de ajustarse a una estructura de costos realista
- Usar un LLM se siente casi como una “acción gratis”
  Le dejas el problema, haces otra cosa y luego revisas el resultado
  Si exigiera mucho esfuerzo de entrada, no sería tan útil
- Si solo le pides a un modelo reciente que implemente una función, la estructura suele ser floja, pero si le pides consejos de arquitectura, da respuestas excelentes
  Al final, en su estado base es débil, pero si defines bien el problema se vuelve un gran arquitecto
- Aun así, queda la duda de cuántos programadores van a seguir entendiendo estas limitaciones dentro de 10 años
  Ya da curiosidad saber cómo están evaluando los empleadores a los desarrolladores junior
No me gusta la expresión de que “disminuyó la resistencia de los programadores a la IA”
Palabras como “resistencia” o “escéptico” sugieren que estaban equivocados
El cambio no ocurrió por la gente, sino porque la tecnología mejoró
- La palabra “escéptico” en sí es ambigua
  Yo uso LLM con mucha utilidad para generar código o buscar documentación, pero no creo que tengan inteligencia
  Así como Python no reemplazó a Java, los LLM tampoco van a eliminar empleos
  Las afirmaciones extremas de que “la IA superará la inteligencia humana” todavía no están demostradas
- Una de las razones de la menor resistencia es la imposición de la gerencia
  En un ambiente donde se siente que “si no amas la IA te pueden despedir”, todos terminan diciendo que les gusta
- El bando anti-IA sigue activo
  Incluso en 2026 no dejan de aparecer comentarios diciendo que “los LLM no sirven para nada”
  Yo los uso de forma casual por unos 20 dólares al mes, pero si comparto consejos de uso me tratan como “promotor de IA”
- La idea de que “los LLM son solo predictores del siguiente token” es una postura claramente equivocada
  Quienes dicen eso realmente están pensando mal las cosas
- Si miras el hilo de vibe coding de hace 10 meses, se nota qué tan fuerte era esa resistencia en ese momento
  Ahora la tecnología avanzó y se ajustó al gusto de los programadores
Creo que los LLM no lograron cumplir la promesa de crecimiento exponencial de 2022~2023
La diferencia entre 2025 y 2023 no es tan grande como la diferencia entre 2023 y 2021
Aun así, siguen siendo útiles y cambiaron la forma de escribir software
Pero la gente sigue obsesionada con que los LLM sean algo más
Incluso he visto a algunos caer en una psicosis por IA (psychosis), perder relaciones humanas o convertir la IA en su consejero permanente
- Decir que “la diferencia entre 2025 y 2023 no es grande” es absurdo
  Solo viendo el tamaño de contexto, GPT‑4 pasó de 8K a cientos de miles de palabras
  Si sumas la capacidad de razonamiento y lo multimodal, el avance es enorme
- Mi hipótesis conspirativa es que el catastrofismo sobre la AGI nace de una mentalidad elitista
  ¿Por qué el futuro de la AGI siempre tiene que ser apocalíptico?
  Tal vez porque solo una “AGI malvada” justifica el poder de las élites tecnológicas
Los LLM se sienten como una tecnología que explota con mucha astucia la psicología humana
La gente no está mentalmente preparada para lidiar con esta tecnología
- ChatGPT y Claude Code son literalmente como máquinas industriales de adulación
  Halagan sin parar al usuario para ganarse su favor
- El problema ya es conocido
  Como los chatbots no critican y adulan, enseguida se elevan al rango de consejero personal
  Se siente casi como el Ojo de Sauron en la era tecnológica
Al leer que los LLM podrían seguir mejorando en tareas con señales de recompensa claras, como la optimización de velocidad, me vino a la mente la ley de Goodhart
Según Goodhart’s law, cuando una métrica se vuelve objetivo, termina distorsionándose
Podría producirse código rápido, pero difícil de entender
- Incluso cuando optimizan humanos, muchas veces se sacrifica la legibilidad y mantenibilidad
  Es muy probable que los LLM produzcan resultados parecidos
- En realidad, este enfoque no es nuevo
  La Superoptimization existe desde 1987 y genera código incomprensible pero rápido
- Al final, si la estructura es medio decente, eso equivale a tener un kernel que no hace falta tocar
No estoy de acuerdo con la idea de que “el código es gratis”
Detrás del código que generan los LLM hay centros de datos que consumen energía, agua y recursos
Esta cultura de la “programación gratis” está causando un daño real al planeta
- Pero en Estados Unidos el cultivo de maíz usa 80 veces más agua que todos los centros de datos de IA del mundo
  Hace falta contexto
- Entonces, ¿cómo se compara eso con cosas cotidianas como manejar, ducharse, comer carne o viajar en avión?
  Hay que mirar las cifras de forma relativa
- La palabra “gratis” solo quiere decir que no cuesta mano de obra
  En la práctica sí existen costos que no se traducen en dinero
Hubo una crítica diciendo que “esto es solo una colección de afirmaciones sin fundamento”
- Un blog es, por naturaleza, un formato de escritura para registrar pensamientos personales
  No todo texto tiene que ser un paper académico
- El autor es el fundador de Redis; no es investigador de IA, pero sí un programador muy reconocido
- Al final, este blog se llama “Reflections”
  No deja de ser un espacio para compartir opiniones
- Entonces, lo más importante es qué crees tú y qué piensas tú sobre este texto
No estoy de acuerdo con la afirmación de que “los LLM no representan significado”
El propio mecanismo de attention de los Transformer está hecho para crear múltiples capas de representación semántica
Cuantos más parámetros tiene, más representaciones (representations) puede almacenar
Es difícil imaginar que los investigadores nieguen este principio básico
Yo también creo que se podría llegar a la AGI incluso sin un nuevo paradigma
- Aun así, puede que se trate de una confusión conceptual causada porque cada persona entiende algo distinto por la palabra “significado”
Frente a la crítica de que “solo enumeró afirmaciones imposibles de verificar”,
eso no deja de ser simplemente un texto de opinión
Los blogs son justamente ese tipo de espacio, y a veces esas ideas abren nuevas perspectivas

Reflexiones sobre la IA vistas desde finales de 2025

Lecturas relacionadas

2 comentarios

Opiniones de Hacker News