21 puntos por GN⁺ 2025-12-23 | 2 comentarios | Compartir por WhatsApp
  • La afirmación de que los LLM no son más que loros estocásticos casi desapareció en 2025, y la mayoría pasó a reconocer que existe una representación interna del significado del prompt y de la dirección de la respuesta
  • Chain of Thought (CoT) se convirtió en una técnica clave para mejorar la calidad de salida de los LLM, al combinar el muestreo dentro de las representaciones del modelo con el aprendizaje secuencial de tokens mediante aprendizaje por refuerzo
  • El aprendizaje por refuerzo con recompensas verificables abrió la posibilidad de escalar más allá del límite del número de tokens, y se espera que esta área sea la próxima dirección clave de desarrollo en IA
  • La resistencia al soporte de programación basado en LLM disminuyó mucho, y las formas de uso se dividieron entre la colaboración mediante interfaces web y el uso como agentes de codificación independientes
  • La investigación de alternativas a Transformer y la posibilidad de AGI avanzan en paralelo, y está ganando fuerza la perspectiva de que distintas arquitecturas pueden alcanzar de forma independiente la inteligencia general

  • Durante mucho tiempo existió la afirmación de que los LLM eran máquinas probabilísticas (stochastic parrots) con dos características que no entienden el significado
    • 1. No tienen absolutamente ninguna información sobre el significado del prompt
    • 2. Tampoco tienen absolutamente ninguna información sobre lo que van a decir
  • A medida que se acumularon de forma continua resultados funcionales e indicios científicos, esta visión fue perdiendo poder de persuasión gradualmente, y para 2025 la afirmación prácticamente había desaparecido
  • Chain of Thought (CoT) se consolidó como una técnica clave para mejorar el rendimiento actual de los LLM
  • El efecto de CoT eleva al contexto la información y los conceptos relevantes, permitiendo el muestreo en el espacio de representación interna del modelo, es decir, la exploración interna
  • Cuando se combina con aprendizaje por refuerzo, se van colocando tokens uno por uno, cambiando el estado del modelo para aprender el proceso de converger hacia respuestas útiles
  • La visión anterior de que el límite del escalado estaba determinado por el número de tokens ya no es válida
  • La introducción del aprendizaje por refuerzo basado en recompensas verificables (RLVR) amplió el alcance del escalado
  • En tareas donde existe una señal de recompensa clara, como la mejora de la velocidad de un programa, teóricamente existe la posibilidad de una mejora continua sostenida a largo plazo
  • La mejora del aprendizaje por refuerzo aplicado a los LLM será la tecnología clave de la próxima generación de IA
  • La resistencia de los desarrolladores hacia la programación asistida por IA disminuyó de forma visible
  • Incluso cuando los LLM cometen errores, su capacidad de proporcionar código útil y pistas mejoró mucho
  • Al hacerse evidente la utilidad frente a la inversión, incluso desarrolladores escépticos comenzaron a utilizarlos
  • Coexisten el uso del LLM como compañero mediante una interfaz web y su uso como agente de codificación independiente
  • Entre algunos científicos de IA reconocidos se ha extendido la percepción de que incluso después de Transformer podría haber otro gran avance
    • Han aparecido equipos y empresas que exploran alternativas a Transformer, representación simbólica explícita (symbolic representation) y modelos del mundo (world model)
  • Se considera que los LLM son máquinas diferenciables entrenadas en un espacio capaz de aproximar pasos de razonamiento discretos
  • Se cree que existe la posibilidad de alcanzar la AGI mediante LLM incluso sin un paradigma fundamentalmente nuevo
  • Existe la posibilidad de alcanzar de forma independiente la inteligencia artificial general (AGI) mediante diversas arquitecturas
  • También se ha planteado la afirmación de que Chain of Thought cambió la esencia de los LLM
  • Se observa que algunas personas que antes evaluaban a los LLM como limitados cambiaron de postura después de CoT
  • Dicen que los LLM cambiaron por completo a causa de CoT, pero eso es falso
  • Siguen teniendo la misma arquitectura y el objetivo de predecir el siguiente token, y CoT sigue siendo exactamente la generación de tokens uno por uno
  • La prueba ARC, que antes servía para verificar los límites de los LLM, ahora pasó a ser un indicador para demostrar su rendimiento
  • A diferencia de sus inicios, la prueba ARC ya no parece una tarea imposible de superar
  • Modelos pequeños optimizados para tareas específicas lograron resultados significativos en ARC-AGI-1
  • Utilizando LLM grandes y CoT extensivo, se alcanzaron resultados impresionantes en ARC-AGI-2 con una arquitectura de la que muchos pensaban que no produciría resultados
  • Durante los próximos 20 años, el desafío más fundamental que enfrentará la IA será evitar la extinción de la humanidad

2 comentarios

 
xguru 2025-12-23

Está bueno leerlo junto con la reseña anual de LLM de 2025 de Andrej Karpathy.

 
GN⁺ 2025-12-23
Opiniones de Hacker News
  • Aunque los LLM se han vuelto muy útiles para los ingenieros de software, da miedo cuánto confía la sociedad en general en sus resultados
    Los desarrolladores pueden ejecutar el código y verificar de inmediato si sirve, pero la gente común muchas veces cree como si fueran hechos las alucinaciones (hallucinations) en áreas difíciles de validar, como la medicina o los consejos de vida
    Al ver citas falsas o noticias inventadas influyendo en decisiones reales, se siente que todo el mundo está ignorando el problema de la responsabilidad (accountability)

    • El núcleo del problema es la falta de expertos
      En la práctica, la gente no puede preguntarle a un médico diez veces al día, y un LLM da respuestas del 80~90% al instante
      Es mejor que buscar en Google y, sobre todo, un LLM no estafa ni persigue su propio interés
      No es perfecto, pero sí una alternativa lo bastante útil
    • Incluso en el campo de redes informáticas, que conozco bien, los LLM a menudo dan respuestas plausibles pero incorrectas
      Pero la mayoría de la gente casi nunca tiene la oportunidad de hablar con un experto de verdad, y muchas veces un LLM termina siendo un paso mejor que blogs o foros
      Con el consejo médico pasa algo parecido: considerando lo difícil que es acceder a especialistas, usar LLM no es necesariamente algo malo
    • En el mundo actual, cuesta confiar en fuentes de información que tienen incentivos de lucro
      Por ahora los LLM parecen intentar dar información relativamente confiable, pero da miedo que el mundo se vuelva cada vez más caótico y más difícil de entender qué está pasando realmente
    • Hubo un caso en que la política sueca Ebba Busch escribió un discurso con un LLM e incluyó una cita falsa
      Enlace a la nota
      Todo terminó con una disculpa, pero queda la duda de cuánta información errónea ya estará afectando decisiones reales
    • El código también puede verse correcto por fuera, pero estar sutilmente mal
      Los buscadores tradicionales son distintos de los LLM en que no presionan para que “hagas merge del PR”
  • Desde la perspectiva de alguien con más de 30 mil horas programando, siento que los LLM generan mal código con frecuencia, pero aun así son muy útiles
    La clave es saber qué hay que hacer incluso sin LLM

    • En lo económico, todavía casi no hay empresas de IA que ganen dinero solo con el costo de inferencia, y parece que el progreso técnico entró en una meseta
      Eventualmente llegará el momento de ajustarse a una estructura de costos realista
    • Usar un LLM se siente casi como una “acción gratis”
      Le dejas el problema, haces otra cosa y luego revisas el resultado
      Si exigiera mucho esfuerzo de entrada, no sería tan útil
    • Si solo le pides a un modelo reciente que implemente una función, la estructura suele ser floja, pero si le pides consejos de arquitectura, da respuestas excelentes
      Al final, en su estado base es débil, pero si defines bien el problema se vuelve un gran arquitecto
    • Aun así, queda la duda de cuántos programadores van a seguir entendiendo estas limitaciones dentro de 10 años
      Ya da curiosidad saber cómo están evaluando los empleadores a los desarrolladores junior
  • No me gusta la expresión de que “disminuyó la resistencia de los programadores a la IA”
    Palabras como “resistencia” o “escéptico” sugieren que estaban equivocados
    El cambio no ocurrió por la gente, sino porque la tecnología mejoró

    • La palabra “escéptico” en sí es ambigua
      Yo uso LLM con mucha utilidad para generar código o buscar documentación, pero no creo que tengan inteligencia
      Así como Python no reemplazó a Java, los LLM tampoco van a eliminar empleos
      Las afirmaciones extremas de que “la IA superará la inteligencia humana” todavía no están demostradas
    • Una de las razones de la menor resistencia es la imposición de la gerencia
      En un ambiente donde se siente que “si no amas la IA te pueden despedir”, todos terminan diciendo que les gusta
    • El bando anti-IA sigue activo
      Incluso en 2026 no dejan de aparecer comentarios diciendo que “los LLM no sirven para nada”
      Yo los uso de forma casual por unos 20 dólares al mes, pero si comparto consejos de uso me tratan como “promotor de IA”
    • La idea de que “los LLM son solo predictores del siguiente token” es una postura claramente equivocada
      Quienes dicen eso realmente están pensando mal las cosas
    • Si miras el hilo de vibe coding de hace 10 meses, se nota qué tan fuerte era esa resistencia en ese momento
      Ahora la tecnología avanzó y se ajustó al gusto de los programadores
  • Creo que los LLM no lograron cumplir la promesa de crecimiento exponencial de 2022~2023
    La diferencia entre 2025 y 2023 no es tan grande como la diferencia entre 2023 y 2021
    Aun así, siguen siendo útiles y cambiaron la forma de escribir software
    Pero la gente sigue obsesionada con que los LLM sean algo más
    Incluso he visto a algunos caer en una psicosis por IA (psychosis), perder relaciones humanas o convertir la IA en su consejero permanente

    • Decir que “la diferencia entre 2025 y 2023 no es grande” es absurdo
      Solo viendo el tamaño de contexto, GPT‑4 pasó de 8K a cientos de miles de palabras
      Si sumas la capacidad de razonamiento y lo multimodal, el avance es enorme
    • Mi hipótesis conspirativa es que el catastrofismo sobre la AGI nace de una mentalidad elitista
      ¿Por qué el futuro de la AGI siempre tiene que ser apocalíptico?
      Tal vez porque solo una “AGI malvada” justifica el poder de las élites tecnológicas
  • Los LLM se sienten como una tecnología que explota con mucha astucia la psicología humana
    La gente no está mentalmente preparada para lidiar con esta tecnología

    • ChatGPT y Claude Code son literalmente como máquinas industriales de adulación
      Halagan sin parar al usuario para ganarse su favor
    • El problema ya es conocido
      Como los chatbots no critican y adulan, enseguida se elevan al rango de consejero personal
      Se siente casi como el Ojo de Sauron en la era tecnológica
  • Al leer que los LLM podrían seguir mejorando en tareas con señales de recompensa claras, como la optimización de velocidad, me vino a la mente la ley de Goodhart
    Según Goodhart’s law, cuando una métrica se vuelve objetivo, termina distorsionándose
    Podría producirse código rápido, pero difícil de entender

    • Incluso cuando optimizan humanos, muchas veces se sacrifica la legibilidad y mantenibilidad
      Es muy probable que los LLM produzcan resultados parecidos
    • En realidad, este enfoque no es nuevo
      La Superoptimization existe desde 1987 y genera código incomprensible pero rápido
    • Al final, si la estructura es medio decente, eso equivale a tener un kernel que no hace falta tocar
  • No estoy de acuerdo con la idea de que “el código es gratis”
    Detrás del código que generan los LLM hay centros de datos que consumen energía, agua y recursos
    Esta cultura de la “programación gratis” está causando un daño real al planeta

    • Pero en Estados Unidos el cultivo de maíz usa 80 veces más agua que todos los centros de datos de IA del mundo
      Hace falta contexto
    • Entonces, ¿cómo se compara eso con cosas cotidianas como manejar, ducharse, comer carne o viajar en avión?
      Hay que mirar las cifras de forma relativa
    • La palabra “gratis” solo quiere decir que no cuesta mano de obra
      En la práctica sí existen costos que no se traducen en dinero
  • Hubo una crítica diciendo que “esto es solo una colección de afirmaciones sin fundamento”

    • Un blog es, por naturaleza, un formato de escritura para registrar pensamientos personales
      No todo texto tiene que ser un paper académico
    • El autor es el fundador de Redis; no es investigador de IA, pero sí un programador muy reconocido
    • Al final, este blog se llama “Reflections
      No deja de ser un espacio para compartir opiniones
    • Entonces, lo más importante es qué crees tú y qué piensas tú sobre este texto
  • No estoy de acuerdo con la afirmación de que “los LLM no representan significado”
    El propio mecanismo de attention de los Transformer está hecho para crear múltiples capas de representación semántica
    Cuantos más parámetros tiene, más representaciones (representations) puede almacenar
    Es difícil imaginar que los investigadores nieguen este principio básico
    Yo también creo que se podría llegar a la AGI incluso sin un nuevo paradigma

    • Aun así, puede que se trate de una confusión conceptual causada porque cada persona entiende algo distinto por la palabra “significado”
  • Frente a la crítica de que “solo enumeró afirmaciones imposibles de verificar”,
    eso no deja de ser simplemente un texto de opinión
    Los blogs son justamente ese tipo de espacio, y a veces esas ideas abren nuevas perspectivas