10 puntos por GN⁺ 2025-07-01 | 1 comentarios | Compartir por WhatsApp
  • En los avances recientes de la IA, la introducción de nuevos datasets ha sido más importante que las ideas nuevas
  • La mayoría de los grandes avances surgieron al aplicar tecnologías ya existentes a nuevas fuentes de datos
  • Los cambios en los datos influyen más en el rendimiento del modelo que las innovaciones en la tecnología de IA
  • Es probable que el próximo cambio de paradigma sea posible cuando se aprovechen nuevas fuentes de datos como YouTube o los robots
  • Aunque la mayoría de los investigadores se enfocan en nuevas metodologías, en realidad los datos son la clave del progreso

Estado actual y patrón del progreso de la IA

  • La IA ha logrado avances extraordinarios en los últimos 15 años, especialmente en los últimos 5
  • Algunos investigadores sostienen que la IA está mejorando de forma exponencial en ciertas tareas, como si existiera una 'ley de Moore para la IA'
  • Sin embargo, en la práctica los grandes avances no ocurren con frecuencia, y la estructura real es la de un progreso lento pero constante

¿De dónde viene la innovación?

  • Mucha gente cree que el progreso de la IA proviene de las ideas del mundo académico y la industria, como MIT, Stanford o Google
  • A través de la investigación, claramente siguen apareciendo innovaciones de sistema que reducen el costo de entrenamiento y mejoran la eficiencia
    • En 2022, FlashAttention de Stanford optimizó el uso de memoria
    • En 2023, speculative decoding de Google mejoró la velocidad de inferencia
    • En 2024, el proyecto Muon propuso un nuevo enfoque de optimizador
    • En 2025, DeepSeek-R1 ofreció como open source un modelo al nivel de los principales laboratorios de IA
  • Los investigadores comparten rápidamente sus resultados de forma abierta a través de arXiv, conferencias y redes sociales, y hoy se desarrolla activamente un experimento científico global y distribuido

Por qué parece que la innovación en IA se ha desacelerado

  • En modelos recientes como Grok 3 y GPT-4.5, la magnitud de la mejora en rendimiento se ha reducido
  • También hay críticas que señalan que los anuncios fueron exagerados, ya que los resultados en evaluaciones reales, como olimpiadas de matemáticas, han sido bajos
  • Los grandes cambios de paradigma (deep learning, transformers, RLHF, reasoning) aparecen rara vez, en escalas de una década

El rasgo común de los grandes avances: nuevos datasets

  • Los cuatro grandes avances coinciden con momentos en que se aprovechó por primera vez una nueva fuente de datos a gran escala
    • AlexNet: ImageNet (gran volumen de imágenes etiquetadas)
    • Transformers: texto de toda la web (Internet)
    • RLHF: datos de 'buen texto' evaluados por humanos
    • Reasoning: resultados de herramientas de verificación externas, como calculadoras y compiladores
  • Después de que cada dataset se introdujo por primera vez a gran escala, vino una competencia por asegurar los datos restantes y por desarrollar técnicas para usarlos de manera eficiente

Nuevas ideas vs. el papel de los datos

  • Incluso sin una arquitectura de modelo específica, si se dispone de los mismos datos, pueden desarrollarse modelos de nivel similar
  • En la práctica, reemplazar el dataset de entrenamiento tiene un impacto mayor en el rendimiento que la innovación técnica
    • Aunque AlexNet hubiera sido reemplazado por otra estructura, el progreso habría sido posible gracias a ImageNet
    • Incluso sin Transformer, LSTM o SSM muestran un rendimiento similar con los mismos datos
  • El dataset determina el límite superior de lo que puede aprenderse, y esto no puede superarse solo con mejoras en modelos o algoritmos
  • Como enfatiza The Bitter Lesson, más que los métodos nuevos, lo realmente importante al final son los datos

Posibles candidatos para el próximo cambio de paradigma en IA

  • Es muy probable que el próximo gran salto de la IA ocurra no por una nueva red o un nuevo método de RL, sino al usar nuevas fuentes de datos que hasta ahora no se han aprovechado
  • En otras palabras, el cambio de paradigma probablemente ocurrirá cuando se aseguren nuevos datasets a gran escala
    • El candidato más observado: datos de video como los de YouTube
      • A YouTube se suben 500 horas de video por minuto
      • Contienen decenas de veces más información que el texto y permiten aprender matices lingüísticos, así como contexto físico y cultural
      • Es muy probable que big tech como Google pronto empiecen a entrenar seriamente con este dataset
    • Otra posibilidad: recolectar datos del mundo físico mediante robots (embodied system)
      • Si se consolida la infraestructura para procesar y entrenar a gran escala datos de cámaras y sensores en GPU, estos datos también tienen alta probabilidad de convertirse en una fuente de innovación en IA
  • Los datos de texto están llegando a su límite, por lo que nuevas fuentes como video y robots probablemente definirán el futuro de la IA

Conclusión

  • El próximo avance de la IA no vendrá de nuevas ideas o algoritmos, sino de nuevas fuentes de datos
  • Aunque el 95% de los investigadores se enfoca en nuevas metodologías, la innovación real surge de los cambios en los datasets
  • Si se quiere impulsar el avance de la IA, hay que enfocarse no en ideas nuevas, sino en conseguir nuevos datos

1 comentarios

 
GN⁺ 2025-07-01
Opiniones en Hacker News
  • Se comenta que la forma de explorar de John Carmack es bastante interesante
    Compartió la experiencia de entrenar un modelo que juega extremadamente bien videojuegos 2D, para luego probar si puede rendir bien en juegos 2D que nunca había visto antes o en niveles nuevos
    Señala que el resultado fue que el desempeño del modelo incluso cayó en juegos sin experiencia previa, subrayando que eso no es inteligencia artificial, sino solo pericia en una tarea específica
    Afirma que, más que alimentar el miedo al superinteligencia artificial (ASI), es mucho más difícil crear una inteligencia general que aprenda un nuevo juego 2D más rápido que un humano

    • Se apunta que el modelo que John Carmack usó realmente para llegar a esta conclusión no era de última generación y que se trataba de un proyecto más recreativo, sin usar un foundational model costoso
      Se menciona que, para investigación profunda en video/visión AI, sería más apropiado manipular un espacio latente probabilístico aplicable al conjunto de los juegos
      Pone como ejemplo la capacidad de veo3 para generar video bajo restricciones de prompt, explicando que la IA puede generalizar juegos 2D y 3D
      Se afirma que veo3 podría mostrar resultados que parecen jugar razonablemente bien cualquier juego incluso sin fine-tuning específico para ese juego

    • Dice que le cuesta entender por qué la gente insiste en llevar la discusión por ese camino
      Hay claramente varias formas de alcanzar un objetivo dado, y cuestiona por qué el experimento de John Carmack debería tomarse como estándar cuando él ni siquiera es experto en IA

    • Cree que quizá se escaló demasiado el tamaño del modelo y eso produjo overfitting (ajuste excesivo a un dataset específico)
      Se pregunta si imponer restricciones al modelo podría empujarlo a aprender heurísticas más generales
      Enfatiza que una IA sin restricciones terminaría limitándose a reproducir el speedrun óptimo, pero que al enfrentarse a contenido nuevo, distintas heurísticas son mucho más importantes

    • Aclara que el tema mencionado pertenece al campo de Meta-Reinforcement Learning
      Explorar este campo por parte de John Carmack tiene sentido, pero no es un tema de investigación nuevo en absoluto
      Introducción sencilla a Meta-Reinforcement Learning

    • Explica que la pregunta de si el modelo tiene “inteligencia real” es interesante desde la academia que piensa en AGI (inteligencia artificial general), pero que para muchos usuarios que simplemente usan LLM de forma útil, no es algo tan importante
      Dice que no le preocupa si el progreso actual conduce o no a AGI
      Comparte que, aunque todo se detuviera en Claude 4, igual lo seguiría usando porque sigue siendo útil
      Enfatiza que, en lugar del debate sobre AGI, le parece mucho más interesante cómo está usando la gente la IA en la práctica hoy en día

  • Afirma con seguridad que ahora mismo estamos viviendo los primeros tiempos de la IA
    Explica con ejemplos que la IA ha logrado avances asombrosos en dos áreas: lenguaje (LLM: GPT-4, Claude) y visión (CLIP, DALL·E)
    Señala que las computadoras ya generan poesía y código, describen fotos y mantienen conversaciones a nivel humano, pero en realidad solo han escalado dos modalidades: texto e imagen
    La inteligencia humana tiene una naturaleza multimodal rica en la que se entrelazan tacto, gusto, olfato, movimiento, emoción y muchos otros sentidos
    Los LLM o los Vision Transformer casi no implementan estos elementos
    Subraya que la verdadera frontera de la IA está en el mundo sensorial complejo y rico de la vida cotidiana
    Explica que para eso hacen falta nuevos sensores, representaciones de datos que vayan más allá de los tokens y nuevos métodos de entrenamiento de modelos basados en la experiencia

    • Responde cortésmente en desacuerdo con la idea de que lenguaje o visión sean apenas el punto de partida de la esencia de la inteligencia artificial
      Sostiene que el tacto es interesante, pero que para prácticamente toda interacción en línea bastan audio, video y lenguaje
      Explica que la diferencia decisiva entre humanos y animales no está en “los sentidos restantes”, sino en voz, imagen y lenguaje
      Añade que, para actuar en el mundo físico, sí es importante integrar tacto, propiocepción y olfato, pero que el núcleo de la inteligencia está en el lenguaje y la visión

    • Considera que las dos cosas que más deben avanzar son la adaptabilidad orgánica y la persistencia de la memoria
      Señala que el cerebro humano cambia su estructura de forma dinámica, mientras que los LLM son fijos y solo “aprenden” tras repetir entrenamiento sobre la información recibida
      Enfatiza que, para crear máquinas inteligentes, estas deberían poder aprender por sí mismas en tiempo real y recordar información

    • Plantea la idea de que, con la arquitectura de IA actual, quizá lenguaje y visión sean el final del camino
      Menciona que en los últimos años ha habido muchas noticias sobre LLM, pero casi ningún avance destacado en otras áreas de la IA

    • Recalca que el futuro del verdadero avance en IA está en una vida tan sensorialmente rica y tan ligada al mundo físico como la humana
      Lo ilustra diciendo que, tal como en Doctor Who se decía que un Dalek no es una máquina con cerebro, sino la máquina misma, los humanos también somos nuestro cuerpo entero

    • Frente a la mención de un “avance increíblemente difícil de creer”, adopta una visión cínica: solo se aplicó a computadoras un millón de veces más potentes una tecnología que ya había sido abandonada en los años 70
      Dice que no se ve ninguna innovación fundamental en la estructura de modelos o en la forma de computar que apunte a mejoras exponenciales de rendimiento en el futuro

  • Menciona la confusión entre progreso científico y progreso tecnológico
    Explica que cuando la ciencia progresa, suele avanzar de forma abrupta siguiendo una curva S y luego entra en una fase de rendimientos decrecientes
    Señala que muchas veces no se distingue entre una etapa de optimización rápida y una fase de desaceleración

    • Critica que llamar “progreso tecnológico” a la simple exageración o expectativa es ser demasiado generoso

    • Añade que la gente no suele entender bien la diferencia entre una curva S y una función exponencial
      Explica que, en ciertos tramos, ambas pueden verse casi iguales

  • Se pregunta por qué se menciona especialmente a DeepSeek

  • Desde la perspectiva de alguien que lee investigaciones y papers sobre arquitectura de modelos, señala que están apareciendo muchísimas ideas nuevas
    Sin embargo, solo una parte limitada produce resultados realmente interesantes
    Sospecha que librerías como PyTorch también pueden estar frenando el desarrollo experimental
    Considera que se ha vuelto demasiado normal simplemente reutilizar componentes básicos, y que eso hace que se reflexione menos a fondo sobre cada parte
    Muestra dudas sobre la tendencia de agregar sin cuestionar tokenizers o modelos de visión creados por otros solo para marcar casillas en una “model card”

    • Explica que este tipo de dinámica es un patrón demasiado común y natural también en el mundo humano
      Cuando el ROI de la exploración intelectual cae sobre una tecnología base actual, es normal que por un tiempo los recursos humanos se desplacen a otros lugares
      Pero pronostica que, al llegar a un límite, personas realmente innovadoras volverán a las áreas fundamentales y lograrán grandes avances
      Cree que la siguiente generación de foundational tech, como PyTorch, también evolucionará de esa manera

    • Señala que en los últimos 2 o 3 años han sido raros los grandes cambios de arquitectura que muchísima gente conozca y use a diario, pero también se tiende a pasar por alto lo corto que es un horizonte temporal de 3 años
      Añade que, además de los LLM, siguen avanzando muchas investigaciones interesantes y útiles, y aunque no es experto en el área, siente que están surgiendo intentos nuevos en enorme variedad

    • Comenta que, incluso sin PyTorch, quien no tiene intención de experimentar seguiría mostrando la misma actitud

  • Desde la idea de imaginar un sistema que replique una inteligencia de nivel humano, plantea que la diferencia central entre modelos podría estar en “cambios en el dataset”
    En la práctica, hay una similitud, porque gran parte de la capacidad humana para resolver problemas depende de la memoria, la educación y el contexto personal

  • Se pregunta por la posibilidad de que el modelo obtenga datos de forma activa, es decir, que busque datos por sí mismo y aprenda
    Sugiere que haría falta un enfoque en el que, como un bebé humano, aprenda mediante experiencia directa al realizar acciones diversas
    Menciona que, en vez de seguir simplemente inyectando datos, una buena dirección sería combinarlo con un simulador físico, por ejemplo si ya puede crear objetos 3D
    Pone a Cursor como ejemplo y propone que, tras fijar reglas, un reasoning model infiera las razones y las incorpore a los datos de entrenamiento, elevando así el valor de los datos
    Si se revisan los motivos detrás de las decisiones del usuario y se convierten en datos de entrenamiento, podría lograrse una comprensión más profunda

    • Informa que ya se investiga activamente en simulación y en “embodied AI” (IA incorporada) como brazos robóticos o automóviles

    • Menciona que ese enfoque corresponde justamente al reinforcement learning, y que en la práctica no es un campo nada fácil

  • Plantea la opinión de que la mayoría de las ideas nuevas parten de ideas del pasado
    La IA es una herramienta para acercarse a ideas antiguas de forma más rápida y con una mirada nueva
    Enfatiza que la innovación surge de vacíos o cruces entre ideas viejas, y que al final toda innovación ocurre sobre el trabajo de quienes vinieron antes
    Explica que la IA puede verse como un elevador que te lleva directamente a los hombros de gigantes, y que al final todo depende de cómo se use la herramienta

    • Coincide en que sirve para acceder a ideas viejas, pero argumenta que hay límites cuando se trata de abordarlas desde una mirada realmente nueva
      Aunque los LLM ayudan en parte a interpretar datos, todavía se quedan cortos para generar ideas completamente nuevas frente a la investigación existente
      Explica que el uso de LLM puede acelerar ciertas áreas muy específicas de la investigación, pero fuera de eso tiene límites

    • Dice que le cuesta imaginar el caso de un humano que domine todo el conocimiento y aun así no pueda producir una idea completamente nueva

    • Subraya que el punto central del texto es la discusión sobre la innovación en IA en sí y sobre el aumento de la cantidad y calidad de los datos
      Sostiene que sí ha habido innovaciones fundamentales, pero que el mejor camino para mejorar el rendimiento sigue siendo tener más datos y datos de mayor calidad
      Da como ejemplo el ciclo del progreso en IA: “más datos → modelos más profundos → repetir”
      Dice que no le queda claro cómo se conecta su opinión con esa perspectiva

    • Refuta la idea de que toda idea nueva proviene solo de ideas viejas usando la anécdota del descubrimiento del anillo de benceno
      Explica que la estructura del anillo de benceno surgió por primera vez como la imagen de una serpiente mordiéndose la cola en un sueño (“ouroboros”), mostrando que una imaginación sin precedentes a veces es la fuente de la innovación

  • Comenta que los LLM modernos, al final, no son más que sumar y multiplicar números
    Lo expresa de forma extrema diciendo que eso mismo ya lo hacían los babilonios hace 4000 años

    • Explica que los humanos también somos, al final, solo el resultado de interacciones de ondas, y que todo significado es algo asignado
      Señala que, si existe una forma de indexar el espacio conceptual, entonces es posible explorar lo inesperado, y que por eso las posibilidades son infinitas

    • Compara que los babilonios lo hacían en tablillas de arcilla, mientras que hoy se procesa dentro de semiconductores con paredes del grosor de un átomo
      Opina que, en cuanto al método, sí hay una diferencia enorme

  • Cree que el entrenamiento actual de la IA en realidad se parece más a un proceso de memorización de datasets
    Enfatiza que no se trata de un modo de pensar por sí misma, inducir conclusiones y recordarlas a partir de los datos
    Evalúa que quizá pueda saber más “hechos” sobre un tema dado que una persona con PhD, pero que los humanos siguen siendo mejores para pensar sobre ese contenido

    • Se pregunta si por eso mismo los doctores también suelen tener los libros de texto a mano
      Cuestiona si realmente hace falta que un modelo de IA recuerde todos los hechos ya registrados

    • Explica que en realidad es un proceso un poco más complejo
      Lo evalúa como una internalización de los datos en forma de heurísticas para poder responder de manera adecuada a las entradas
      Dice que esas heurísticas a veces sorprenden a los humanos y, en ocasiones, muestran soluciones novedosas a problemas
      Aunque el concepto de “pensar” es demasiado amplio como para juzgarlo fácilmente, concluye que todavía estamos lejos de la AGI

    • Compara la idea de “recordar más hechos sobre un tema dado que una persona con PhD” con una laptop
      Señala que una laptop también puede almacenar más hechos, ¿no?