- En los avances recientes de la IA, la introducción de nuevos datasets ha sido más importante que las ideas nuevas
- La mayoría de los grandes avances surgieron al aplicar tecnologías ya existentes a nuevas fuentes de datos
- Los cambios en los datos influyen más en el rendimiento del modelo que las innovaciones en la tecnología de IA
- Es probable que el próximo cambio de paradigma sea posible cuando se aprovechen nuevas fuentes de datos como YouTube o los robots
- Aunque la mayoría de los investigadores se enfocan en nuevas metodologías, en realidad los datos son la clave del progreso
Estado actual y patrón del progreso de la IA
- La IA ha logrado avances extraordinarios en los últimos 15 años, especialmente en los últimos 5
- Algunos investigadores sostienen que la IA está mejorando de forma exponencial en ciertas tareas, como si existiera una 'ley de Moore para la IA'
- Sin embargo, en la práctica los grandes avances no ocurren con frecuencia, y la estructura real es la de un progreso lento pero constante
¿De dónde viene la innovación?
- Mucha gente cree que el progreso de la IA proviene de las ideas del mundo académico y la industria, como MIT, Stanford o Google
- A través de la investigación, claramente siguen apareciendo innovaciones de sistema que reducen el costo de entrenamiento y mejoran la eficiencia
- En 2022, FlashAttention de Stanford optimizó el uso de memoria
- En 2023, speculative decoding de Google mejoró la velocidad de inferencia
- En 2024, el proyecto Muon propuso un nuevo enfoque de optimizador
- En 2025, DeepSeek-R1 ofreció como open source un modelo al nivel de los principales laboratorios de IA
- Los investigadores comparten rápidamente sus resultados de forma abierta a través de arXiv, conferencias y redes sociales, y hoy se desarrolla activamente un experimento científico global y distribuido
Por qué parece que la innovación en IA se ha desacelerado
- En modelos recientes como Grok 3 y GPT-4.5, la magnitud de la mejora en rendimiento se ha reducido
- También hay críticas que señalan que los anuncios fueron exagerados, ya que los resultados en evaluaciones reales, como olimpiadas de matemáticas, han sido bajos
- Los grandes cambios de paradigma (deep learning, transformers, RLHF, reasoning) aparecen rara vez, en escalas de una década
El rasgo común de los grandes avances: nuevos datasets
- Los cuatro grandes avances coinciden con momentos en que se aprovechó por primera vez una nueva fuente de datos a gran escala
- AlexNet: ImageNet (gran volumen de imágenes etiquetadas)
- Transformers: texto de toda la web (Internet)
- RLHF: datos de 'buen texto' evaluados por humanos
- Reasoning: resultados de herramientas de verificación externas, como calculadoras y compiladores
- Después de que cada dataset se introdujo por primera vez a gran escala, vino una competencia por asegurar los datos restantes y por desarrollar técnicas para usarlos de manera eficiente
Nuevas ideas vs. el papel de los datos
- Incluso sin una arquitectura de modelo específica, si se dispone de los mismos datos, pueden desarrollarse modelos de nivel similar
- En la práctica, reemplazar el dataset de entrenamiento tiene un impacto mayor en el rendimiento que la innovación técnica
- Aunque AlexNet hubiera sido reemplazado por otra estructura, el progreso habría sido posible gracias a ImageNet
- Incluso sin Transformer, LSTM o SSM muestran un rendimiento similar con los mismos datos
- El dataset determina el límite superior de lo que puede aprenderse, y esto no puede superarse solo con mejoras en modelos o algoritmos
- Como enfatiza The Bitter Lesson, más que los métodos nuevos, lo realmente importante al final son los datos
Posibles candidatos para el próximo cambio de paradigma en IA
- Es muy probable que el próximo gran salto de la IA ocurra no por una nueva red o un nuevo método de RL, sino al usar nuevas fuentes de datos que hasta ahora no se han aprovechado
- En otras palabras, el cambio de paradigma probablemente ocurrirá cuando se aseguren nuevos datasets a gran escala
- El candidato más observado: datos de video como los de YouTube
- A YouTube se suben 500 horas de video por minuto
- Contienen decenas de veces más información que el texto y permiten aprender matices lingüísticos, así como contexto físico y cultural
- Es muy probable que big tech como Google pronto empiecen a entrenar seriamente con este dataset
- Otra posibilidad: recolectar datos del mundo físico mediante robots (embodied system)
- Si se consolida la infraestructura para procesar y entrenar a gran escala datos de cámaras y sensores en GPU, estos datos también tienen alta probabilidad de convertirse en una fuente de innovación en IA
- Los datos de texto están llegando a su límite, por lo que nuevas fuentes como video y robots probablemente definirán el futuro de la IA
Conclusión
- El próximo avance de la IA no vendrá de nuevas ideas o algoritmos, sino de nuevas fuentes de datos
- Aunque el 95% de los investigadores se enfoca en nuevas metodologías, la innovación real surge de los cambios en los datasets
- Si se quiere impulsar el avance de la IA, hay que enfocarse no en ideas nuevas, sino en conseguir nuevos datos
1 comentarios
Opiniones en Hacker News
Se comenta que la forma de explorar de John Carmack es bastante interesante
Compartió la experiencia de entrenar un modelo que juega extremadamente bien videojuegos 2D, para luego probar si puede rendir bien en juegos 2D que nunca había visto antes o en niveles nuevos
Señala que el resultado fue que el desempeño del modelo incluso cayó en juegos sin experiencia previa, subrayando que eso no es inteligencia artificial, sino solo pericia en una tarea específica
Afirma que, más que alimentar el miedo al superinteligencia artificial (ASI), es mucho más difícil crear una inteligencia general que aprenda un nuevo juego 2D más rápido que un humano
Se apunta que el modelo que John Carmack usó realmente para llegar a esta conclusión no era de última generación y que se trataba de un proyecto más recreativo, sin usar un foundational model costoso
Se menciona que, para investigación profunda en video/visión AI, sería más apropiado manipular un espacio latente probabilístico aplicable al conjunto de los juegos
Pone como ejemplo la capacidad de veo3 para generar video bajo restricciones de prompt, explicando que la IA puede generalizar juegos 2D y 3D
Se afirma que veo3 podría mostrar resultados que parecen jugar razonablemente bien cualquier juego incluso sin fine-tuning específico para ese juego
Dice que le cuesta entender por qué la gente insiste en llevar la discusión por ese camino
Hay claramente varias formas de alcanzar un objetivo dado, y cuestiona por qué el experimento de John Carmack debería tomarse como estándar cuando él ni siquiera es experto en IA
Cree que quizá se escaló demasiado el tamaño del modelo y eso produjo overfitting (ajuste excesivo a un dataset específico)
Se pregunta si imponer restricciones al modelo podría empujarlo a aprender heurísticas más generales
Enfatiza que una IA sin restricciones terminaría limitándose a reproducir el speedrun óptimo, pero que al enfrentarse a contenido nuevo, distintas heurísticas son mucho más importantes
Aclara que el tema mencionado pertenece al campo de Meta-Reinforcement Learning
Explorar este campo por parte de John Carmack tiene sentido, pero no es un tema de investigación nuevo en absoluto
Introducción sencilla a Meta-Reinforcement Learning
Explica que la pregunta de si el modelo tiene “inteligencia real” es interesante desde la academia que piensa en AGI (inteligencia artificial general), pero que para muchos usuarios que simplemente usan LLM de forma útil, no es algo tan importante
Dice que no le preocupa si el progreso actual conduce o no a AGI
Comparte que, aunque todo se detuviera en Claude 4, igual lo seguiría usando porque sigue siendo útil
Enfatiza que, en lugar del debate sobre AGI, le parece mucho más interesante cómo está usando la gente la IA en la práctica hoy en día
Afirma con seguridad que ahora mismo estamos viviendo los primeros tiempos de la IA
Explica con ejemplos que la IA ha logrado avances asombrosos en dos áreas: lenguaje (LLM: GPT-4, Claude) y visión (CLIP, DALL·E)
Señala que las computadoras ya generan poesía y código, describen fotos y mantienen conversaciones a nivel humano, pero en realidad solo han escalado dos modalidades: texto e imagen
La inteligencia humana tiene una naturaleza multimodal rica en la que se entrelazan tacto, gusto, olfato, movimiento, emoción y muchos otros sentidos
Los LLM o los Vision Transformer casi no implementan estos elementos
Subraya que la verdadera frontera de la IA está en el mundo sensorial complejo y rico de la vida cotidiana
Explica que para eso hacen falta nuevos sensores, representaciones de datos que vayan más allá de los tokens y nuevos métodos de entrenamiento de modelos basados en la experiencia
Responde cortésmente en desacuerdo con la idea de que lenguaje o visión sean apenas el punto de partida de la esencia de la inteligencia artificial
Sostiene que el tacto es interesante, pero que para prácticamente toda interacción en línea bastan audio, video y lenguaje
Explica que la diferencia decisiva entre humanos y animales no está en “los sentidos restantes”, sino en voz, imagen y lenguaje
Añade que, para actuar en el mundo físico, sí es importante integrar tacto, propiocepción y olfato, pero que el núcleo de la inteligencia está en el lenguaje y la visión
Considera que las dos cosas que más deben avanzar son la adaptabilidad orgánica y la persistencia de la memoria
Señala que el cerebro humano cambia su estructura de forma dinámica, mientras que los LLM son fijos y solo “aprenden” tras repetir entrenamiento sobre la información recibida
Enfatiza que, para crear máquinas inteligentes, estas deberían poder aprender por sí mismas en tiempo real y recordar información
Plantea la idea de que, con la arquitectura de IA actual, quizá lenguaje y visión sean el final del camino
Menciona que en los últimos años ha habido muchas noticias sobre LLM, pero casi ningún avance destacado en otras áreas de la IA
Recalca que el futuro del verdadero avance en IA está en una vida tan sensorialmente rica y tan ligada al mundo físico como la humana
Lo ilustra diciendo que, tal como en Doctor Who se decía que un Dalek no es una máquina con cerebro, sino la máquina misma, los humanos también somos nuestro cuerpo entero
Frente a la mención de un “avance increíblemente difícil de creer”, adopta una visión cínica: solo se aplicó a computadoras un millón de veces más potentes una tecnología que ya había sido abandonada en los años 70
Dice que no se ve ninguna innovación fundamental en la estructura de modelos o en la forma de computar que apunte a mejoras exponenciales de rendimiento en el futuro
Menciona la confusión entre progreso científico y progreso tecnológico
Explica que cuando la ciencia progresa, suele avanzar de forma abrupta siguiendo una curva S y luego entra en una fase de rendimientos decrecientes
Señala que muchas veces no se distingue entre una etapa de optimización rápida y una fase de desaceleración
Critica que llamar “progreso tecnológico” a la simple exageración o expectativa es ser demasiado generoso
Añade que la gente no suele entender bien la diferencia entre una curva S y una función exponencial
Explica que, en ciertos tramos, ambas pueden verse casi iguales
Se pregunta por qué se menciona especialmente a DeepSeek
Desde la perspectiva de alguien que lee investigaciones y papers sobre arquitectura de modelos, señala que están apareciendo muchísimas ideas nuevas
Sin embargo, solo una parte limitada produce resultados realmente interesantes
Sospecha que librerías como PyTorch también pueden estar frenando el desarrollo experimental
Considera que se ha vuelto demasiado normal simplemente reutilizar componentes básicos, y que eso hace que se reflexione menos a fondo sobre cada parte
Muestra dudas sobre la tendencia de agregar sin cuestionar tokenizers o modelos de visión creados por otros solo para marcar casillas en una “model card”
Explica que este tipo de dinámica es un patrón demasiado común y natural también en el mundo humano
Cuando el ROI de la exploración intelectual cae sobre una tecnología base actual, es normal que por un tiempo los recursos humanos se desplacen a otros lugares
Pero pronostica que, al llegar a un límite, personas realmente innovadoras volverán a las áreas fundamentales y lograrán grandes avances
Cree que la siguiente generación de foundational tech, como PyTorch, también evolucionará de esa manera
Señala que en los últimos 2 o 3 años han sido raros los grandes cambios de arquitectura que muchísima gente conozca y use a diario, pero también se tiende a pasar por alto lo corto que es un horizonte temporal de 3 años
Añade que, además de los LLM, siguen avanzando muchas investigaciones interesantes y útiles, y aunque no es experto en el área, siente que están surgiendo intentos nuevos en enorme variedad
Comenta que, incluso sin PyTorch, quien no tiene intención de experimentar seguiría mostrando la misma actitud
Desde la idea de imaginar un sistema que replique una inteligencia de nivel humano, plantea que la diferencia central entre modelos podría estar en “cambios en el dataset”
En la práctica, hay una similitud, porque gran parte de la capacidad humana para resolver problemas depende de la memoria, la educación y el contexto personal
Se pregunta por la posibilidad de que el modelo obtenga datos de forma activa, es decir, que busque datos por sí mismo y aprenda
Sugiere que haría falta un enfoque en el que, como un bebé humano, aprenda mediante experiencia directa al realizar acciones diversas
Menciona que, en vez de seguir simplemente inyectando datos, una buena dirección sería combinarlo con un simulador físico, por ejemplo si ya puede crear objetos 3D
Pone a Cursor como ejemplo y propone que, tras fijar reglas, un reasoning model infiera las razones y las incorpore a los datos de entrenamiento, elevando así el valor de los datos
Si se revisan los motivos detrás de las decisiones del usuario y se convierten en datos de entrenamiento, podría lograrse una comprensión más profunda
Informa que ya se investiga activamente en simulación y en “embodied AI” (IA incorporada) como brazos robóticos o automóviles
Menciona que ese enfoque corresponde justamente al reinforcement learning, y que en la práctica no es un campo nada fácil
Plantea la opinión de que la mayoría de las ideas nuevas parten de ideas del pasado
La IA es una herramienta para acercarse a ideas antiguas de forma más rápida y con una mirada nueva
Enfatiza que la innovación surge de vacíos o cruces entre ideas viejas, y que al final toda innovación ocurre sobre el trabajo de quienes vinieron antes
Explica que la IA puede verse como un elevador que te lleva directamente a los hombros de gigantes, y que al final todo depende de cómo se use la herramienta
Coincide en que sirve para acceder a ideas viejas, pero argumenta que hay límites cuando se trata de abordarlas desde una mirada realmente nueva
Aunque los LLM ayudan en parte a interpretar datos, todavía se quedan cortos para generar ideas completamente nuevas frente a la investigación existente
Explica que el uso de LLM puede acelerar ciertas áreas muy específicas de la investigación, pero fuera de eso tiene límites
Dice que le cuesta imaginar el caso de un humano que domine todo el conocimiento y aun así no pueda producir una idea completamente nueva
Subraya que el punto central del texto es la discusión sobre la innovación en IA en sí y sobre el aumento de la cantidad y calidad de los datos
Sostiene que sí ha habido innovaciones fundamentales, pero que el mejor camino para mejorar el rendimiento sigue siendo tener más datos y datos de mayor calidad
Da como ejemplo el ciclo del progreso en IA: “más datos → modelos más profundos → repetir”
Dice que no le queda claro cómo se conecta su opinión con esa perspectiva
Refuta la idea de que toda idea nueva proviene solo de ideas viejas usando la anécdota del descubrimiento del anillo de benceno
Explica que la estructura del anillo de benceno surgió por primera vez como la imagen de una serpiente mordiéndose la cola en un sueño (“ouroboros”), mostrando que una imaginación sin precedentes a veces es la fuente de la innovación
Comenta que los LLM modernos, al final, no son más que sumar y multiplicar números
Lo expresa de forma extrema diciendo que eso mismo ya lo hacían los babilonios hace 4000 años
Explica que los humanos también somos, al final, solo el resultado de interacciones de ondas, y que todo significado es algo asignado
Señala que, si existe una forma de indexar el espacio conceptual, entonces es posible explorar lo inesperado, y que por eso las posibilidades son infinitas
Compara que los babilonios lo hacían en tablillas de arcilla, mientras que hoy se procesa dentro de semiconductores con paredes del grosor de un átomo
Opina que, en cuanto al método, sí hay una diferencia enorme
Cree que el entrenamiento actual de la IA en realidad se parece más a un proceso de memorización de datasets
Enfatiza que no se trata de un modo de pensar por sí misma, inducir conclusiones y recordarlas a partir de los datos
Evalúa que quizá pueda saber más “hechos” sobre un tema dado que una persona con PhD, pero que los humanos siguen siendo mejores para pensar sobre ese contenido
Se pregunta si por eso mismo los doctores también suelen tener los libros de texto a mano
Cuestiona si realmente hace falta que un modelo de IA recuerde todos los hechos ya registrados
Explica que en realidad es un proceso un poco más complejo
Lo evalúa como una internalización de los datos en forma de heurísticas para poder responder de manera adecuada a las entradas
Dice que esas heurísticas a veces sorprenden a los humanos y, en ocasiones, muestran soluciones novedosas a problemas
Aunque el concepto de “pensar” es demasiado amplio como para juzgarlo fácilmente, concluye que todavía estamos lejos de la AGI
Compara la idea de “recordar más hechos sobre un tema dado que una persona con PhD” con una laptop
Señala que una laptop también puede almacenar más hechos, ¿no?