GPT-5: se retrasó, fue sobreestimado y decepcionó, y el problema es aún más serio
(garymarcus.substack.com)- A pesar de las expectativas, tras la salida pública de GPT-5 la decepción de la comunidad aumentó notablemente
- GPT-5 no muestra una distinción sustantiva respecto de los modelos anteriores y, en algunos benchmarks, se confirmó incluso un rendimiento peor.
- Investigaciones recientes demostraron que los límites de generalización y el problema de desplazamiento de distribución de los grandes modelos de lenguaje (LLM) siguen siendo graves.
- La pérdida del liderazgo tecnológico de OpenAI, la salida de personal clave y la persecución de competidores han vuelto opaca la capacidad de sostener su valor empresarial.
- Al crecer el escepticismo sobre las afirmaciones de logro de AGI, la industria en general reconoce cada vez más los límites del enfoque de escalado puro.
Lanzamiento y expectativas de GPT-5
- Finalmente se concretó la presentación de GPT-5 que OpenAI había anunciado durante mucho tiempo.
- El CEO Sam Altman aprovechó con fuerza una narrativa de confianza y una imagen de marketing antes y después del lanzamiento.
- Sin embargo, tras el lanzamiento de GPT-5, la decepción dominó en la mayoría de las comunidades, con excepción de algunos influencers.
- Los usuarios quedaron bastante decepcionados con el nuevo modelo y se observó incluso la aprobación de una petición para restaurar la versión anterior.
- Contrariamente al marketing y a las afirmaciones de Altman, las reseñas posteriores al uso se inclinaron claramente hacia una evaluación negativa.
Reacción de la comunidad y los medios
- En comunidades como OpenAI Reddit, Hacker News y otras, se señalaron con énfasis problemas de GPT-5 como errores y alucinaciones (hallucinations).
- En benchmarks de rendimiento clave también se mostró desventaja frente a modelos competidores como Grok 4.
- Nuevas funciones como el enrutamiento automático también revelaron confusión y falta de pulido.
- En un contexto de expectativas comunitarias que crecían rápidamente, GPT-5 dejó una gran decepción.
- En la encuesta de Polymarket del día del lanzamiento, la confianza en el liderazgo de IA de OpenAI cayó del 75% al 14% en una hora.
Límites estructurales: ajedrez, comprensión visual, razonamiento
- Persisten los problemas de errores de razonamiento básicos y de incumplimiento de las reglas de ajedrez que ya habían señalado el autor y varios expertos.
- En áreas como la generación de imágenes, se observan claramente límites en relaciones parte-todo y coherencia visual.
- GPT-5 incurre en errores en cuestiones en las que no fallarían ni un doctor en ingeniería mecánica ni una persona común.
- También se reportaron numerosos casos de error en tareas básicas como resumen y comprensión lectora.
- GPT-5 es un modelo de mejora gradual aceptable, pero, en comparación con el año pasado, no muestra innovación llamativa.
Situación y perspectivas actuales de OpenAI
- GPT-5 se quedó en una mejora incremental respecto de sus predecesores y repitió fallas críticas.
- En el mercado y en la industria, la confianza en el liderazgo tecnológico de OpenAI sigue cayendo.
- Varios talentos clave se fueron para fundar o incorporarse a competidores, y Anthropic, Google y Elon Musk los están alcanzando rápidamente.
- Crecen los riesgos estructurales: presión por reducción de precios, problemas de rentabilidad y deterioro de la relación con Microsoft.
- Se agravan el escepticismo sobre la viabilidad de AGI basada en LLM y la pérdida de confianza en el CEO Sam Altman.
Límites fundamentales de los LLM: generalización y desplazamiento de distribución
- Un paper reciente de Arizona State University confirmó que incluso el razonamiento de Chain of Thought se derrumba al salir de la distribución de entrenamiento.
- La vulnerabilidad al desplazamiento de distribución (distribution shift), ya señalada por Apple y otras empresas, también se observa de manera idéntica en los modelos más recientes.
- Esto muestra que la causa raíz de que los LLM sigan chocando con límites cualitativos es que el problema no puede superarse con solo aumentar los parámetros a gran escala.
- Se evidencia que la estrategia de escalado, con miles de millones de dólares invertidos, fracasó en resolver los problemas de fondo.
- Se expande la percepción de que hace falta buscar una nueva metodología.
Industria de IA en general y límites del escalado
- Es generalizada la publicidad exagerada alrededor de AGI, automatización de la conducción y cronogramas fantasiosos.
- Son graves los benchmarks con resultados distorsionados, las evaluaciones tipo caja negra y la falta de transparencia.
- Cada vez más personas empiezan a ver el término ‘AGI’ como un mecanismo para atraer inversores y al público general.
- Aumentan simultáneamente la expectativa optimista sobre la IA y el hype en torno a ella.
- El hecho de que el enfoque de escalado puro se haya topado contra un muro sin salida ya es la realidad.
Alternativas y conclusión
- Aunque GPT-5 puede haber salido más barato, sus límites cualitativos en ajedrez, razonamiento, comprensión visual y matemáticas siguen intactos.
- Modelos competidores como Grok, Claude y Gemini también repiten problemas similares.
- El problema del desplazamiento de distribución (distribution shift) sigue sin resolver.
- Se plantea la necesidad de enfoques nuevos, como la IA neurosimbólica (neurosymbolic AI) y métodos basados en world models.
- Se reafirma que una innovación algorítmica integral es esencial para lograr AGI, y no el escalado puro.
Próximos temas y PS
- Además de las limitaciones de los LLM descubiertas esta semana, se insinúa que se revelará otro problema científico igualmente grave.
- Se anuncia que en la siguiente entrega se compartirá contenido adicional.
Resumen
- Tras el lanzamiento de GPT-5 se debatió ampliamente la expectativa y reacción de la industria y la comunidad, los límites estructurales de los LLM, el futuro de OpenAI y la realidad del marco AGI.
- El contenido completo ofrece implicaciones clave para startups y profesionales de TI sobre LLM, límites reales de GPT-5, inversión/esfuerzo/fracaso de IA, temas de innovación y tendencias de investigación.
5 comentarios
Suena como pesimismo exagerado.
Entiendo las preocupaciones, pero el proceso de avance tecnológico no puede ser siempre ascendente.
Precisamente porque el autor del post era Gary Marcus, que se dedica a soltar disparates, y eso hizo que...
Si lo hubieran hecho en silencio como Google, con un simple show&prove, quizá no habría llegado a este nivel; pero entre lo de “está demasiado aterrador”, “qué onda con la Death Star”, “si es que hicieron una bomba atómica”, y tanto hype por todos lados, me parece que todo esto es un caso de autolesión.
Y también creo que el error totalmente absurdo de mostrar los benchmarks en la presentación contribuyó a dejar una mala impresión general.
Opinión de Hacker News
Sigo pensando que GPT-5 es, en la práctica, una estrategia de ahorro de costos, porque OpenAI es una empresa orientada al crecimiento que quiere captar mil millones de usuarios en productos que requieren GPU.
Nadie habla de GPT-5 Pro, pero lo probé y se desempeña muy por encima de Grok 4 Heavy y Opus 4.1.
Es tecnología completamente nueva, y si se ejecuta con máximo rendimiento real puede llegar a costar miles de dólares por persona al mes.
Por eso se está ofreciendo de forma limitada: OpenAI no se enfoca en ese segmento de mercado y su estrategia es centrarse en crecer para enfrentarse a Google.
Como nunca se mencionó el modelo Pro, no confío en absoluto en esa opinión.
Mi impresión no es que GPT-5 Pro sea mucho mejor que o3-pro (o tal vez no sea así), es bastante más lento y la calidad de salida es similar.
Revisé mi red y no conozco a nadie que use GPT-5 Pro.
Coincido con esto, pero también creo que hay una intención de lanzar un mejor modelo al público.
¿Es cierto que los modelos Pro no se pueden usar por API?
De acuerdo.
Este tipo de artículo lo encuentro especialmente irritante.
En lugar de analizar directamente por qué cree que GPT-5 es malo y escribirlo, toma solo reacciones de redes sociales, exagera cada crítica como “impactante” o “destructiva”, y así intenta convencer con su propia opinión.
Está demasiado sesgado; ni es periodismo ni un análisis original.
Me da la impresión de que los artículos de IA, en general, carecen de curiosidad de base y tienden más a centrarse en la burla o el menosprecio.
Gary Marcus suele hacer análisis superficiales.
Gary Marcus siempre sostiene que la IA en realidad no funciona — las ocasiones en que acierta son casi al azar.
Este es un post de blog sobre si GPT-5 respondió a la sobrepromesa y qué reacciones está recibiendo.
Creo que el hecho de que cada vez sea más difícil encontrar una opinión genuina es un problema real.
En mi experiencia, esta “actualización” es una gran degradación para los usuarios de Plus.
GPT-5 tiene menor calidad de respuesta que O3, realiza menos procesos de razonamiento y no usa búsqueda web como O3.
Incluso eligiendo “thinking” y dando instrucciones claras, no se resuelve.
Ahora hay que usar Gemini para obtener una salida de calidad similar.
Además, los custom GPTs (Información relacionada) también están rotos: mi GPT de revisión gramatical personalizado ignora órdenes sin importar el modelo.
La opción Deep research también está rara; la eliges y responde igual, y no cambia realmente aunque des instrucciones.
Projects parece estar roto también.
Me parece que te empujarán hacia el plan gratuito o que, desde comienzos del año que viene, van a poner anuncios, o te dirigirán hacia un plan de 200 dólares.
Las alucinaciones (información falsa) son realmente graves.
La comunidad de IA necesita más expertos independientes como Marcus.
Hay que mantener veracidad y transparencia sin dejarse arrastrar por exageraciones sobre la industria o cambios internos de referencia (por ejemplo, “alcanzar AGI internamente”, etc.).
Independientemente de su estilo, Marcus tiene precedentes en señalar con precisión límites de la scaling law y la verdadera falta de razonamiento en AI tipo LLM (generalización fuera de distribución), entre otros temas.
La industria suele negar al principio y luego, al pasar el tiempo, cuando algo nuevo sale al mercado (Prompt Chain, LLMs basados en RL, etc.), afirmar que fue un hallazgo propio.
Se necesita una voz crítica frente a las corrientes exageradas.
Estoy totalmente en desacuerdo.
No atribuiría la mayoría de estas limitaciones o malas percepciones de la IA a Marcus.
El punto de mejora más urgente de GPT hoy es “decir que no lo sabe” cuando no lo sabe.
Hoy intenté encontrar en un mod de Cyberpunk 2077 cómo generar NPC automáticamente con redscript, y fue difícil de resolver.
ChatGPT 5, aunque dice que “investiga”, inventa APIs y repite alucinaciones incluso cuando le señalo varias veces que no es cierto.
Perdí 30 minutos; si simplemente dijera que no sabe, lo habría sabido en 1 minuto.
No hay que caer en la ilusión de que ChatGPT sepa algo.
¡Correcto!
En realidad, no “sabe” nada.
Coincido en que “decir que no lo sabe” es lo más necesario.
Este trabajo de mejora sí se está haciendo y aparece en documentación oficial de OpenAI.
Siento que su “obsesión por acertar cada detalle” termina nublando la verdad en sí misma.
Es interesante la discusión sobre un sistema híbrido symbolic/transformer.
En el post enlazado se muestra que Grok 4 pudo tener éxito en matemáticas al delegar cálculos a Python.
Personalmente, me gustaría ver más un sistema simbólico primero: matemáticas realmente “duras” de manera simbólica, y solo tratar con monads las áreas que requieren razonamiento.
El sistema neurosimbólico de Aloe superó por 20 puntos el benchmark GAIA de deep research de OpenAI.
GPT-5 tiene un problema particular que no vi en GPT-4.
En un hilo de conversación, el contexto se corta de golpe o no acierta a comprender bien la siguiente respuesta.
Da la sensación de que intervino un proceso de limpieza de contexto: como si avanzara sin resumir bien el punto central de la conversación.
Entonces el contexto realmente usable puede haber quedado mucho más chico; eso pasa con frecuencia.
Pide que revise el contenido de la conversación reciente y mejora un poco.
En mi caso, las respuestas me parecieron mucho más cortas.
“La gente vino a esperar un milagro y GPT-5 solo es una mejora incremental reciente”.
Ya no quedan datos de entrenamiento.
La mejora de la IA a partir de aquí dependerá de cambios de estructura.
Todos los modelos nuevos alcanzan el máximo local con la información nueva.
En investigaciones anteriores se concluye que para entrenar frontier LLM es eficaz combinar datos reales sembrados intencionalmente con datos sintéticos de manera principal.
Ya dije esto aquí hace dos años.
¿De verdad significa esto que GPT-5 ya aprendió todos los datos de video del mundo?
¿No se crean nuevos datos de entrenamiento cada día?
Aunque OpenAI haga el mejor modelo, con el nombre “GPT-5” ya se armó tanta expectativa desde la comunidad y OpenAI que el fracaso quedó prácticamente previsto.
De hecho, OpenAI debería haber rechazado memes y la sobrepromoción y optar por mejoras graduales, pero eso habría sido perjudicial para mantener inversionistas, narrativa y ecosistema de IA.
Ya hemos llegado a la cumbre.
También es cierto que Sam Altman jugó directamente un papel en crear y fomentar esas expectativas.
Me intriga cómo, cuando llegue una AGI real, la gente planteará la lógica de que “no estuvo a la altura”.