GPT-5: se retrasó, fue sobreestimado y decepcionó, y el problema es aún más serio

(garymarcus.substack.com)

6 puntos por GN⁺ 2025-08-11 | Aún no hay comentarios. | Compartir por WhatsApp

A pesar de las expectativas, tras la salida pública de GPT-5 la decepción de la comunidad aumentó notablemente
GPT-5 no muestra una distinción sustantiva respecto de los modelos anteriores y, en algunos benchmarks, se confirmó incluso un rendimiento peor.
Investigaciones recientes demostraron que los límites de generalización y el problema de desplazamiento de distribución de los grandes modelos de lenguaje (LLM) siguen siendo graves.
La pérdida del liderazgo tecnológico de OpenAI, la salida de personal clave y la persecución de competidores han vuelto opaca la capacidad de sostener su valor empresarial.
Al crecer el escepticismo sobre las afirmaciones de logro de AGI, la industria en general reconoce cada vez más los límites del enfoque de escalado puro.

Lanzamiento y expectativas de GPT-5

Finalmente se concretó la presentación de GPT-5 que OpenAI había anunciado durante mucho tiempo.
El CEO Sam Altman aprovechó con fuerza una narrativa de confianza y una imagen de marketing antes y después del lanzamiento.
Sin embargo, tras el lanzamiento de GPT-5, la decepción dominó en la mayoría de las comunidades, con excepción de algunos influencers.
Los usuarios quedaron bastante decepcionados con el nuevo modelo y se observó incluso la aprobación de una petición para restaurar la versión anterior.
Contrariamente al marketing y a las afirmaciones de Altman, las reseñas posteriores al uso se inclinaron claramente hacia una evaluación negativa.

En comunidades como OpenAI Reddit, Hacker News y otras, se señalaron con énfasis problemas de GPT-5 como errores y alucinaciones (hallucinations).
En benchmarks de rendimiento clave también se mostró desventaja frente a modelos competidores como Grok 4.
Nuevas funciones como el enrutamiento automático también revelaron confusión y falta de pulido.
En un contexto de expectativas comunitarias que crecían rápidamente, GPT-5 dejó una gran decepción.
En la encuesta de Polymarket del día del lanzamiento, la confianza en el liderazgo de IA de OpenAI cayó del 75% al 14% en una hora.

Persisten los problemas de errores de razonamiento básicos y de incumplimiento de las reglas de ajedrez que ya habían señalado el autor y varios expertos.
En áreas como la generación de imágenes, se observan claramente límites en relaciones parte-todo y coherencia visual.
GPT-5 incurre en errores en cuestiones en las que no fallarían ni un doctor en ingeniería mecánica ni una persona común.
También se reportaron numerosos casos de error en tareas básicas como resumen y comprensión lectora.
GPT-5 es un modelo de mejora gradual aceptable, pero, en comparación con el año pasado, no muestra innovación llamativa.

GPT-5 se quedó en una mejora incremental respecto de sus predecesores y repitió fallas críticas.
En el mercado y en la industria, la confianza en el liderazgo tecnológico de OpenAI sigue cayendo.
Varios talentos clave se fueron para fundar o incorporarse a competidores, y Anthropic, Google y Elon Musk los están alcanzando rápidamente.
Crecen los riesgos estructurales: presión por reducción de precios, problemas de rentabilidad y deterioro de la relación con Microsoft.
Se agravan el escepticismo sobre la viabilidad de AGI basada en LLM y la pérdida de confianza en el CEO Sam Altman.

Un paper reciente de Arizona State University confirmó que incluso el razonamiento de Chain of Thought se derrumba al salir de la distribución de entrenamiento.
La vulnerabilidad al desplazamiento de distribución (distribution shift), ya señalada por Apple y otras empresas, también se observa de manera idéntica en los modelos más recientes.
Esto muestra que la causa raíz de que los LLM sigan chocando con límites cualitativos es que el problema no puede superarse con solo aumentar los parámetros a gran escala.
Se evidencia que la estrategia de escalado, con miles de millones de dólares invertidos, fracasó en resolver los problemas de fondo.
Se expande la percepción de que hace falta buscar una nueva metodología.

Es generalizada la publicidad exagerada alrededor de AGI, automatización de la conducción y cronogramas fantasiosos.
Son graves los benchmarks con resultados distorsionados, las evaluaciones tipo caja negra y la falta de transparencia.
Cada vez más personas empiezan a ver el término ‘AGI’ como un mecanismo para atraer inversores y al público general.
Aumentan simultáneamente la expectativa optimista sobre la IA y el hype en torno a ella.
El hecho de que el enfoque de escalado puro se haya topado contra un muro sin salida ya es la realidad.

Aunque GPT-5 puede haber salido más barato, sus límites cualitativos en ajedrez, razonamiento, comprensión visual y matemáticas siguen intactos.
Modelos competidores como Grok, Claude y Gemini también repiten problemas similares.
El problema del desplazamiento de distribución (distribution shift) sigue sin resolver.
Se plantea la necesidad de enfoques nuevos, como la IA neurosimbólica (neurosymbolic AI) y métodos basados en world models.
Se reafirma que una innovación algorítmica integral es esencial para lograr AGI, y no el escalado puro.

Además de las limitaciones de los LLM descubiertas esta semana, se insinúa que se revelará otro problema científico igualmente grave.
Se anuncia que en la siguiente entrega se compartirá contenido adicional.

Tras el lanzamiento de GPT-5 se debatió ampliamente la expectativa y reacción de la industria y la comunidad, los límites estructurales de los LLM, el futuro de OpenAI y la realidad del marco AGI.
El contenido completo ofrece implicaciones clave para startups y profesionales de TI sobre LLM, límites reales de GPT-5, inversión/esfuerzo/fracaso de IA, temas de innovación y tendencias de investigación.