6 puntos por GN⁺ 2025-08-11 | 5 comentarios | Compartir por WhatsApp
  • A pesar de las expectativas, tras la salida pública de GPT-5 la decepción de la comunidad aumentó notablemente
  • GPT-5 no muestra una distinción sustantiva respecto de los modelos anteriores y, en algunos benchmarks, se confirmó incluso un rendimiento peor.
  • Investigaciones recientes demostraron que los límites de generalización y el problema de desplazamiento de distribución de los grandes modelos de lenguaje (LLM) siguen siendo graves.
  • La pérdida del liderazgo tecnológico de OpenAI, la salida de personal clave y la persecución de competidores han vuelto opaca la capacidad de sostener su valor empresarial.
  • Al crecer el escepticismo sobre las afirmaciones de logro de AGI, la industria en general reconoce cada vez más los límites del enfoque de escalado puro.

Lanzamiento y expectativas de GPT-5

  • Finalmente se concretó la presentación de GPT-5 que OpenAI había anunciado durante mucho tiempo.
  • El CEO Sam Altman aprovechó con fuerza una narrativa de confianza y una imagen de marketing antes y después del lanzamiento.
  • Sin embargo, tras el lanzamiento de GPT-5, la decepción dominó en la mayoría de las comunidades, con excepción de algunos influencers.
  • Los usuarios quedaron bastante decepcionados con el nuevo modelo y se observó incluso la aprobación de una petición para restaurar la versión anterior.
  • Contrariamente al marketing y a las afirmaciones de Altman, las reseñas posteriores al uso se inclinaron claramente hacia una evaluación negativa.

Reacción de la comunidad y los medios

  • En comunidades como OpenAI Reddit, Hacker News y otras, se señalaron con énfasis problemas de GPT-5 como errores y alucinaciones (hallucinations).
  • En benchmarks de rendimiento clave también se mostró desventaja frente a modelos competidores como Grok 4.
  • Nuevas funciones como el enrutamiento automático también revelaron confusión y falta de pulido.
  • En un contexto de expectativas comunitarias que crecían rápidamente, GPT-5 dejó una gran decepción.
  • En la encuesta de Polymarket del día del lanzamiento, la confianza en el liderazgo de IA de OpenAI cayó del 75% al 14% en una hora.

Límites estructurales: ajedrez, comprensión visual, razonamiento

  • Persisten los problemas de errores de razonamiento básicos y de incumplimiento de las reglas de ajedrez que ya habían señalado el autor y varios expertos.
  • En áreas como la generación de imágenes, se observan claramente límites en relaciones parte-todo y coherencia visual.
  • GPT-5 incurre en errores en cuestiones en las que no fallarían ni un doctor en ingeniería mecánica ni una persona común.
  • También se reportaron numerosos casos de error en tareas básicas como resumen y comprensión lectora.
  • GPT-5 es un modelo de mejora gradual aceptable, pero, en comparación con el año pasado, no muestra innovación llamativa.

Situación y perspectivas actuales de OpenAI

  • GPT-5 se quedó en una mejora incremental respecto de sus predecesores y repitió fallas críticas.
  • En el mercado y en la industria, la confianza en el liderazgo tecnológico de OpenAI sigue cayendo.
  • Varios talentos clave se fueron para fundar o incorporarse a competidores, y Anthropic, Google y Elon Musk los están alcanzando rápidamente.
  • Crecen los riesgos estructurales: presión por reducción de precios, problemas de rentabilidad y deterioro de la relación con Microsoft.
  • Se agravan el escepticismo sobre la viabilidad de AGI basada en LLM y la pérdida de confianza en el CEO Sam Altman.

Límites fundamentales de los LLM: generalización y desplazamiento de distribución

  • Un paper reciente de Arizona State University confirmó que incluso el razonamiento de Chain of Thought se derrumba al salir de la distribución de entrenamiento.
  • La vulnerabilidad al desplazamiento de distribución (distribution shift), ya señalada por Apple y otras empresas, también se observa de manera idéntica en los modelos más recientes.
  • Esto muestra que la causa raíz de que los LLM sigan chocando con límites cualitativos es que el problema no puede superarse con solo aumentar los parámetros a gran escala.
  • Se evidencia que la estrategia de escalado, con miles de millones de dólares invertidos, fracasó en resolver los problemas de fondo.
  • Se expande la percepción de que hace falta buscar una nueva metodología.

Industria de IA en general y límites del escalado

  • Es generalizada la publicidad exagerada alrededor de AGI, automatización de la conducción y cronogramas fantasiosos.
  • Son graves los benchmarks con resultados distorsionados, las evaluaciones tipo caja negra y la falta de transparencia.
  • Cada vez más personas empiezan a ver el término ‘AGI’ como un mecanismo para atraer inversores y al público general.
  • Aumentan simultáneamente la expectativa optimista sobre la IA y el hype en torno a ella.
  • El hecho de que el enfoque de escalado puro se haya topado contra un muro sin salida ya es la realidad.

Alternativas y conclusión

  • Aunque GPT-5 puede haber salido más barato, sus límites cualitativos en ajedrez, razonamiento, comprensión visual y matemáticas siguen intactos.
  • Modelos competidores como Grok, Claude y Gemini también repiten problemas similares.
  • El problema del desplazamiento de distribución (distribution shift) sigue sin resolver.
  • Se plantea la necesidad de enfoques nuevos, como la IA neurosimbólica (neurosymbolic AI) y métodos basados en world models.
  • Se reafirma que una innovación algorítmica integral es esencial para lograr AGI, y no el escalado puro.

Próximos temas y PS

  • Además de las limitaciones de los LLM descubiertas esta semana, se insinúa que se revelará otro problema científico igualmente grave.
  • Se anuncia que en la siguiente entrega se compartirá contenido adicional.

Resumen

  • Tras el lanzamiento de GPT-5 se debatió ampliamente la expectativa y reacción de la industria y la comunidad, los límites estructurales de los LLM, el futuro de OpenAI y la realidad del marco AGI.
  • El contenido completo ofrece implicaciones clave para startups y profesionales de TI sobre LLM, límites reales de GPT-5, inversión/esfuerzo/fracaso de IA, temas de innovación y tendencias de investigación.

5 comentarios

 
gnsdl116 2025-08-12

Suena como pesimismo exagerado.
Entiendo las preocupaciones, pero el proceso de avance tecnológico no puede ser siempre ascendente.

 
mammal 2025-08-11

Precisamente porque el autor del post era Gary Marcus, que se dedica a soltar disparates, y eso hizo que...

 
dongho42 2025-08-11

Si lo hubieran hecho en silencio como Google, con un simple show&prove, quizá no habría llegado a este nivel; pero entre lo de “está demasiado aterrador”, “qué onda con la Death Star”, “si es que hicieron una bomba atómica”, y tanto hype por todos lados, me parece que todo esto es un caso de autolesión.

 
dongho42 2025-08-11

Y también creo que el error totalmente absurdo de mostrar los benchmarks en la presentación contribuyó a dejar una mala impresión general.

 
GN⁺ 2025-08-11
Opinión de Hacker News
  • Sigo pensando que GPT-5 es, en la práctica, una estrategia de ahorro de costos, porque OpenAI es una empresa orientada al crecimiento que quiere captar mil millones de usuarios en productos que requieren GPU.

    • Nadie habla de GPT-5 Pro, pero lo probé y se desempeña muy por encima de Grok 4 Heavy y Opus 4.1.

    • Es tecnología completamente nueva, y si se ejecuta con máximo rendimiento real puede llegar a costar miles de dólares por persona al mes.

    • Por eso se está ofreciendo de forma limitada: OpenAI no se enfoca en ese segmento de mercado y su estrategia es centrarse en crecer para enfrentarse a Google.

    • Como nunca se mencionó el modelo Pro, no confío en absoluto en esa opinión.

    • Mi impresión no es que GPT-5 Pro sea mucho mejor que o3-pro (o tal vez no sea así), es bastante más lento y la calidad de salida es similar.

      • Sigue siendo lento y se le escapan los puntos clave.
      • Sin embargo, en la propuesta de nuevas aproximaciones para resolver problemas parece un poco mejor.
      • Mi primera impresión fue que 5-pro tiene de 0 a 2% más conocimiento y unos 5 a 10% más creatividad/originalidad que o3-pro.
      • El “tono” y la personalidad del modelo son exactamente iguales.
      • En tareas específicas (lógica formal, análisis de datos, tareas analíticas cortas) está en un nivel realmente sobrehumano y supera a cualquier versión de Grok o Gemini.
      • Pero para escribir prosa y tareas de redacción general, está claramente por debajo de Kimi K2 y Deepseek R1.
      • Lo más sorprendente es que los modelos que escriben la mejor prosa en inglés son chinos; no es simplemente porque no usan el “estilo IA” de GPT, el nivel de Kimi está a la par de poetas realmente publicados.
    • Revisé mi red y no conozco a nadie que use GPT-5 Pro.

      • ¡Me gustaría muchísimo ver feedback comparándolo con o3!
    • Coincido con esto, pero también creo que hay una intención de lanzar un mejor modelo al público.

      • o3 fue increíblemente bueno, pero mucha gente aún no lo usaba.
      • Cuando le pregunto a amigos que usan ChatGPT todos los días si usaron o3, hacen una cara de asombro.
      • Por eso creo que también hay un objetivo de popularizar modelos de reasoning, lo que para OpenAI significa más costo.
      • Pero por la capa de routing, para el usuario fuerte (la mayoría en HN) también hay un componente de ahorro.
      • Aun así, los power users pronto aprenderán a forzar el uso de modelos de reasoning.
    • ¿Es cierto que los modelos Pro no se pueden usar por API?

      • Me preguntaba si habría forma de usarlos por suscripción a través de Codex CLI.
    • De acuerdo.

      • Otro trasfondo de esta decisión es que para la mayoría de usuarios los modelos existentes ya les bastan.
      • A diferencia de los usuarios de HN, el usuario promedio no está tan interesado en la tecnología más reciente.
  • Este tipo de artículo lo encuentro especialmente irritante.

    • En lugar de analizar directamente por qué cree que GPT-5 es malo y escribirlo, toma solo reacciones de redes sociales, exagera cada crítica como “impactante” o “destructiva”, y así intenta convencer con su propia opinión.

    • Está demasiado sesgado; ni es periodismo ni un análisis original.

    • Me da la impresión de que los artículos de IA, en general, carecen de curiosidad de base y tienden más a centrarse en la burla o el menosprecio.

      • Me gusta la IA, pero leo sin problema textos serios de personas con ideas distintas.
      • Pero este tipo de texto es de otro orden; no tiene valor fuera de criticar al otro lado.
      • Creo que la moderación de HN no está mal, pero me gustaría que este tipo de textos sin curiosidad desaparecieran del principal.
    • Gary Marcus suele hacer análisis superficiales.

      • Sus opiniones se parecen bastante a los comentarios bursátiles de Jim Cramer.
      • Uno podría apostar en serio a una estrategia de “Reverse Gary Marcus”.
    • Gary Marcus siempre sostiene que la IA en realidad no funciona — las ocasiones en que acierta son casi al azar.

    • Este es un post de blog sobre si GPT-5 respondió a la sobrepromesa y qué reacciones está recibiendo.

      • Es un tema totalmente legítimo.
      • Pero como es un blog de Gary Marcus, inevitablemente está sesgado por su opinión, y no es lo mismo que un artículo de la BBC.
    • Creo que el hecho de que cada vez sea más difícil encontrar una opinión genuina es un problema real.

      • En línea, la mayoría se limita a reinterpretar opiniones ajenas y hablar; hay un exceso de ruido y contenido superficial.
  • En mi experiencia, esta “actualización” es una gran degradación para los usuarios de Plus.

    • GPT-5 tiene menor calidad de respuesta que O3, realiza menos procesos de razonamiento y no usa búsqueda web como O3.

    • Incluso eligiendo “thinking” y dando instrucciones claras, no se resuelve.

    • Ahora hay que usar Gemini para obtener una salida de calidad similar.

    • Además, los custom GPTs (Información relacionada) también están rotos: mi GPT de revisión gramatical personalizado ignora órdenes sin importar el modelo.

    • La opción Deep research también está rara; la eliges y responde igual, y no cambia realmente aunque des instrucciones.

    • Projects parece estar roto también.

      • No sigue bien las instrucciones y responde en español o ignora mis preguntas.
      • A veces da la sensación de estar hablando consigo mismo, y sin importar qué tecla escriba sigue dando la misma respuesta no deseada, incluso en español.
    • Me parece que te empujarán hacia el plan gratuito o que, desde comienzos del año que viene, van a poner anuncios, o te dirigirán hacia un plan de 200 dólares.

      • Creo que no habrá un plan de 20 dólares sin anuncios en el futuro.
    • Las alucinaciones (información falsa) son realmente graves.

      • Muy decepcionante.
  • La comunidad de IA necesita más expertos independientes como Marcus.

    • Hay que mantener veracidad y transparencia sin dejarse arrastrar por exageraciones sobre la industria o cambios internos de referencia (por ejemplo, “alcanzar AGI internamente”, etc.).

    • Independientemente de su estilo, Marcus tiene precedentes en señalar con precisión límites de la scaling law y la verdadera falta de razonamiento en AI tipo LLM (generalización fuera de distribución), entre otros temas.

    • La industria suele negar al principio y luego, al pasar el tiempo, cuando algo nuevo sale al mercado (Prompt Chain, LLMs basados en RL, etc.), afirmar que fue un hallazgo propio.

    • Se necesita una voz crítica frente a las corrientes exageradas.

      • La voz más grande alrededor de los LLM suele ser de quienes se benefician económicamente.
      • Yo no estoy en contra de la IA, pero la narrativa de que toda la realidad económica se verá afectada por esta tecnología hasta causar desempleo masivo es ridícula (las razones reales de la crisis económica son otras, en gran parte el liderazgo en cada país).
      • Si la innovación desacelera, al menos espero que los productos que uso vuelvan a centrarse en funciones reales o correcciones de bugs en lugar de forzarles funciones de IA.
    • Estoy totalmente en desacuerdo.

      • Este ensayo se parece más a un armado de quejas de Reddit y no tiene resultados de pruebas directas; solo trata los problemas del despliegue simultáneo de 500 millones.
      • Este tipo de crítica se pierde el punto clave en el lanzamiento de 5: en realidad, este es el primer lanzamiento de un “AI full product”, y ahora pasamos de mejorar modelos a diseñar el producto de servicio.
      • Lo importante es que ahora es más rápido, está integrado y permite innovaciones graduales (interacción multimodal, generación de imágenes, etc.).
      • En particular, hay un gran avance en contexto largo y en mantener metas de largo plazo.
      • Willison también dijo que lo usa como base en su trabajo de código, y yo también siento que en tareas de código más largas o complejas es claramente mejor que Claude y que los mejores modelos previos (o3-pro, Gemini).
      • También es mucho más rápido codificando que o3-pro.
      • El argumento de “usuarios de Reddit están apegados a 4o y por eso detestan este lanzamiento → OpenAI está muerto” es débil y sin sustancia.
    • No atribuiría la mayoría de estas limitaciones o malas percepciones de la IA a Marcus.

      • No creo que sea por Marcus.
  • El punto de mejora más urgente de GPT hoy es “decir que no lo sabe” cuando no lo sabe.

    • Hoy intenté encontrar en un mod de Cyberpunk 2077 cómo generar NPC automáticamente con redscript, y fue difícil de resolver.

    • ChatGPT 5, aunque dice que “investiga”, inventa APIs y repite alucinaciones incluso cuando le señalo varias veces que no es cierto.

    • Perdí 30 minutos; si simplemente dijera que no sabe, lo habría sabido en 1 minuto.

    • No hay que caer en la ilusión de que ChatGPT sepa algo.

      • Solo genera la respuesta estadísticamente más probable en función de datos de entrenamiento.
      • No consulta un sistema de conocimiento interno y solo emite patrones lingüísticos.
      • Puede entrenarse para enfatizar ideas específicas (propaganda, etc.), pero no puede hacer referencia directa al conocimiento.
    • ¡Correcto!

      • Te lo presenta con una convicción total, como un compañero que habla con seguridad, y por eso se cree sin mucha duda.
      • Pero hay demasiadas veces que es mentira; es una situación muy molesta.
    • En realidad, no “sabe” nada.

      • Todos los resultados se parecen bastante a una alucinación basada en el prompt.
    • Coincido en que “decir que no lo sabe” es lo más necesario.

      • En Frontier AI Research seguramente también habrá habido revisión y experimentación internas.
      • Que esto no sea raro puede ser una señal de que el límite del modelo es claro.
    • Este trabajo de mejora sí se está haciendo y aparece en documentación oficial de OpenAI.

      • Enlace relacionado
      • En GPT‑5 (opción “thinking”), en tareas imposibles, con falta de información o sin herramientas, se intenta mostrar de forma más honesta sus límites y su conducta.
      • Por ejemplo, en el benchmark multimodal CharXiv, para un prompt sin imagen, o3 contestó con confianza inexistente en un 86.7%, mientras que GPT‑5 lo redujo al 9%.
      • También en codificación imposible o en escenarios sin activos multimodales, el reasoning de GPT‑5 comete mucho menos errores que o3.
      • En un conjunto de conversaciones largas basado en tráfico real de ChatGPT, redujo la tasa de deception de 4.8% a 2.1%.
      • Aún hay margen de mejora y la investigación sigue; consulta la system card.
  • Siento que su “obsesión por acertar cada detalle” termina nublando la verdad en sí misma.

    • Es interesante la discusión sobre un sistema híbrido symbolic/transformer.

    • En el post enlazado se muestra que Grok 4 pudo tener éxito en matemáticas al delegar cálculos a Python.

    • Personalmente, me gustaría ver más un sistema simbólico primero: matemáticas realmente “duras” de manera simbólica, y solo tratar con monads las áreas que requieren razonamiento.

    • El sistema neurosimbólico de Aloe superó por 20 puntos el benchmark GAIA de deep research de OpenAI.

      • Gary es muy locuaz y exagera, pero está clarísimo en cuanto a los límites de los LLM (aloe.inc).
  • GPT-5 tiene un problema particular que no vi en GPT-4.

    • En un hilo de conversación, el contexto se corta de golpe o no acierta a comprender bien la siguiente respuesta.

    • Da la sensación de que intervino un proceso de limpieza de contexto: como si avanzara sin resumir bien el punto central de la conversación.

    • Entonces el contexto realmente usable puede haber quedado mucho más chico; eso pasa con frecuencia.

    • Pide que revise el contenido de la conversación reciente y mejora un poco.

    • En mi caso, las respuestas me parecieron mucho más cortas.

  • “La gente vino a esperar un milagro y GPT-5 solo es una mejora incremental reciente”.

    • Esto era lo único que valía la pena escribir en ese artículo.
    • La gente tiene toda la razón al esperar progreso incremental.
    • Quienes lo proveen no deben prometer milagros.
    • La gestión de expectativas es clave.
    • El progreso incremental también es progreso.
    • Pero no estoy de acuerdo con la idea de que “AGI seguirá llegando desde la cola de la serie GPT”.
  • Ya no quedan datos de entrenamiento.

    • La mejora de la IA a partir de aquí dependerá de cambios de estructura.

    • Todos los modelos nuevos alcanzan el máximo local con la información nueva.

    • En investigaciones anteriores se concluye que para entrenar frontier LLM es eficaz combinar datos reales sembrados intencionalmente con datos sintéticos de manera principal.

    • Ya dije esto aquí hace dos años.

      • Tampoco hay un “segundo internet” que se pueda saquear para conseguir contenido de alta calidad.
      • La información existente también empieza a quedar cada vez más encerrada.
    • ¿De verdad significa esto que GPT-5 ya aprendió todos los datos de video del mundo?

    • ¿No se crean nuevos datos de entrenamiento cada día?

      • YouTube, Facebook, TikTok, etc.
      • Los humanos somos máquinas de generar contenido.
  • Aunque OpenAI haga el mejor modelo, con el nombre “GPT-5” ya se armó tanta expectativa desde la comunidad y OpenAI que el fracaso quedó prácticamente previsto.

    • De hecho, OpenAI debería haber rechazado memes y la sobrepromoción y optar por mejoras graduales, pero eso habría sido perjudicial para mantener inversionistas, narrativa y ecosistema de IA.

    • Ya hemos llegado a la cumbre.

    • También es cierto que Sam Altman jugó directamente un papel en crear y fomentar esas expectativas.

    • Me intriga cómo, cuando llegue una AGI real, la gente planteará la lógica de que “no estuvo a la altura”.