- A pesar de las expectativas, tras la salida pública de GPT-5 la decepción de la comunidad aumentó notablemente
- GPT-5 no muestra una distinción sustantiva respecto de los modelos anteriores y, en algunos benchmarks, se confirmó incluso un rendimiento peor.
- Investigaciones recientes demostraron que los límites de generalización y el problema de desplazamiento de distribución de los grandes modelos de lenguaje (LLM) siguen siendo graves.
- La pérdida del liderazgo tecnológico de OpenAI, la salida de personal clave y la persecución de competidores han vuelto opaca la capacidad de sostener su valor empresarial.
- Al crecer el escepticismo sobre las afirmaciones de logro de AGI, la industria en general reconoce cada vez más los límites del enfoque de escalado puro.
Lanzamiento y expectativas de GPT-5
- Finalmente se concretó la presentación de GPT-5 que OpenAI había anunciado durante mucho tiempo.
- El CEO Sam Altman aprovechó con fuerza una narrativa de confianza y una imagen de marketing antes y después del lanzamiento.
- Sin embargo, tras el lanzamiento de GPT-5, la decepción dominó en la mayoría de las comunidades, con excepción de algunos influencers.
- Los usuarios quedaron bastante decepcionados con el nuevo modelo y se observó incluso la aprobación de una petición para restaurar la versión anterior.
- Contrariamente al marketing y a las afirmaciones de Altman, las reseñas posteriores al uso se inclinaron claramente hacia una evaluación negativa.
Reacción de la comunidad y los medios
- En comunidades como OpenAI Reddit, Hacker News y otras, se señalaron con énfasis problemas de GPT-5 como errores y alucinaciones (hallucinations).
- En benchmarks de rendimiento clave también se mostró desventaja frente a modelos competidores como Grok 4.
- Nuevas funciones como el enrutamiento automático también revelaron confusión y falta de pulido.
- En un contexto de expectativas comunitarias que crecían rápidamente, GPT-5 dejó una gran decepción.
- En la encuesta de Polymarket del día del lanzamiento, la confianza en el liderazgo de IA de OpenAI cayó del 75% al 14% en una hora.
Límites estructurales: ajedrez, comprensión visual, razonamiento
- Persisten los problemas de errores de razonamiento básicos y de incumplimiento de las reglas de ajedrez que ya habían señalado el autor y varios expertos.
- En áreas como la generación de imágenes, se observan claramente límites en relaciones parte-todo y coherencia visual.
- GPT-5 incurre en errores en cuestiones en las que no fallarían ni un doctor en ingeniería mecánica ni una persona común.
- También se reportaron numerosos casos de error en tareas básicas como resumen y comprensión lectora.
- GPT-5 es un modelo de mejora gradual aceptable, pero, en comparación con el año pasado, no muestra innovación llamativa.
Situación y perspectivas actuales de OpenAI
- GPT-5 se quedó en una mejora incremental respecto de sus predecesores y repitió fallas críticas.
- En el mercado y en la industria, la confianza en el liderazgo tecnológico de OpenAI sigue cayendo.
- Varios talentos clave se fueron para fundar o incorporarse a competidores, y Anthropic, Google y Elon Musk los están alcanzando rápidamente.
- Crecen los riesgos estructurales: presión por reducción de precios, problemas de rentabilidad y deterioro de la relación con Microsoft.
- Se agravan el escepticismo sobre la viabilidad de AGI basada en LLM y la pérdida de confianza en el CEO Sam Altman.
Límites fundamentales de los LLM: generalización y desplazamiento de distribución
- Un paper reciente de Arizona State University confirmó que incluso el razonamiento de Chain of Thought se derrumba al salir de la distribución de entrenamiento.
- La vulnerabilidad al desplazamiento de distribución (distribution shift), ya señalada por Apple y otras empresas, también se observa de manera idéntica en los modelos más recientes.
- Esto muestra que la causa raíz de que los LLM sigan chocando con límites cualitativos es que el problema no puede superarse con solo aumentar los parámetros a gran escala.
- Se evidencia que la estrategia de escalado, con miles de millones de dólares invertidos, fracasó en resolver los problemas de fondo.
- Se expande la percepción de que hace falta buscar una nueva metodología.
Industria de IA en general y límites del escalado
- Es generalizada la publicidad exagerada alrededor de AGI, automatización de la conducción y cronogramas fantasiosos.
- Son graves los benchmarks con resultados distorsionados, las evaluaciones tipo caja negra y la falta de transparencia.
- Cada vez más personas empiezan a ver el término ‘AGI’ como un mecanismo para atraer inversores y al público general.
- Aumentan simultáneamente la expectativa optimista sobre la IA y el hype en torno a ella.
- El hecho de que el enfoque de escalado puro se haya topado contra un muro sin salida ya es la realidad.
Alternativas y conclusión
- Aunque GPT-5 puede haber salido más barato, sus límites cualitativos en ajedrez, razonamiento, comprensión visual y matemáticas siguen intactos.
- Modelos competidores como Grok, Claude y Gemini también repiten problemas similares.
- El problema del desplazamiento de distribución (distribution shift) sigue sin resolver.
- Se plantea la necesidad de enfoques nuevos, como la IA neurosimbólica (neurosymbolic AI) y métodos basados en world models.
- Se reafirma que una innovación algorítmica integral es esencial para lograr AGI, y no el escalado puro.
Próximos temas y PS
- Además de las limitaciones de los LLM descubiertas esta semana, se insinúa que se revelará otro problema científico igualmente grave.
- Se anuncia que en la siguiente entrega se compartirá contenido adicional.
Resumen
- Tras el lanzamiento de GPT-5 se debatió ampliamente la expectativa y reacción de la industria y la comunidad, los límites estructurales de los LLM, el futuro de OpenAI y la realidad del marco AGI.
- El contenido completo ofrece implicaciones clave para startups y profesionales de TI sobre LLM, límites reales de GPT-5, inversión/esfuerzo/fracaso de IA, temas de innovación y tendencias de investigación.
Aún no hay comentarios.