Lanzamiento de GPT‑5.2
(openai.com)- GPT‑5.2 es la serie de modelos de IA más potente para trabajo de conocimiento especializado, con mejoras en redacción de código, reconocimiento de imágenes y ejecución de proyectos complejos
- En la evaluación GDPval, igualó o superó a expertos de la industria en el 70.9% de las tareas de trabajo de conocimiento de 44 profesiones, con una velocidad 11 veces mayor y un costo inferior al 1%
- Alcanzó el mejor rendimiento en benchmarks clave como SWE‑Bench Pro 55.6%, GPQA Diamond 92.4% y ARC‑AGI‑1 86.2%
- Muestra grandes mejoras frente a GPT‑5.1 en comprensión de contexto largo (256k tokens), procesamiento de información visual y uso de herramientas (98.7%)
- Se desplegará gradualmente en ChatGPT y la API, con el objetivo de mejorar la productividad y la confiabilidad para usuarios expertos
Resumen de GPT‑5.2
- GPT‑5.2 es una serie de modelos de IA para trabajo de conocimiento especializado, con capacidades reforzadas para crear hojas de cálculo, presentaciones, escribir código, reconocer imágenes, comprender textos extensos, usar herramientas y ejecutar proyectos complejos
- Los usuarios de ChatGPT Enterprise ya ahorran entre 40 y 60 minutos al día, más de 10 horas por semana, y GPT‑5.2 amplía aún más esa eficiencia
- En ChatGPT se ofrece en tres versiones: Instant, Thinking y Pro; en la API está disponible de inmediato para desarrolladores
Rendimiento del modelo
- GPT‑5.2 Thinking es el primero en alcanzar un rendimiento de nivel experto o superior en la evaluación GDPval
- Igualó o superó a expertos en el 70.9% de las tareas de trabajo de conocimiento de 44 profesiones
- Es 11 veces más rápido que un experto y cuesta menos del 1%
- En una evaluación interna, la puntuación en una tarea de modelado de hojas de cálculo para análisis de banca de inversión mejoró 9.3% frente a GPT‑5.1 (59.1% → 68.4%)
- Con SWE‑Bench Pro 55.6% y SWE‑Bench Verified 80%, mejora el rendimiento en ingeniería de software
- Ejecuta con mayor estabilidad tareas reales de depuración de código, implementación de funciones, refactorización y despliegue
- También mejora frente a GPT‑5.1 en desarrollo frontend y trabajos de UI 3D
- La tasa de respuestas erróneas se redujo en 30%, disminuyendo la frecuencia de alucinaciones (hallucination)
Comprensión de contexto largo y percepción visual
- En la evaluación OpenAI MRCRv2, logró un récord en comprensión integrada de documentos extensos
- Alcanzó una precisión de casi 100% hasta 256k tokens
- Es adecuado para analizar documentos largos como informes, contratos y artículos académicos
- Es compatible con el endpoint
/compact, lo que permite flujos de trabajo con contexto ampliado - La mejora en percepción visual redujo a la mitad la tasa de error en gráficos, dashboards y capturas de pantalla de UI
- Se reforzó la capacidad de comprender la disposición espacial de los elementos dentro de la imagen
Uso de herramientas y tareas compuestas
- Logró un récord en uso de herramientas con Tau2‑bench Telecom 98.7%
- Se fortaleció su capacidad para ejecutar flujos de trabajo end-to-end de múltiples pasos, como soporte al cliente, recopilación de datos, análisis y generación de resultados
- Ejemplo: puede gestionar por completo procedimientos complejos de atención al cliente como retrasos de vuelos, conexiones y solicitudes de compensación
Capacidades en ciencia, matemáticas y razonamiento
- Alcanzó resultados líderes en benchmarks académicos clave: GPQA Diamond 92.4%, FrontierMath Tier 1–3 40.3%, ARC‑AGI‑1 86.2% y ARC‑AGI‑2 52.9%
- GPT‑5.2 Pro superó el 90% en ARC‑AGI‑1, con una eficiencia de costos 390 veces mejor
- GPT‑5.2 Pro y Thinking pueden usarse para acelerar la investigación científica
- Se presenta un caso real en el que propuso una demostración de teoría estadística y esta fue validada
Experiencia de uso en ChatGPT
- GPT‑5.2 Instant: ofrece respuestas rápidas y explicaciones claras, para aprendizaje y trabajo cotidiano
- GPT‑5.2 Thinking: adecuado para tareas complejas como escribir código, resumir textos largos, resolver problemas matemáticos y lógicos, y planificar
- GPT‑5.2 Pro: entrega respuestas de alta confiabilidad para preguntas de gran dificultad, con menor tasa de error
Refuerzo de seguridad
- GPT‑5.2 mejora las respuestas en conversaciones sobre suicidio, salud mental y dependencia emocional, basándose en la investigación de Safe Completion de GPT‑5
- Reduce la proporción de respuestas inapropiadas frente a GPT‑5.1
- Introduce un modelo de predicción de edad para restringir el acceso a contenido sensible a usuarios menores de 18 años
- También se sigue trabajando en mejorar el problema de rechazo excesivo (over-refusal) en ChatGPT
Precio y disponibilidad
- Se desplegará gradualmente comenzando por los planes pagos de ChatGPT (Plus, Pro, Business, Enterprise)
- En la API estará disponible como
gpt‑5.2,gpt‑5.2‑chat‑latestygpt‑5.2‑pro - Precio: $1.75 por millón de tokens de entrada, $14 por millón de tokens de salida, con 90% de descuento en entrada en caché
- Aunque el precio unitario es mayor que en GPT‑5.1, la mejora en eficiencia de tokens reduce el costo total
- GPT‑5.1 se mantendrá durante 3 meses antes de su retiro gradual
- La versión optimizada para Codex se anunciará más adelante
Alianzas tecnológicas
- GPT‑5.2 fue desarrollado en colaboración con NVIDIA y Microsoft
- Utiliza infraestructura de centros de datos de Azure y GPU H100, H200, GB200‑NVL72
- Esto respalda la eficiencia del entrenamiento a gran escala y la mejora de la inteligencia del modelo
Resumen de benchmarks principales
- GDPval: 70.9% (GPT‑5.1 38.8%)
- SWE‑Bench Verified: 80.0%
- OpenAI MRCRv2 (256k) : 77.0%
- CharXiv Reasoning (w/ Python) : 88.7%
- Tau2‑bench Telecom: 98.7%
- ARC‑AGI‑1 (Verified) : 86.2%
- AIME 2025: 100%
- FrontierMath Tier 1–3: 40.3%
GPT‑5.2 supera ampliamente a la generación anterior en inteligencia, confiabilidad y productividad, y se posiciona como una IA de apoyo laboral de nivel experto.
1 comentarios
Opiniones de Hacker News
En los últimos meses he estado usando ChatGPT de pago para casi todo: programar, noticias, análisis de acciones y resolver problemas del día a día.
Pero después de probar Gemini 3 tras su lanzamiento, vi que da resultados mucho mejores en todos los casos de uso.
En especial destacó al buscar información reciente cuando hace falta integración con búsqueda web. El OCR también es excelente y reconoce bien hasta mi letra horrible.
Eso sí, la app tiene muchos bugs, las sesiones se cortan seguido y también falla al subir fotos.
Lo que más me molesta es que todos los enlaces pasan por la búsqueda de Google, así que hay que modificarlos para ir directo al sitio.
En general, mi conclusión es que ChatGPT se está quedando atrás en capacidad de integración con búsqueda y le va a costar alcanzarlo
Con solo interrumpirlo ya se pierde la data, así que se siente como un típico producto inacabado al estilo Google.
La idea del modo de voz es buena, pero se rompe seguido y repite preguntas por su cuenta
ChatGPT abre PDFs o capturas de pantalla y los usa como entrada OCR, pero Gemini los ignora
Pero hoy en día los navegadores ya manejan eso por su cuenta, así que no hace falta enviarle a Google la información del clic.
No pasa nada si lo cambias a un enlace directo
Opus 4.5 tiene mejor calidad, pero sus límites de uso son tan duros que estoy pensando si mantener varias suscripciones a la vez
Como yo uso más la voz que el OCR, eso es un problema fatal.
Tampoco entiendo la idea de que “su fuerte es la integración con búsqueda”. Me gustaría ver ejemplos concretos donde ChatGPT realmente haya sido peor buscando información reciente.
No aparece en el anuncio del blog, pero el tamaño real de la ventana de contexto es de 400 mil tokens.
Está indicado en la documentación oficial.
También dicen que mejoró la capacidad de aprovechar todo el contexto, así que tengo expectativas.
En un proyecto de Rust/CUDA usé Codex 5.1 y luego me pasé a Gemini 3; al principio me impresionó porque detectaba bien los bugs, pero pronto casi me vuelve loco con órdenes ignoradas, salida rota y un proceso de razonamiento opaco.
Cuando regresé a Codex, volvió la estabilidad y reflejaba bien el feedback. Ahora hasta salió el modo xhigh de GPT‑5.2, así que se siente como un regalo de Navidad
Extraño la cultura de foros de antes, donde se hablaba con honestidad de los problemas y sus soluciones.
He visto a muchos desarrolladores mezclar en una sola sesión todo tipo de temas como cocina, regalos y programación, y luego reciben respuestas rarísimas.
Como los LLM siguen enviando todo el contexto de la conversación, hay que empezar un chat nuevo por tema.
Si no, terminas recibiendo cosas como “lo que opina tu esposa sobre las variables globales”
Apps como Cursor o ChatGPT probablemente deben ser difíciles de entender
Si no conoces el concepto de ventana de contexto, la IA puede parecer simplemente tonta. Creo que por eso mucha gente la subestima
Además, como no sabes si el modelo está en A/B testing o si le están limitando los reasoning tokens, cuesta confiar en él
Si quieres una separación total, tienes que desactivarla
En la imagen de la motherboard, la RAM, las ranuras PCIe y la ubicación del DisplayPort están todas mal.
Enlace a la imagen
No entiendo por qué usaron algo así como imagen promocional
En el benchmark Extended NYT Connections, la versión de alto razonamiento de GPT‑5.2 subió de 69.9 a 77.9.
Enlace al benchmark
Las versiones de razonamiento medio y bajo también mejoraron, pero Gemini 3 Pro y Grok 4.1 Fast Reasoning siguen por encima
La prueba del “pelícano en bicicleta” está curiosa.
Ejemplo de imagen
La mejora en la puntuación de ARC‑AGI‑2 me sorprende. Parece que la capacidad de generalización mejoró mucho.
Los modelos anteriores daban la impresión de estar sobreajustados, pero ahora la autocorrección (self-correction) funciona mejor.
Si se puede lograr una mejora así sin un nuevo datacenter ni una expansión masiva del modelo, el futuro se ve prometedor.
Siento que ahora la experiencia de usuario importa más que los benchmarks.
La razón por la que sigo pagando ChatGPT es su función para organizar chats por proyecto.
Pero todas las plataformas comparten estos problemas:
Tienen que resolver estos problemas básicos de usabilidad
Por eso los benchmarks terminan volviéndose una especie de juego del gato y el ratón.
En r/Codex parece que están censurando las publicaciones de queja, así que lo digo aquí con sinceridad.
Sí está más rápido, pero sigue siendo más lento que Opus 4.5 y, frente a 5.1, casi no se siente mejora.
El costo por token subió 40%, pero no se percibe valor adicional.
Gemini 3 ofrece gratis un nivel parecido a ChatGPT Pro, y Claude Code por $100/mes también es fuerte.
Parece que OpenAI está enfrentando una crisis existencial
El hecho de que el “knowledge cutoff sea agosto de 2025” junto con la subida de precio parece indicar un nuevo modelo de pretraining.
Se sabía que GPT‑5.1 usaba el mismo pretraining que GPT‑4o