5 puntos por GN⁺ 2025-12-12 | 1 comentarios | Compartir por WhatsApp
  • GPT‑5.2 es la serie de modelos de IA más potente para trabajo de conocimiento especializado, con mejoras en redacción de código, reconocimiento de imágenes y ejecución de proyectos complejos
  • En la evaluación GDPval, igualó o superó a expertos de la industria en el 70.9% de las tareas de trabajo de conocimiento de 44 profesiones, con una velocidad 11 veces mayor y un costo inferior al 1%
  • Alcanzó el mejor rendimiento en benchmarks clave como SWE‑Bench Pro 55.6%, GPQA Diamond 92.4% y ARC‑AGI‑1 86.2%
  • Muestra grandes mejoras frente a GPT‑5.1 en comprensión de contexto largo (256k tokens), procesamiento de información visual y uso de herramientas (98.7%)
  • Se desplegará gradualmente en ChatGPT y la API, con el objetivo de mejorar la productividad y la confiabilidad para usuarios expertos

Resumen de GPT‑5.2

  • GPT‑5.2 es una serie de modelos de IA para trabajo de conocimiento especializado, con capacidades reforzadas para crear hojas de cálculo, presentaciones, escribir código, reconocer imágenes, comprender textos extensos, usar herramientas y ejecutar proyectos complejos
  • Los usuarios de ChatGPT Enterprise ya ahorran entre 40 y 60 minutos al día, más de 10 horas por semana, y GPT‑5.2 amplía aún más esa eficiencia
  • En ChatGPT se ofrece en tres versiones: Instant, Thinking y Pro; en la API está disponible de inmediato para desarrolladores

Rendimiento del modelo

  • GPT‑5.2 Thinking es el primero en alcanzar un rendimiento de nivel experto o superior en la evaluación GDPval
    • Igualó o superó a expertos en el 70.9% de las tareas de trabajo de conocimiento de 44 profesiones
    • Es 11 veces más rápido que un experto y cuesta menos del 1%
  • En una evaluación interna, la puntuación en una tarea de modelado de hojas de cálculo para análisis de banca de inversión mejoró 9.3% frente a GPT‑5.1 (59.1% → 68.4%)
  • Con SWE‑Bench Pro 55.6% y SWE‑Bench Verified 80%, mejora el rendimiento en ingeniería de software
    • Ejecuta con mayor estabilidad tareas reales de depuración de código, implementación de funciones, refactorización y despliegue
  • También mejora frente a GPT‑5.1 en desarrollo frontend y trabajos de UI 3D
  • La tasa de respuestas erróneas se redujo en 30%, disminuyendo la frecuencia de alucinaciones (hallucination)

Comprensión de contexto largo y percepción visual

  • En la evaluación OpenAI MRCRv2, logró un récord en comprensión integrada de documentos extensos
    • Alcanzó una precisión de casi 100% hasta 256k tokens
    • Es adecuado para analizar documentos largos como informes, contratos y artículos académicos
  • Es compatible con el endpoint /compact, lo que permite flujos de trabajo con contexto ampliado
  • La mejora en percepción visual redujo a la mitad la tasa de error en gráficos, dashboards y capturas de pantalla de UI
    • Se reforzó la capacidad de comprender la disposición espacial de los elementos dentro de la imagen

Uso de herramientas y tareas compuestas

  • Logró un récord en uso de herramientas con Tau2‑bench Telecom 98.7%
  • Se fortaleció su capacidad para ejecutar flujos de trabajo end-to-end de múltiples pasos, como soporte al cliente, recopilación de datos, análisis y generación de resultados
    • Ejemplo: puede gestionar por completo procedimientos complejos de atención al cliente como retrasos de vuelos, conexiones y solicitudes de compensación

Capacidades en ciencia, matemáticas y razonamiento

  • Alcanzó resultados líderes en benchmarks académicos clave: GPQA Diamond 92.4%, FrontierMath Tier 1–3 40.3%, ARC‑AGI‑1 86.2% y ARC‑AGI‑2 52.9%
  • GPT‑5.2 Pro superó el 90% en ARC‑AGI‑1, con una eficiencia de costos 390 veces mejor
  • GPT‑5.2 Pro y Thinking pueden usarse para acelerar la investigación científica
    • Se presenta un caso real en el que propuso una demostración de teoría estadística y esta fue validada

Experiencia de uso en ChatGPT

  • GPT‑5.2 Instant: ofrece respuestas rápidas y explicaciones claras, para aprendizaje y trabajo cotidiano
  • GPT‑5.2 Thinking: adecuado para tareas complejas como escribir código, resumir textos largos, resolver problemas matemáticos y lógicos, y planificar
  • GPT‑5.2 Pro: entrega respuestas de alta confiabilidad para preguntas de gran dificultad, con menor tasa de error

Refuerzo de seguridad

  • GPT‑5.2 mejora las respuestas en conversaciones sobre suicidio, salud mental y dependencia emocional, basándose en la investigación de Safe Completion de GPT‑5
    • Reduce la proporción de respuestas inapropiadas frente a GPT‑5.1
  • Introduce un modelo de predicción de edad para restringir el acceso a contenido sensible a usuarios menores de 18 años
  • También se sigue trabajando en mejorar el problema de rechazo excesivo (over-refusal) en ChatGPT

Precio y disponibilidad

  • Se desplegará gradualmente comenzando por los planes pagos de ChatGPT (Plus, Pro, Business, Enterprise)
  • En la API estará disponible como gpt‑5.2, gpt‑5.2‑chat‑latest y gpt‑5.2‑pro
  • Precio: $1.75 por millón de tokens de entrada, $14 por millón de tokens de salida, con 90% de descuento en entrada en caché
    • Aunque el precio unitario es mayor que en GPT‑5.1, la mejora en eficiencia de tokens reduce el costo total
  • GPT‑5.1 se mantendrá durante 3 meses antes de su retiro gradual
  • La versión optimizada para Codex se anunciará más adelante

Alianzas tecnológicas

  • GPT‑5.2 fue desarrollado en colaboración con NVIDIA y Microsoft
    • Utiliza infraestructura de centros de datos de Azure y GPU H100, H200, GB200‑NVL72
    • Esto respalda la eficiencia del entrenamiento a gran escala y la mejora de la inteligencia del modelo

Resumen de benchmarks principales

  • GDPval: 70.9% (GPT‑5.1 38.8%)
  • SWE‑Bench Verified: 80.0%
  • OpenAI MRCRv2 (256k) : 77.0%
  • CharXiv Reasoning (w/ Python) : 88.7%
  • Tau2‑bench Telecom: 98.7%
  • ARC‑AGI‑1 (Verified) : 86.2%
  • AIME 2025: 100%
  • FrontierMath Tier 1–3: 40.3%

GPT‑5.2 supera ampliamente a la generación anterior en inteligencia, confiabilidad y productividad, y se posiciona como una IA de apoyo laboral de nivel experto.

1 comentarios

 
GN⁺ 2025-12-12
Opiniones de Hacker News
  • En los últimos meses he estado usando ChatGPT de pago para casi todo: programar, noticias, análisis de acciones y resolver problemas del día a día.
    Pero después de probar Gemini 3 tras su lanzamiento, vi que da resultados mucho mejores en todos los casos de uso.
    En especial destacó al buscar información reciente cuando hace falta integración con búsqueda web. El OCR también es excelente y reconoce bien hasta mi letra horrible.
    Eso sí, la app tiene muchos bugs, las sesiones se cortan seguido y también falla al subir fotos.
    Lo que más me molesta es que todos los enlaces pasan por la búsqueda de Google, así que hay que modificarlos para ir directo al sitio.
    En general, mi conclusión es que ChatGPT se está quedando atrás en capacidad de integración con búsqueda y le va a costar alcanzarlo

    • Decir que “solo tiene problemas de policy” se queda muy corto. Hay un bug que borra hilos completos varias veces al día y dan ganas de maldecir.
      Con solo interrumpirlo ya se pierde la data, así que se siente como un típico producto inacabado al estilo Google.
      La idea del modo de voz es buena, pero se rompe seguido y repite preguntas por su cuenta
    • Yo tuve la experiencia opuesta. ChatGPT busca varias veces, analiza los resultados y luego hasta hace búsquedas adicionales, mientras que Gemini casi no busca.
      ChatGPT abre PDFs o capturas de pantalla y los usa como entrada OCR, pero Gemini los ignora
    • La razón por la que los enlaces pasan por la búsqueda de Google es que internamente hacen revisiones de malware y phishing.
      Pero hoy en día los navegadores ya manejan eso por su cuenta, así que no hace falta enviarle a Google la información del clic.
      No pasa nada si lo cambias a un enlace directo
    • En mi caso, Gemini 3 Pro tuvo peores alucinaciones (hallucinations). Incluso inventó fuentes que no existían.
      Opus 4.5 tiene mejor calidad, pero sus límites de uso son tan duros que estoy pensando si mantener varias suscripciones a la vez
    • La calidad del reconocimiento de voz de Gemini era tan mala que no pude usarlo.
      Como yo uso más la voz que el OCR, eso es un problema fatal.
      Tampoco entiendo la idea de que “su fuerte es la integración con búsqueda”. Me gustaría ver ejemplos concretos donde ChatGPT realmente haya sido peor buscando información reciente.
  • No aparece en el anuncio del blog, pero el tamaño real de la ventana de contexto es de 400 mil tokens.
    Está indicado en la documentación oficial.
    También dicen que mejoró la capacidad de aprovechar todo el contexto, así que tengo expectativas.
    En un proyecto de Rust/CUDA usé Codex 5.1 y luego me pasé a Gemini 3; al principio me impresionó porque detectaba bien los bugs, pero pronto casi me vuelve loco con órdenes ignoradas, salida rota y un proceso de razonamiento opaco.
    Cuando regresé a Codex, volvió la estabilidad y reflejaba bien el feedback. Ahora hasta salió el modo xhigh de GPT‑5.2, así que se siente como un regalo de Navidad

    • Los 400 mil tokens ya estaban en GPT‑5, 5.1, 5‑mini y otros. Aun así, si realmente mejoró el rendimiento con contexto largo, eso sí sería muy importante
    • A mí el modo xhigh me dio peores resultados que high, así que pensé si sería PEBKAC (error del usuario). Me pregunto si alguien ya los comparó
    • Viendo los comentarios últimamente, ya no sé distinguir si son reseñas reales o promoción patrocinada.
      Extraño la cultura de foros de antes, donde se hablaba con honestidad de los problemas y sus soluciones.
  • He visto a muchos desarrolladores mezclar en una sola sesión todo tipo de temas como cocina, regalos y programación, y luego reciben respuestas rarísimas.
    Como los LLM siguen enviando todo el contexto de la conversación, hay que empezar un chat nuevo por tema.
    Si no, terminas recibiendo cosas como “lo que opina tu esposa sobre las variables globales”

    • A veces pienso esto: para alguien que no conoce cómo funcionan internamente los LLM, ¿qué tan extrañas deben parecer estas herramientas?
      Apps como Cursor o ChatGPT probablemente deben ser difíciles de entender
    • A mí también me ayudó mucho haber tomado el curso de fast.ai y haber probado directamente varios modelos como VLLM.
      Si no conoces el concepto de ventana de contexto, la IA puede parecer simplemente tonta. Creo que por eso mucha gente la subestima
    • Tampoco está claro qué contexto conviene dejar. Metí textos de estilo parecido y el rendimiento más bien empeoró.
      Además, como no sabes si el modelo está en A/B testing o si le están limitando los reasoning tokens, cuesta confiar en él
    • La opción “Reference chat history” de ChatGPT viene activada por defecto, así que aunque abras una conversación nueva, se puede mezclar contenido previo.
      Si quieres una separación total, tienes que desactivarla
    • Escuché un pódcast sobre gente que cae en una “relación romántica” con un LLM, y parece que no se dan cuenta de que si reseteas el contexto vuelve a ser un completo desconocido.
  • En la imagen de la motherboard, la RAM, las ranuras PCIe y la ubicación del DisplayPort están todas mal.
    Enlace a la imagen
    No entiendo por qué usaron algo así como imagen promocional

    • La intención era mostrar que el rendimiento visual de GPT‑5.2 mejoró, pero no es perfecto. Si eligieran solo resultados perfectos, podrían generar una idea equivocada
    • Los puertos USB Type‑A tampoco son dos pares apilados, sino cuatro
    • En el artículo también se aclara que “ambos modelos cometen errores, pero GPT‑5.2 mostró una mejor comprensión”
    • Creo que este tipo de errores pasa porque la cultura de la comunidad de IA últimamente tiende a producir contenido generado sin verificar los resultados
    • Aun así, la resolución de la imagen parece de un celular plegable de 2003, así que era esperable que hubiera errores.
  • En el benchmark Extended NYT Connections, la versión de alto razonamiento de GPT‑5.2 subió de 69.9 a 77.9.
    Enlace al benchmark
    Las versiones de razonamiento medio y bajo también mejoraron, pero Gemini 3 Pro y Grok 4.1 Fast Reasoning siguen por encima

    • Impresiona que Gemini 3 Pro Preview marque 96.8% en esa misma prueba
    • Otra persona probó con el rompecabezas Clues by Sam y GPT‑5 Pro ya había quedado en primer lugar
    • Me pregunto por qué faltan los resultados de Grok 4.1 reasoning.
  • La prueba del “pelícano en bicicleta” está curiosa.
    Ejemplo de imagen

    • La variabilidad es tan alta que la prueba tiene poco valor. La corrí 10 veces y la mitad salió perfecta
    • Supongo que reflejaron feedback de que la versión 5.1 era demasiado monótona. En la versión de POV‑Ray me pasó lo mismo
    • Ver cómo cada vez evoluciona más aerodinámicamente sí da la sensación de que la IA se está volviendo más inteligente
    • Ya hasta hacen el chiste de que “este es el único benchmark en el que confío”
    • Pero tampoco es deseable usar el mismo benchmark durante demasiado tiempo.
  • La mejora en la puntuación de ARC‑AGI‑2 me sorprende. Parece que la capacidad de generalización mejoró mucho.
    Los modelos anteriores daban la impresión de estar sobreajustados, pero ahora la autocorrección (self-correction) funciona mejor.
    Si se puede lograr una mejora así sin un nuevo datacenter ni una expansión masiva del modelo, el futuro se ve prometedor.

    • Yo también me fijé en los resultados de ARC‑AGI‑2. De verdad es un salto enorme.
  • Siento que ahora la experiencia de usuario importa más que los benchmarks.
    La razón por la que sigo pagando ChatGPT es su función para organizar chats por proyecto.
    Pero todas las plataformas comparten estos problemas:

    • mienten con seguridad
    • no siguen bien los prompts
    • no expresan incertidumbre
    • no dejan de dar elogios innecesarios y respuestas verbosas
    • no citan fuentes de forma consistente
    • no aclaran si vieron el texto original o un resumen
      Tienen que resolver estos problemas básicos de usabilidad
    • Fuera de las métricas objetivas es difícil convencer a otros de la validez de una medición, pero las métricas medibles se pueden manipular fácilmente.
      Por eso los benchmarks terminan volviéndose una especie de juego del gato y el ratón.
  • En r/Codex parece que están censurando las publicaciones de queja, así que lo digo aquí con sinceridad.
    Sí está más rápido, pero sigue siendo más lento que Opus 4.5 y, frente a 5.1, casi no se siente mejora.
    El costo por token subió 40%, pero no se percibe valor adicional.
    Gemini 3 ofrece gratis un nivel parecido a ChatGPT Pro, y Claude Code por $100/mes también es fuerte.
    Parece que OpenAI está enfrentando una crisis existencial

    • Al pasar de Gemini 2.5 a 3 tampoco hubo una gran mejora. En general da la sensación de que el progreso real está estancado.
  • El hecho de que el “knowledge cutoff sea agosto de 2025” junto con la subida de precio parece indicar un nuevo modelo de pretraining.
    Se sabía que GPT‑5.1 usaba el mismo pretraining que GPT‑4o

    • Un nuevo pretrain cuesta muchísimo, así que no terminaría solo en un aumento de versión de 0.1
    • O quizá 5.1 era un checkpoint más viejo o tenía una cuantización (quantization) más agresiva
    • O tal vez simplemente le volvieron a dar al mismo modelo otra ronda de datos de baja calidad (slop)