3 puntos por fortune 2025-12-12 | Aún no hay comentarios. | Compartir por WhatsApp

[GPT-5.1 thinking -> GPT-5.2 thinking]

  • Tarea de hoja de cálculo de banca de inversión (interna): 59.1% → 68.4%

    • Tarea de modelado en hoja de cálculo de 3 estados financieros/LBO
  • SWE-Bench Pro (público): 50.8% → 55.6%

    • Aplicación de parches en repositorios reales (repo) en 4 lenguajes
  • OpenAI MRCRv2 (8 agujas, 128k–256k): 29.6% → 77.0%

    • Encontrar y reproducir información en documentos muy largos
  • ScreenSpot Pro (incluye Python): 64.2% → 86.3%

    • Comprender capturas de pantalla de UI y responder preguntas
  • ARC-AGI-2 (verificado): 17.6% → 52.9%

    • Rompecabezas difíciles de razonamiento abstracto (verificado)

Aún no hay comentarios.

Aún no hay comentarios.