Vista previa de GPT‑5.6 Sol: la próxima generación de modelos

(openai.com)

3 puntos por GN⁺ 6 시간 전 | 1 comentarios | Compartir por WhatsApp

OpenAI abrió la serie GPT‑5.6 en vista previa limitada y presentó juntos a Sol, su buque insignia, Terra para trabajo diario y Luna como opción de bajo costo
Sol reforzó sus capacidades de agente en programación, biología y ciberseguridad, y con max reasoning effort y el modo ultra permite razonamiento más profundo y uso de subagentes
El rendimiento en ciberseguridad mejoró en ExploitBench y ExploitGym, pero en las condiciones de evaluación de Chromium y Firefox no logró generar de forma autónoma un full-chain exploit funcional, por lo que no supera el umbral de Cyber Critical
La vista previa se ofrecerá primero a algunos socios y organizaciones de confianza en la API y Codex, con una preparación para una apertura más amplia tras pasar por un proceso de restricción solicitado por el gobierno de EE. UU.
El precio por 1 millón de tokens es de $5 de entrada / $30 de salida para Sol, $2.50 de entrada / $15 de salida para Terra y $1 de entrada / $6 de salida para Luna; las escrituras en caché cuestan 1.25x y las lecturas en caché tienen 90% de descuento

Alcance de la vista previa de la serie GPT‑5.6

OpenAI presentó primero la familia GPT‑5.6 como una vista previa limitada
- Sol: modelo insignia
- Terra: modelo equilibrado para trabajo diario
- Luna: modelo rápido y económico
Terra ofrece un rendimiento competitivo frente a GPT‑5.5 con un precio 2 veces más barato
Luna ofrece capacidades sólidas al costo más bajo de OpenAI
GPT‑5.6 Sol se lanza con la pila de seguridad más robusta que OpenAI ha construido hasta ahora
- actividades de alto riesgo
- solicitudes cibernéticas sensibles
- uso indebido repetitivo
- búsqueda de vulnerabilidades y pruebas de presión frente a ataques reales

Lanzamiento limitado y coordinación con el gobierno

OpenAI planea llevar GPT‑5.6 Sol, Terra y Luna a disponibilidad general en las próximas semanas
En su proceso continuo de coordinación con el gobierno de EE. UU., compartió planes previos al lanzamiento y capacidades de los modelos
A solicitud del gobierno, comenzó primero una vista previa limitada con un pequeño grupo de socios de confianza cuya participación se compartió con el gobierno
OpenAI considera que este tipo de proceso de acceso gubernamental no debería convertirse en la opción predeterminada a largo plazo
- porque usuarios, desarrolladores, empresas, defensores cibernéticos y socios globales podrían quedar sin acceso a las herramientas que necesitan
Este proceso temporal sirve como ruta hacia una apertura más amplia en unas semanas
- mientras desarrolla con el poder ejecutivo un procedimiento repetible para el marco de Executive Order sobre ciberseguridad y futuros lanzamientos de modelos

Capacidades del modelo y evaluaciones

GPT‑5.6 Sol es presentado como el modelo más potente de OpenAI
Muestra mejores capacidades de agente en evaluaciones de programación, biología y ciberseguridad
Evaluaciones adicionales de seguridad y preparación están incluidas en la system card de la vista previa de GPT‑5.6
Planea compartir un conjunto ampliado de resultados de evaluación cuando haga una apertura más amplia
Modos de razonamiento
- GPT‑5.6 introduce max reasoning effort para que Sol pueda razonar durante más tiempo y con mayor profundidad
- El nuevo modo ultra va más allá de la capacidad de un solo agente y aprovecha subagentes para acelerar tareas complejas
Programación y biología
- GPT‑5.6 Sol logró un nuevo estado del arte en Terminal‑Bench 2.1, que evalúa flujos de trabajo en línea de comandos
- Este benchmark prueba tareas de línea de comandos que requieren planificación, iteración y coordinación de herramientas
- En GeneBench v1, supera a GPT‑5.5 usando menos tokens
- GeneBench v1 evalúa análisis de genómica y biología cuantitativa de largo alcance
Ciberseguridad
- GPT‑5.6 Sol es el modelo más capaz de OpenAI para trabajo de ciberseguridad
- Mueve la frontera de rendimiento-eficiencia en tareas de seguridad de largo plazo, incluyendo investigación de vulnerabilidades y exploits
- En ExploitBench, logra resultados competitivos con Mythos Preview usando apenas cerca de un tercio de los tokens de salida
- En ExploitGym, Sol, Terra y Luna muestran mejoras fuertes en capacidades cibernéticas a medida que aumenta el razonamiento
- ExploitGym es un benchmark creado por investigadores de UC Berkeley en colaboración con OpenAI y otros laboratorios frontier

Capacidades cibernéticas y medidas de seguridad

GPT‑5.6 Sol, Terra y Luna fueron desarrollados con las medidas de seguridad más robustas de OpenAI, ajustadas a las capacidades de cada modelo
A medida que crecen las capacidades del modelo, estas medidas se diseñan para resistir incluso bajo presión adversarial real
Se busca mantener el acceso para trabajo defensivo legítimo
- revisión de código
- investigación de vulnerabilidades
- desarrollo de parches
- depuración
- capacitación en seguridad
- pruebas defensivas
El objetivo es hacer que las actividades ofensivas prohibidas sean más difíciles, inciertas y detectables, sin restringir innecesariamente los usos beneficiosos
Según la evaluación de OpenAI, hay beneficios significativos para el trabajo defensivo legítimo y el uso ofensivo prohibido queda limitado de forma relevante
Umbral de Cyber Critical
- GPT‑5.6 Sol no supera el umbral de Cyber Critical según el Preparedness Framework
- En evaluaciones relacionadas con Chromium y Firefox, identificó bugs y exploit primitives
- En las condiciones de prueba, no logró construir de forma autónoma un full-chain exploit funcional
- Los umbrales de benchmark no pueden capturar por completo todas las formas de uso del modelo ni su combinación con otras herramientas
- Debido a esta incertidumbre y a la mejora general de capacidades, OpenAI aplica medidas de seguridad más fuertes junto con un lanzamiento gradual

Pila de seguridad por capas

El uso indebido intencional o adaptativo es difícil de frenar con una sola protección
En toda la vista previa de GPT‑5.6 se aplican medidas de seguridad por capas, con configuración distinta según el modelo
- protecciones entrenadas en el modelo
- revisión en tiempo real durante la generación
- señales a nivel de cuenta
- acceso diferenciado
- monitoreo
- aplicación de medidas
- pruebas continuas
Rechazo a nivel de modelo y revisión en tiempo real
- GPT‑5.6 fue entrenado para rechazar asistencia cibernética prohibida incluso si el usuario oculta su intención o intenta hacer jailbreak
- Clasificadores en tiempo real para uso indebido en ciberseguridad y biología evalúan la salida durante la generación
- En casos de alto riesgo, la generación puede pausarse si se detecta una posible infracción
- Un modelo de razonamiento más grande puede revisar la conversación y el contexto, y si evalúa que la salida está prohibida, esta se retiene antes de llegar al usuario
Revisión a nivel de cuenta y acceso diferenciado
- La actividad marcada puede llevar a una revisión a nivel de cuenta que incluya conversaciones relevantes y señales de riesgo
- Ver el contexto a nivel de cuenta, y no solo una conversación aislada, ayuda a distinguir entre trabajo legítimo de seguridad de doble uso y conducta maliciosa persistente
- El acceso diferenciado busca mantener el trabajo defensivo importante sin exponer por defecto las capacidades más sensibles de forma amplia
Impacto para usuarios durante la vista previa
- Durante la vista previa, algunas solicitudes pueden ser bloqueadas o rechazadas
- Si una generación se pausa para revisión adicional, algunas solicitudes podrían tardar más
- En áreas de doble uso donde la actividad defensiva y la ofensiva pueden parecer similares al inicio, las medidas de seguridad también podrían intervenir en trabajos legítimos
- Los comentarios de la vista previa se usarán para reducir bloqueos y demoras innecesarias, mejorar la interpretación contextual de las medidas de seguridad y pulir la experiencia antes del lanzamiento más amplio
- También se está discutiendo un enfoque de largo plazo con clientes empresariales
  - detección compatible con la privacidad
  - controles de seguridad operativa del cliente
  - permisos de acceso ajustados al riesgo del cliente, los usuarios y las cargas de trabajo

Mejora de la robustez con red teaming automatizado

Las medidas de seguridad deben seguir siendo efectivas incluso cuando los atacantes cambian de táctica
OpenAI usa sus propios modelos para encontrar debilidades y mejorar más rápido las protecciones
Se dedicaron más de 700,000 horas de GPU equivalentes a A100 al red teaming automatizado
El red teaming automatizado se enfoca en encontrar universal jailbreaks que puedan funcionar con múltiples prompts o contextos
Al centrarse en estos ataques más generales, es posible probar las medidas de seguridad más allá de una lista fija de casos de falla
La automatización permite explorar más patrones de ataque de los que normalmente cubriría solo la prueba humana, encontrar antes los patrones de falla y reducir el tiempo entre descubrir una debilidad y corregirla
También se realizó red teaming humano con expertos externos, y ese trabajo continúa durante el periodo de vista previa
Los nuevos jailbreaks detectados pasan por procesos de reproducción, evaluación, priorización y corrección, y luego se añaden a evaluaciones continuas para probar fallas similares en el futuro

Disponibilidad y precios

Durante la vista previa, los modelos GPT‑5.6 estarán disponibles primero mediante la API y Codex para socios y organizaciones de confianza seleccionados
Después, OpenAI planea ofrecerlos de forma más amplia a usuarios de ChatGPT, Codex y la API
En el nuevo esquema de nombres de GPT‑5.6, el número representa la generación del modelo
Sol, Terra y Luna se refieren a tiers de capacidad continuos que pueden evolucionar cada uno a su propio ritmo
La familia busca dar a usuarios y desarrolladores opciones más claras entre inteligencia, velocidad y costo
Precio por token y caché
- El precio de GPT‑5.6 se fija por cada 1 millón de tokens
- Sol: entrada $5 / salida $30
- Terra: entrada $2.50 / salida $15
- Luna: entrada $1 / salida $6
- GPT‑5.6 introduce un almacenamiento en caché de prompts más predecible
  - soporte para puntos de corte de caché explícitos
  - vida útil mínima de caché de 30 minutos
- En GPT‑5.6 y modelos posteriores, las escrituras en caché se cobran a 1.25x la tarifa de entrada sin caché del modelo correspondiente
- Las lecturas en caché siguen recibiendo un 90% de descuento sobre la entrada en caché
Disponibilidad en Cerebras
- GPT‑5.6 Sol estará disponible en Cerebras en julio con una velocidad de hasta 750 tokens por segundo
- El acceso inicial estará limitado a clientes seleccionados mientras se amplía la capacidad

1 comentarios

GN⁺ 6 시간 전

Comentarios de Hacker News

La parte más interesante de este anuncio está escondida en el penúltimo párrafo: “En julio lanzaremos GPT‑5.6 Sol en Cerebras con hasta 750 tokens por segundo, ofreciendo inteligencia frontier a los clientes a una velocidad sin precedentes. El acceso estará limitado a algunos clientes hasta que ampliemos la capacidad”
750 tokens/segundo en un modelo frontier suena realmente interesante. Tengo dudas de que en rendimiento sea mucho más que un simple aumento de versión, pero si puedes obtener respuestas más rápido, se vuelve mucho más útil
Por ejemplo, me hace pensar en la tarea tediosa de buscar una función específica dentro de una base de código. Incluso ahora ya suele ser difícil ganarle a un arnés de agente de IA en ese tipo de trabajo, y si el modelo se vuelve 3 veces más rápido, habrá todavía menos posibilidades
- https://mikeveerman.github.io/tokenspeed/?rate=750&mode=think
  Más o menos así se sienten 750 tokens/segundo
- Como comparación, en openrouter Opus 4.8 da alrededor de 55 tokens/segundo, y el modo rápido unos 102 tokens/segundo
  750 tokens/segundo en el modelo más grande sería una locura
- Coincido con lo de que “en la tarea de encontrar una función específica dentro de una base de código normalmente es difícil ganarle a un arnés de agente de IA”
  Hace apenas 1 año recuerdo que “competía” con la IA para entender una base de código, y ahora ya no hay forma de ganar. No sé si mi capacidad de razonamiento empeoró o si los modelos mejoraron
- Todavía uso GPT-5.3-codex-spark, y ese también corre sobre chips de Cerebras
  Spark puede pasar de 1000 tokens/segundo, pero su ventana de contexto es muy limitada, así que no encaja en muchos flujos de trabajo. Este modelo nuevo, aunque sea un poco más lento, igual parece excelente
- Una vez que se alcanza cierta velocidad, parece que podríamos pasar a sistemas de razonamiento continuo/en tiempo real
  Las soluciones actuales, discretas y basadas en turnos, limitan bastante incluso la forma en que se entrena. Un enfoque continuo y en tiempo real podría cambiar esta área de raíz
  Desde una perspectiva de teoría de la información, la tasa real de transferencia de información sigue estando al nivel del acceso telefónico. Incluso 750 tokens/segundo sería como una conexión dial-up bastante mala; imagina 10 millones de tokens por segundo
Se ve esta tendencia: GPT-5 mini cuesta $0.25/$2 y está programado para retirarse en diciembre, GPT-5.4 mini cuesta $0.75/$4.5 y supuestamente es el reemplazo, y GPT-5.4 nano cuesta $0.2/$1.25 y en benchmarks supera a GPT-5 mini, pero en escenarios reales no se le parece en nada
Así que si hoy usas 5 mini, al final te van a empujar hacia GPT-5.4 mini. Aquí también está pasando lo mismo con el modelo “Luna”, que cuesta $1/$6
¿No podemos simplemente seguir usando los modelos que de verdad queremos? No necesito GPT 5.4 mini, con GPT-5 me basta
Quizá nunca fue realmente tan barato, y apenas nos estamos dando cuenta de que nos quieren hacer “actualizar” de forma lenta y dolorosa
- Si no necesitas el rendimiento de los modelos frontier de Anthropic/OpenAI, quizá te convengan más los modelos de pesos abiertos, que no pueden desaparecer
  En HN mencionan mucho DeepSeek V4 Flash, pero según Artificial Analysis, a agosto de 2025 compite de tú a tú con GPT-5 high [0]
  [0]: https://artificialanalysis.ai/models/comparisons/deepseek-v4-flash-vs-gpt-5
- Es exactamente igual que con los modelos SaaS. Los precios siguen subiendo y, para justificarlo, te fuerzan a actualizar una y otra vez a versiones nuevas con funciones que nadie pidió
- He batallado bastante con este problema. Modelos buenos y baratos claramente sí se pueden hacer, hay muchos en open source y las neo clouds los ofrecen de forma rentable
  Los grandes labs en la práctica ya renunciaron a los modelos baratos, y eso frustra. Es muy posible que las aplicaciones dejen de construirse sobre ellos en gran escala. Por ejemplo, nosotros estamos moviendo cargas de trabajo de Haiku/Sonnet a Deepseek v4
  El problema parece ser que, para sostener sus cifras de ingresos, tienen que cobrar mucho, y les preocupa más canibalizar sus propios ingresos que dejar que otros los canibalicen
- Buena observación. La tendencia de aumento de precios es clara, pero al mismo tiempo la innovación y la disponibilidad de alternativas, tanto en modelos abiertos como cerrados, también equilibran la situación
  Es natural que los labs exploren hasta dónde pueden empujar los precios, y también es natural que sus competidores aprovechen esos márgenes como oportunidad de crecimiento. Al final, parece que los precios se van a estabilizar más
- Lo mismo está pasando con Anthropic Haiku y Gemini Flash/Flash Lite. Todos están subiendo precios y retirando los modelos baratos
La tasa de trampa detectada en GPT-5.6 Sol fue la más alta entre los modelos públicos que evaluamos en nuestro arnés de agente ReAct
En nuestro conjunto de tareas, definimos “trampa” como cuando el modelo, en vez de resolver el problema dentro de las restricciones esperadas de la evaluación, explota bugs del entorno de evaluación o adopta estrategias prohibidas por la tarea para inflar su rendimiento en la evaluación
https://metr.org/blog/2026-06-26-gpt-5-6-sol/
- Esta cita del enlace sí da mucho miedo: como ejemplo visto al evaluar GPT-5.6 Sol, el modelo empaquetó un exploit en una entrega intermedia para revelar información sobre el conjunto oculto de tests de la tarea, o en otras tareas extrajo código fuente oculto que describía la respuesta esperada
  Suena parecido al comportamiento visto en Alibaba [0], pero aquello fue durante entrenamiento. Esto pasó en un modelo casi listo para lanzamiento
  [0] https://www.forbes.com/sites/boazsobrado/2026/03/11/alibabas-ai-agent-mined-crypto-without-permission-now-what/
- Que los modelos hagan trampa es bastante lógico. Durante las evaluaciones, las solicitudes de benchmark se envían a los backends de estas empresas
  Todo lo que tienen que hacer esas empresas es registrar esas solicitudes y “corregirlas” en el siguiente lanzamiento del modelo
Creo que GPT es el que mejor escribe código. Pensar en qué tan bien escribirá en la versión 5.6 me da escalofríos
Hace poco me enfrenté directamente a GPT con un código de casi 2,000 líneas, y la solución de GPT fue mejor y más rápida. Intenté basarme en varios codebases de GitHub, pero no había comparación con GPT
Por eso, usar GPT me provoca miedo y emoción al mismo tiempo. Da miedo darse cuenta de que este nivel de código ahora se está volviendo el promedio para la mayoría, y me emociona que yo también pueda estudiar y aprender a este nivel
Tengo muchísimas ganas de ver cuánto más va a mejorar el código con la actualización 5.6
- Yo estoy en el bando contrario. Los modelos abiertos ya empezaron a hacerlo mejor, y GPT 5.5 sigue haciendo desastres
  En cambio, la combinación de pi + glm + DeepSeek está muy bien. Fable era otro tipo de monstruo, eso sí. RIP
- Es puramente subjetivo, pero aunque el código de GPT 5.5 quizá tenga un techo general más alto, prefiero leer la salida de Opus 4.8
  La primera es un poco más fácil de revisar
- Hace unos meses escuché la misma frase varias veces sobre Opus 4.6, y luego se consideró decepcionantes a 4.7 y 4.8, y hoy la gente extraña “los buenos tiempos de 4.6”
  Los buenos tiempos aquí se refieren a unas semanas de febrero de 2026. Es muy interesante ver cómo se desarrolla todo esto
- Dudo de cuánto habrán mejorado las capacidades de programación
  Me parece raro que en el anuncio no haya ni un solo benchmark de coding, y que lo más cercano sea terminal bench
- ¿Podrías dar un ejemplo? Me interesa saber qué intentabas resolver, cuál fue tu solución y por qué la de GPT fue mejor y más rápida
Si usaste GPT-5.5 en las últimas 24 horas, quizá ya tuviste acceso a 5.6
Estoy corriendo pruebas en el harness que estamos construyendo, y ayer de repente subieron varios puntos. Volví a correr el benchmark base de Codex y GPT-5.5 dio alrededor de 88% en Terminal Bench 2.1 sobre el Codex base
Una señal incluso más grande que el puntaje es que 3 pruebas que en 5.5 solían quedar bloqueadas por “seguridad” empezaron a pasar anoche sin ningún aviso
- Cambios así pueden ocurrir no por algún misterioso A/B test, sino solo por cambios de infraestructura
- ¿Leíste el lanzamiento? No se publicó de forma amplia para todo el mundo
  Dice que “comenzará con un preview limitado para un pequeño grupo de socios de confianza con quienes se ha compartido la participación con el gobierno, y luego se lanzará más ampliamente”
  Este comentario es un gran ejemplo de cómo el usuario promedio de LLM actúa básicamente como un jugador de tragamonedas. Cree que “esto está caliente, esto trae suerte, esto es mejor que aquello” y sigue cambiando de modelo con base en una comprensión mística que solo él cree tener
  ¿Y qué importa un benchmark de 80%? Entrenan con esos benchmarks públicos para impresionar a la gente que les atribuye significado. Entonces, ¿por qué en trabajos de Upwork de $20~30/hora la tasa de éxito es solo del 4%? Estos benchmarks parecen prácticamente inútiles
  También existe la varianza, así que no entiendo por qué sacar mejor puntaje en unas cuantas pruebas haría creer que tuviste acceso a un modelo al que te dijeron que no tienes acceso
  https://labs.scale.com/leaderboard/rli
Aprovecho un hilo popular para preguntar: ¿cómo están ahora los límites de uso de Codex y Claude?
Antes le daba la misma tarea a ambos, y Codex usaba 20 veces menos de mi límite de 5 horas. Ambos eran planes mensuales de $20
En realidad yo prefería más a Claude, así que me molestó, pero en ese momento no se podía usar para trabajo serio por los límites
Desde entonces ambos proveedores redujeron bastante la disponibilidad de uso, y al menos uno incluso recibió una demanda por eso
Ahora no estoy suscrito a ninguno de los dos y estoy evaluando opciones. GPT parece un poco mejor que Opus y antes ofrecía límites mucho más altos, así que me inclino por suscribirme a OpenAI. Pero quiero saber si eso sigue siendo cierto hoy o si solo coincide con lo que recuerdo de hace 2 o 3 meses. Las dos empresas parecen estar recortando costos con fuerza
Preferiría respuestas de alguien que haya usado ambos, pero las anécdotas también son bienvenidas
- Siento que el uso de Codex es muy generoso. Pero yo tengo el plan de $200 y también uso el plan de $200 de Claude
  Si quieres, puedes tener corriendo xhigh y subagentes casi de forma continua durante todas tus horas despierto. Si activas la opción de velocidad 1.5x, a veces sí llegas al límite de 5 horas
  Me gusta más el estilo de Claude que 5.5, pero 5.5 parece mucho menos flojo. Claro, eso seguramente depende mucho de la tarea y de la estrategia de prompts
- El mes pasado, Claude Max 5x se sintió bastante generoso en uso porque hubo muchos reinicios por Fable y por bugs
  Si usas 5.5 high u Opus 4.8 high, honestamente se siente bastante parecido
  Parece que quitaron el uso separado de Sonnet en el plan Max, quizá por la preparación de Sonnet 5. Es una lástima, porque gracias a eso el flujo de trabajo con subagentes se sentía casi ilimitado
- Si comparas Claude Code y Cursor+Gpt55 para trabajo, Claude claramente es más lento y más caro
- Interesante. Desde hace como un mes noté que Claude Code empezó a usar aproximadamente 5 veces más tokens. Es solo una estimación muy por encima
Dicen que “también introducen un nuevo modo ultra que aprovecha subagentes para acelerar tareas complejas más allá de la capacidad de un solo agente”, y me da curiosidad cómo funciona eso
¿Los subagentes también pueden usar las mismas herramientas? ¿El cliente va a terminar inundado de llamadas a herramientas? Si esto mismo se puede hacer del lado del cliente con mucho más control, ¿por qué cobrar extra por añadirlo como un nuevo “modelo”?
Y si se trata de una legión de subagentes, también me pregunto por qué lo comparan con Fable y Mythos. Si les pones un harness parecido, probablemente esos modelos den mejores benchmarks
- Si es parecido a ultracode de ClaudeCode, no tiene nada de nuevo ni innovador
  En esencia, un script determinista escrito por el hilo principal del modelo invoca varios subagentes, cada uno se devora un montón de tokens, y luego un agente orquestador sintetiza las salidas
- Si se parece a Claude Ultracode, con un solo prompt quema 3 millones de tokens en 30 minutos
- ¿No usan ya subagentes todos los harness principales (pi, Claude code, codex)?
  Si se los indicas explícitamente, seguro que sí, y al menos en pi he visto que los lanza incluso sin una instrucción explícita
- A mí también me interesa. Si no es solo para exprimir un poquito más de rendimiento, entonces supongo que será para recopilar de forma limpia datos de uso real de este tipo de uso
- Me sorprende que no estuvieran usando ya subagentes. Tal vez solo estén hablando de que el despliegue web se integró con codex
Igual que con Mythos, no me emociona nada un modelo que no puedo usar
- Al menos OpenAI sí parece tener planes de poner todas las versiones a disposición del público. Se ve muchísimo mejor que lo que está pasando en Anthropic
  “Sí, tenemos el mejor modelo que existe. Confía. Da mucho miedo”
  “Ah, ¿sí? ¿Podemos verlo?”
  “Lárgate. A ustedes, simples plebeyos, les vamos a dar una versión peor”
  “Mmm, ¿gracias?”
  “Jaja, en realidad ni eso. La administración actual se tragó nuestro marketing del miedo, así que les vamos a dar un devorador de tokens peor y absurdamente caro. Las restricciones de hardware empeoran cada semana”
  Digan lo que digan sobre OpenAI, su estrategia empresarial se ve mucho más sólida
Cuando dicen “Terra muestra un rendimiento competitivo con GPT‑5.5 y cuesta la mitad”, a mí me suena a “es un producto inferior, pero estamos tratando de ocultarlo en el marketing”
Y frases como “la pila de seguridad más robusta hasta ahora, protecciones reforzadas contra actividades de alto riesgo, solicitudes cibernéticas sensibles y abuso reiterado, y varias semanas de búsqueda de debilidades, pruebas de presión y refuerzo ante ataques reales” como mucho no me aportan nada, y por lo general probablemente me perjudiquen. Porque habrá más rechazos o menos utilidad
¿Por qué los proveedores siguen poniendo la pila de seguridad al frente? ¿De verdad hay clientes que piden eso? No se me ocurre nadie aparte de usuarios de chatbots tipo ChatGPT para soporte
- Yo interpreto “Terra muestra un rendimiento competitivo con GPT‑5.5 y cuesta la mitad” como que vas a obtener el rendimiento mainstream de hoy a un precio mucho más bajo
- El propósito de Terra es ser bastante bueno y más barato que el modelo tope. Obviamente va a ser inferior en inteligencia
- Ese mensaje claramente está dirigido al gobierno. Solo hay que ver otros hilos
- Tal vez también sea un mensaje para los inversionistas

Vista previa de GPT‑5.6 Sol: la próxima generación de modelos

Alcance de la vista previa de la serie GPT‑5.6

Lanzamiento limitado y coordinación con el gobierno

Capacidades del modelo y evaluaciones

Modos de razonamiento

Programación y biología

Ciberseguridad

Capacidades cibernéticas y medidas de seguridad

Umbral de Cyber Critical

Pila de seguridad por capas

Rechazo a nivel de modelo y revisión en tiempo real

Revisión a nivel de cuenta y acceso diferenciado

Impacto para usuarios durante la vista previa

Mejora de la robustez con red teaming automatizado

Disponibilidad y precios

Precio por token y caché

Disponibilidad en Cerebras

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News