DeepSeek V4 Pro supera a GPT-5.5 Pro en precisión
(runtimewire.com)- En una comparación 1:1 de 4 tareas de texto generadas al momento para impedir cualquier preparación previa, DeepSeek V4 Pro obtuvo 38.0 puntos y GPT-5.5 Pro registró 33.0
- Ambos modelos fueron sólidos, pero DeepSeek fue más estricto, más literal y mostró mayor fiabilidad bajo restricciones, mientras que GPT-5.5 Pro perdió puntos por cambios improvisados innecesarios
- La ventaja técnica más clara apareció en la tarea python-log-redactor, donde produjo resultados completos sin omisiones al manejar patrones anidados con la prioridad correcta mediante una sola expresión regular y una función de reemplazo
- En la tarea de seguir instrucciones, ejecutó con precisión solo lo que pedía el prompt, mientras que GPT-5.5 Pro añadió elementos no solicitados como traspaso de turno y escalamiento
- Fue evaluado como un modelo más contenido, preciso y confiable en trabajos de precisión donde pequeñas desviaciones pueden convertirse en fallas reales
Resultado de la evaluación general
- Por puntuación, DeepSeek V4 Pro ganó con 38.0 frente a 33.0, y hay base suficiente para esa diferencia
- A lo largo de las tareas evaluadas, el Model A (DeepSeek) fue más estricto y literal, y más estable bajo restricciones
- El Model B (GPT-5.5 Pro) fue excelente, pero mostró una tendencia algo excesiva a hacer cambios improvisados
- La conclusión final fue que, en trabajos donde pequeñas desviaciones llevan directamente a fallas reales, se trata de un modelo más contenido, preciso y confiable
python-log-redactor (tarea de escritura de código)
- La tarea consistía en implementar en Python 3 la función
redact_log(line: str) -> str, en la que los correos electrónicos debían enmascararse como[EMAIL], las direcciones IPv4 como[IP]y los IDs de ticket con formatoINC-+ 6 dígitos como[TICKET]- El resto del texto debía conservarse tal cual, las IP inválidas como
999.1.2.3no debían enmascararse y se asumía que no había entrada multilínea
- El resto del texto debía conservarse tal cual, las IP inválidas como
- Ganador: DeepSeek V4 Pro — manejó patrones anidados con una sola expresión regular y una función de reemplazo, asegurando la prioridad correcta de sustitución y sin omisiones
- GPT-5.5 Pro separó las expresiones regulares, creando riesgo de errores de orden, y su regex de correo presentaba defectos como falta de límites de palabra y sobreajuste de coincidencias
vendor-delay-update (tarea de redacción de mensaje de trabajo)
- La tarea consistía en redactar una actualización de estado que el VP de operaciones enviaría a los gerentes regionales de almacén para informar que el envío de 420 unidades de reemplazo del proveedor de escáneres de código de barras North Quay Devices se retrasó del 12 al 19 de mayo por una falla en la certificación de baterías
- Los escáneres de reserva solo alcanzaban para Memphis y Reno, mientras que Tulsa y Allentown tendrían que compartir dispositivos durante una semana
- Se debía pausar el reconteo no esencial de inventario, priorizar el picking de salida y pedir un reporte diario del faltante acumulado antes de las 4 p. m. hora local, con un tono sereno, responsable y práctico, y una extensión de 140 a 180 palabras
- Ganador: DeepSeek V4 Pro — siguiendo el prompt, indicó directamente por parte del VP que se enviara el reporte diario del faltante acumulado antes de las 4 p. m. hora local, manteniendo un tono sereno, responsable y práctico
- GPT-5.5 Pro agregó detalles no solicitados como traspaso de turno y escalamiento, y cambió el destinatario a "Operations Planning", apartándose algo de la instrucción, aunque ambos mantuvieron alta calidad y respetaron el límite de palabras
meeting-notes-summary (tarea de resumen y generación de JSON)
- La tarea consistía en leer notas de reunión y generar un resumen de 2 oraciones junto con un objeto JSON con las claves
launch_date,owner,blocked_by,open_questions(arreglo) ydecisions(arreglo)- Las notas trataban del proyecto de rediseño del portal para inquilinos de Cedar Lane, e incluían aprobación legal, estado finalizado del frontend, objetivo de lanzamiento para 2026-03-18, un problema en el sandbox financiero donde el reintento de ACH bloqueaba IDs de recibo duplicados y la decisión de eliminar el modo oscuro, entre otros puntos
- Ganador: DeepSeek V4 Pro — respetó exactamente el esquema solicitado y entregó un resumen de 2 oraciones junto con campos JSON del tipo correcto
- GPT-5.5 Pro tuvo un buen resumen, pero incluyó texto condicional en
launch_datey tratóblocked_by, que requería un solo valor, como un arreglo, violando la estructura
- GPT-5.5 Pro tuvo un buen resumen, pero incluyó texto condicional en
messy-orders-to-json (tarea de normalización de datos)
- La tarea consistía en convertir líneas de pedidos desordenadas en JSON válido como un arreglo de objetos con el esquema especificado, preservando obligatoriamente el orden de entrada
- Había que normalizar
prioritya true/false, convertir fechas de envío faltantes comonone,tbdy-en null, recortar espacios alrededor de los valores y separar los ítems por;, donde cada elemento seguía el formatoSKU xQTY
- Había que normalizar
- Resultado: empate — ambos lados produjeron JSON válido, conservaron el orden de entrada, coincidieron exactamente con el esquema y normalizaron correctamente los valores de priority y ship_by
- No hubo diferencia sustancial en calidad ni precisión, aunque el empate en una tarea sencilla de limpieza no compensa errores en trabajos de precisión
Método de prueba
- Se usaron 4 tareas de texto generadas al momento para el enfrentamiento, de modo que ningún modelo pudiera prepararse con antelación
- La evaluación de cada tarea fue realizada por grok-4-1-fast-non-reasoning
- La puntuación final fue 38.0 para DeepSeek V4 Pro y 33.0 para GPT-5.5 Pro
Especificaciones de los modelos
-
OpenAI: GPT-5.5 Pro
- Modelo de alto rendimiento optimizado para razonamiento profundo y precisión, orientado a cargas de trabajo complejas y de alto riesgo
- Contexto de 1M+ tokens (entrada 922K, salida 128K), soporte para entrada de texto e imagen, diseñado para resolución de problemas de largo aliento, agentic coding y ejecución precisa de flujos de trabajo de múltiples pasos
- Precio: entrada $30.00 / salida $180.00 (por millón de tokens), contexto 1.1M, cutoff 2025-12-01
-
DeepSeek: DeepSeek V4 Pro
- Gran modelo Mixture-of-Experts con 1.6T de parámetros totales y 49B de parámetros activos, con soporte para contexto de 1M tokens
- Orientado a razonamiento avanzado, coding y flujos de trabajo agentic de largo alcance, con fuerte desempeño en benchmarks de conocimiento, matemáticas e ingeniería de software
- Basado en la misma arquitectura que DeepSeek V4 Flash, incorpora un sistema híbrido de atención para un procesamiento eficiente de textos largos
- Soporta intensidades de razonamiento
highyxhigh;xhighse asigna al máximo razonamiento y es adecuado para cargas complejas como análisis de bases de código completas, automatización de múltiples etapas y síntesis de grandes volúmenes de información - Precio: entrada $0.435 / salida $0.870 (por millón de tokens), contexto 1M
2 comentarios
No lo puedo creer, la verdad..
Opiniones de Hacker News
Con 4 experimentos armados al azar casi no se puede decir nada sobre la capacidad de ningún modelo
El texto también se lee como un clickbait generado por IA bastante superficial, hecho para promocionar el modelo o provocar discusión
Expresiones del párrafo inicial como “where it matters”, “cleanly” e “is still strong” son vagas, y falta una explicación concreta como que, en realidad, DeepSeek dio resultados más concisos en 3 de las 4 pruebas. Le doy 1 estrella
Según Merriam-Webster, lede es “la parte introductoria de una nota periodística que busca llevar al lector a leer el artículo completo”
Uno puede preferir un estilo más seco, pero no es válido criticar una introducción por intentar cumplir su propósito
https://www.merriam-webster.com/dictionary/lede
https://artificialanalysis.ai/evaluations/ifbench
El texto me pareció claro y bastante equilibrado. El lead suena un poco a texto de ventas, pero los leads suelen ser así, y descartarlo de inmediato solo porque “se siente como algo escrito por un LLM” es una reacción bastante floja
Este artículo muestra que DeepSeek puede competir con GPT 5.5 y que a veces incluso puede ser mejor. Además, es una señal importante de que no hay un moat defendible
Estas pruebas cada vez parecen más una pérdida de tiempo
A estas alturas, la inteligencia claramente está ahí. Intentar medirla se ve inútil. Cuando compras un martillo en la ferretería no puedes ordenarlos según “la calidad del producto final hecho con este martillo”, pero eso es más o menos lo que se le está pidiendo hoy a la evaluación de modelos
La siguiente magia vendrá de arneses y entornos específicos del dominio. Usas a propósito un modelo un poco menos potente para exponer debilidades en la forma en que el dominio quedó incorporado al modelo. Si todavía te sobra capacidad, la confiabilidad del proyecto sube muchísimo. Si un cliente se queja de cierto caso límite, solo subes ese escenario a gpt5.5, pero si ya estabas usando 5.5, ya no tienes adónde ir
Me pregunto si estamos usando los mismos modelos que usa el resto. Para mí, los LLM dan buenas respuestas el 80% del tiempo, pero el otro 20% fallan de una forma tan desastrosa que queda claro que no hay inteligencia
Aun así, los modelos siguen sorprendiendo cada día con distintas alucinaciones, carencias epistemológicas, falta de sentido común y fallas para seguir instrucciones
Hoy intenté hacer que opus 4.8 siguiera un patrón arquitectónico simple para el controlador de una app Rails, y fue como sacarle los dientes a un tiburón
Solo así podemos tener garantías de que la inteligencia no aparece de forma accidental o solo superficial, sino de manera consistente y estructural. Para usos livianos, herramientas livianas; para usos de misión crítica, herramientas certificadas
Recién estamos entrando en el detalle del benchmarking de LLM, y todavía falta mucho camino. Aun así, que un LLM que corre localmente pueda dar resultados parecidos a los mejores modelos de última generación es algo tremendamente interesante
Si el modelo fue entrenado para escupir sitios web CRUD y lo que quieres es crear un sitio web CRUD, entonces un arnés puede ser útil. Pero eso se acerca más a perder tiempo mezclando mejor lo que ya existe
Después de usar Claude, y de que Opencode quedara bloqueado, en el trabajo ahora uso GPT. En lo personal, uso Deepseek en Opencode Go con el plan de $10 al mes y, sinceramente, casi no noto diferencia
Se siente igual de capaz, y comete el mismo tipo de errores tontos que los otros dos han venido cometiendo desde marzo. Por el precio, estoy más que conforme
En el otro 5% del tiempo sí ayudan muchísimo en problemas difíciles de razonamiento y te evitan bastante sufrimiento. Ojalá pudiera predecir con precisión cuándo va a hacer falta ese 5% extra
Probé agregar GPT 5.5 Pro a un benchmark de escaneo de vulnerabilidades hecho por mí (https://swelljoe.com/post/will-it-mythos/), pero se gastó en el camino todo el límite de presupuesto de $100. DeepSeek V4 Pro costó alrededor de 1 dólar para todo el benchmark, y GPT Pro costó en promedio $22 por caso
GPT 5.5 Pro encontró 2 de 4 casos procesados antes de que se agotara el presupuesto. Con presupuesto ilimitado quizá habría sido el mejor, pero Opus 4.8, DeepSeek V4 Pro y MiMo 2.5 Pro encontraron 4 de 9 bugs. Opus fue un orden de magnitud más barato que GPT 5.5 Pro y también alrededor de 30% más barato que GPT 5.5, mientras que DeepSeek y MiMo fueron dos órdenes de magnitud más baratos, a unos 10 centavos por caso
GPT Pro “mastica” relativamente por más tiempo y más
No se me ocurre un caso de uso razonable para usar GPT 5.5 Pro pagando unas 31 veces el costo de Opus, y ya no pienso seguir haciéndole benchmarks
En una situación donde el costo por tokens se vuelve cada vez más importante, el hecho de que existan modelos dramáticamente más baratos que los grandes proveedores de EE. UU. va a ser un problema para Anthropic y OpenAI. Está bien pagar una prima razonable por el mejor modelo en programación conversacional, pero en uso vía API, como la iteración de modelos, la comparación entre modelos y la evaluación de modelos pueden resolverse con un harness y un framework de validación de respuestas correctas sin requerir mucho tiempo humano, es difícil encontrar una razón para pagar entre 10 y 200 veces más que DeepSeek
“Con $3.88, 690,003,591 tokens y 5 horas, hice ingeniería inversa del sistema de licencias de Teamspeak 3.13.8 usando Deepseek Pro y Flash juntos”
https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
9 bugs parecen una muestra un poco pequeña para hacer un ranking
Aun así, el ranking en general sale bastante parecido a lo esperado
Me pregunto si Deepseek sí es Pro y no Flash. Uso mucho Flash para tareas pequeñas y funciona bastante bien. Es bueno para uso “conversacional”, es muy rápido y las tareas pequeñas casi las termina al instante
También parece útil para investigar codebases grandes. Me pregunto si también serviría para trabajo de seguridad
Da gusto ver que a los modelos baratos les vaya bien
Me pregunto si cambiar Claude Code por los precios de la API de DeepSeek daría más por el dinero que el plan Max de $100 que uso ahora.
Solo pego con el límite de 5 horas una vez cada varios días, y al límite semanal solo llego si lo uso de la forma más agresiva, normalmente uno o dos días antes del reinicio. Más allá de no toparme con límites, no creo que mi uso vaya a aumentar mucho.
Tampoco lo veo solo desde el costo, porque todavía me incomoda enviar mi trabajo a un laboratorio bajo un gobierno hostil a EE. UU., pero mi pregunta ahora es desde la perspectiva del costo.
Todos los proveedores por suscripción ofrecen mejor valor en límites por dinero que Anthropic. La única excepción es GitHub, que en comparación es abrumadoramente caro y limitado, hasta dar vergüenza.
(https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
Si lo que quieres decir es que no quieres usar modelos hechos por laboratorios fuera de EE. UU., entonces quedas atado a los modelos estadounidenses, pero en EE. UU. también hay varios laboratorios grandes. Si te preocupa dónde se ejecuta la inferencia, a través de OpenRouter puedes usar proveedores de 12 países, incluido EE. UU., y varios proveedores por suscripción también alojan en múltiples países. Hay muchas opciones.
. ./deepseek-claude.sh, y usa claude como siempre.export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
export ANTHROPIC_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
export CLAUDE_CODE_EFFORT_LEVEL=max
Al principio lo usé para tareas grandes de lectura cuando estaba cerca del límite. Siendo sincero, no es tan bueno como Claude, pero es muchísimo más barato y te deja seguir trabajando. A veces también está bueno pedirle tanto a claude como a deepseek que revisen el código y sugieran cómo pulirlo, y luego comparar las dos respuestas.
Si se mantiene mi patrón de uso, pienso bajar la suscripción a $20 al mes y meter más dinero en Deepseek.
Repositorio de referencia: https://github.com/aravindhsampath/agentic-template
Como siempre, cada modelo se atasca en puntos distintos. Para la mayoría de mis experimentos en Cursor, exploración y pruebas de concepto, uso la API de DeepSeek v4, pero para escribir código de producción le tengo menos confianza que a OpenAI/Claude. A veces DeepSeek es muy bueno para depurar o planificar, y otras veces se traba o entrega baja calidad. Con los modelos de OpenAI y Anthropic también pasa.
En general, DeepSeek sirve, pero parece estar un escalón por debajo de Opus 4.8 y GPT 5.5. Los corro a todos con la configuración máxima de razonamiento.
No tiene los beneficios de lectura en caché ultra barata del endpoint propio de DeepSeek, pero igual sigue siendo muchísimo más barato que la tarifa de la API de Anthropic. Aunque es importante recordar que ahora mismo no estás pagando tarifa de API.
Los descuentos de lectura en caché de DeepSeek y Xiaomi están relacionados con que los modelos de última generación usan menos espacio de almacenamiento KV, así que cachear sale más barato. Ningún proveedor de inferencia de modelos abiertos ha intentado igualar esos precios, lo cual probablemente dice algo sobre la estructura de precios de inferencia, aunque no sé exactamente qué.
Coincido en que los mejores modelos abiertos no están al nivel frontier. En planificación de alto nivel, o en situaciones donde les das solo el marco general y esperas muchas suposiciones, ahí se va a notar la diferencia. Pero para programar a partir de un plan concreto, parecen suficientemente buenos. Solo los he usado fuera del trabajo, así que no tengo experiencia con codebases gigantes, pero parecen bastante buenos reuniendo la información necesaria antes de meterse, así que imagino que, si hace falta, se pondrían a buscar con grep.
Hay una pista molesta: si usas mucho el plan de suscripción personal, sale muchísimo más barato que la API. Si ves https://she-llac.com/claude-limits, la discusión de costos se complica. Aun así, creo que vale la pena jugar con modelos abiertos. Es una de las cosas que permite tratarlos como una sola tecnología, y no como un paquete de productos de unas pocas empresas.
Una advertencia con noticias grandes como esta. Declaran que un modelo es mejor que otro usando un conjunto pequeño de pruebas, pero me pregunto si de verdad esos resultados se pueden reproducir de forma consistente.
Casi no publican nada, así que en la práctica no hay material para que otros verifiquen por su cuenta las pruebas o los criterios.
El mayor valor de DeepSeek V4 Pro es su precio bajo. No espero que rinda mucho mejor que GPT-5.5; incluso si estuviera más o menos al nivel de gpt-5.4, seguiría siendo un muy buen modelo.
Casi nunca hago algo que requiera un modelo mejor que DSv4 Flash. Mucho menos necesito Pro
Si puedes explicar el problema y la solución lo bastante bien, Flash simplemente lo resuelve
Cuando no puedes explicar el problema con suficiente detalle o te da flojera y solo puedes describir el resultado que quieres, siento que un modelo como GPT 5.5 es claramente mejor encontrando por sí solo una solución sólida
La diferencia de capacidad entre modelos es clara, pero también está claro que incluso los modelos más pequeños de pesos abiertos son lo bastante buenos como para ayudar mucho en la mayoría de las tareas
Estoy usando deepseek v4 por su relación costo-rendimiento. En general siento que está por debajo de algunos otros modelos, pero al final, si le das los criterios de aceptación correctos, puedes hacer que cualquier modelo funcione
Solo hay que darle especificaciones detalladas y pruebas, y darle permiso para iterar hasta que salga bien. One-shot es una mala métrica para medir el rendimiento
Puede quedarse atrapado iterando dentro del espacio de información sin encontrar la solución que buscas
Sí ayuda, pero en los casos de fallo muchas veces hace falta que una persona intervenga para guiarlo o corregir a la fuerza cierta ruta para llegar a la solución
DeepSeek V4 Pro usado con reasonix es sorprendentemente barato y suficientemente bueno para la mayoría de las tareas de programación. También es bastante distinto de GPT 5.5 y Opus 4.8, así que a veces encuentra problemas que los otros dos no detectan
Creo que vale la pena tenerlo en la caja de herramientas
DeepSeek V4 Pro es excelente y ridículamente barato, pero se está subestimando MiMo V2.5 Pro. Cuesta lo mismo, su precio de caché es más bajo, es multimodal y aparece mejor posicionado en la mayoría de los benchmarks
Lo mismo aplica al comparar MiMo V2.5 con DeepSeek V4 Flash
Los modelos OSS varían mucho según el proveedor que uses, y la razón principal es la tasa de aciertos de caché
Model Cheapest effectiveInputPrice (Provider)
MiMo-V2.5-Pro 0.3720 (Xiaomi)
DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)