3 puntos por GN⁺ 4 시간 전 | 2 comentarios | Compartir por WhatsApp
  • En una comparación 1:1 de 4 tareas de texto generadas al momento para impedir cualquier preparación previa, DeepSeek V4 Pro obtuvo 38.0 puntos y GPT-5.5 Pro registró 33.0
  • Ambos modelos fueron sólidos, pero DeepSeek fue más estricto, más literal y mostró mayor fiabilidad bajo restricciones, mientras que GPT-5.5 Pro perdió puntos por cambios improvisados innecesarios
  • La ventaja técnica más clara apareció en la tarea python-log-redactor, donde produjo resultados completos sin omisiones al manejar patrones anidados con la prioridad correcta mediante una sola expresión regular y una función de reemplazo
  • En la tarea de seguir instrucciones, ejecutó con precisión solo lo que pedía el prompt, mientras que GPT-5.5 Pro añadió elementos no solicitados como traspaso de turno y escalamiento
  • Fue evaluado como un modelo más contenido, preciso y confiable en trabajos de precisión donde pequeñas desviaciones pueden convertirse en fallas reales

Resultado de la evaluación general

  • Por puntuación, DeepSeek V4 Pro ganó con 38.0 frente a 33.0, y hay base suficiente para esa diferencia
  • A lo largo de las tareas evaluadas, el Model A (DeepSeek) fue más estricto y literal, y más estable bajo restricciones
    • El Model B (GPT-5.5 Pro) fue excelente, pero mostró una tendencia algo excesiva a hacer cambios improvisados
  • La conclusión final fue que, en trabajos donde pequeñas desviaciones llevan directamente a fallas reales, se trata de un modelo más contenido, preciso y confiable

python-log-redactor (tarea de escritura de código)

  • La tarea consistía en implementar en Python 3 la función redact_log(line: str) -> str, en la que los correos electrónicos debían enmascararse como [EMAIL], las direcciones IPv4 como [IP] y los IDs de ticket con formato INC- + 6 dígitos como [TICKET]
    • El resto del texto debía conservarse tal cual, las IP inválidas como 999.1.2.3 no debían enmascararse y se asumía que no había entrada multilínea
  • Ganador: DeepSeek V4 Pro — manejó patrones anidados con una sola expresión regular y una función de reemplazo, asegurando la prioridad correcta de sustitución y sin omisiones
    • GPT-5.5 Pro separó las expresiones regulares, creando riesgo de errores de orden, y su regex de correo presentaba defectos como falta de límites de palabra y sobreajuste de coincidencias
    Publicidad

vendor-delay-update (tarea de redacción de mensaje de trabajo)

  • La tarea consistía en redactar una actualización de estado que el VP de operaciones enviaría a los gerentes regionales de almacén para informar que el envío de 420 unidades de reemplazo del proveedor de escáneres de código de barras North Quay Devices se retrasó del 12 al 19 de mayo por una falla en la certificación de baterías
    • Los escáneres de reserva solo alcanzaban para Memphis y Reno, mientras que Tulsa y Allentown tendrían que compartir dispositivos durante una semana
    • Se debía pausar el reconteo no esencial de inventario, priorizar el picking de salida y pedir un reporte diario del faltante acumulado antes de las 4 p. m. hora local, con un tono sereno, responsable y práctico, y una extensión de 140 a 180 palabras
  • Ganador: DeepSeek V4 Pro — siguiendo el prompt, indicó directamente por parte del VP que se enviara el reporte diario del faltante acumulado antes de las 4 p. m. hora local, manteniendo un tono sereno, responsable y práctico
    • GPT-5.5 Pro agregó detalles no solicitados como traspaso de turno y escalamiento, y cambió el destinatario a "Operations Planning", apartándose algo de la instrucción, aunque ambos mantuvieron alta calidad y respetaron el límite de palabras

meeting-notes-summary (tarea de resumen y generación de JSON)

  • La tarea consistía en leer notas de reunión y generar un resumen de 2 oraciones junto con un objeto JSON con las claves launch_date, owner, blocked_by, open_questions (arreglo) y decisions (arreglo)
    • Las notas trataban del proyecto de rediseño del portal para inquilinos de Cedar Lane, e incluían aprobación legal, estado finalizado del frontend, objetivo de lanzamiento para 2026-03-18, un problema en el sandbox financiero donde el reintento de ACH bloqueaba IDs de recibo duplicados y la decisión de eliminar el modo oscuro, entre otros puntos
    Publicidad
  • Ganador: DeepSeek V4 Pro — respetó exactamente el esquema solicitado y entregó un resumen de 2 oraciones junto con campos JSON del tipo correcto
    • GPT-5.5 Pro tuvo un buen resumen, pero incluyó texto condicional en launch_date y trató blocked_by, que requería un solo valor, como un arreglo, violando la estructura

messy-orders-to-json (tarea de normalización de datos)

  • La tarea consistía en convertir líneas de pedidos desordenadas en JSON válido como un arreglo de objetos con el esquema especificado, preservando obligatoriamente el orden de entrada
    • Había que normalizar priority a true/false, convertir fechas de envío faltantes como none, tbd y - en null, recortar espacios alrededor de los valores y separar los ítems por ;, donde cada elemento seguía el formato SKU xQTY
  • Resultado: empate — ambos lados produjeron JSON válido, conservaron el orden de entrada, coincidieron exactamente con el esquema y normalizaron correctamente los valores de priority y ship_by
    • No hubo diferencia sustancial en calidad ni precisión, aunque el empate en una tarea sencilla de limpieza no compensa errores en trabajos de precisión
    Publicidad

Método de prueba

  • Se usaron 4 tareas de texto generadas al momento para el enfrentamiento, de modo que ningún modelo pudiera prepararse con antelación
  • La evaluación de cada tarea fue realizada por grok-4-1-fast-non-reasoning
  • La puntuación final fue 38.0 para DeepSeek V4 Pro y 33.0 para GPT-5.5 Pro

Especificaciones de los modelos

  • OpenAI: GPT-5.5 Pro

    • Modelo de alto rendimiento optimizado para razonamiento profundo y precisión, orientado a cargas de trabajo complejas y de alto riesgo
    • Contexto de 1M+ tokens (entrada 922K, salida 128K), soporte para entrada de texto e imagen, diseñado para resolución de problemas de largo aliento, agentic coding y ejecución precisa de flujos de trabajo de múltiples pasos
    • Precio: entrada $30.00 / salida $180.00 (por millón de tokens), contexto 1.1M, cutoff 2025-12-01
  • DeepSeek: DeepSeek V4 Pro

    • Gran modelo Mixture-of-Experts con 1.6T de parámetros totales y 49B de parámetros activos, con soporte para contexto de 1M tokens
    • Orientado a razonamiento avanzado, coding y flujos de trabajo agentic de largo alcance, con fuerte desempeño en benchmarks de conocimiento, matemáticas e ingeniería de software
    • Basado en la misma arquitectura que DeepSeek V4 Flash, incorpora un sistema híbrido de atención para un procesamiento eficiente de textos largos
    • Soporta intensidades de razonamiento high y xhigh; xhigh se asigna al máximo razonamiento y es adecuado para cargas complejas como análisis de bases de código completas, automatización de múltiples etapas y síntesis de grandes volúmenes de información
    • Precio: entrada $0.435 / salida $0.870 (por millón de tokens), contexto 1M

2 comentarios

 
shakespeares 1 시간 전

No lo puedo creer, la verdad..

 
GN⁺ 4 시간 전
Opiniones de Hacker News
  • Con 4 experimentos armados al azar casi no se puede decir nada sobre la capacidad de ningún modelo
    El texto también se lee como un clickbait generado por IA bastante superficial, hecho para promocionar el modelo o provocar discusión
    Expresiones del párrafo inicial como “where it matters”, “cleanly” e “is still strong” son vagas, y falta una explicación concreta como que, en realidad, DeepSeek dio resultados más concisos en 3 de las 4 pruebas. Le doy 1 estrella

    • Parece que se malinterpreta el propósito del lede
      Según Merriam-Webster, lede es “la parte introductoria de una nota periodística que busca llevar al lector a leer el artículo completo”
      Uno puede preferir un estilo más seco, pero no es válido criticar una introducción por intentar cumplir su propósito
      https://www.merriam-webster.com/dictionary/lede
    • No quiero ver en HN textos generados por IA sobre IA, salvo que estén realmente muy bien escritos
    • 3 de 4 experimentos siguen siendo claramente anecdóticos, pero los resultados en sí coinciden hasta cierto punto con benchmarks más establecidos de instruction following. Aun así, DeepSeek V4 Pro no ocupa el primer lugar en ese benchmark
      https://artificialanalysis.ai/evaluations/ifbench
      El texto me pareció claro y bastante equilibrado. El lead suena un poco a texto de ventas, pero los leads suelen ser así, y descartarlo de inmediato solo porque “se siente como algo escrito por un LLM” es una reacción bastante floja
    • En el mercado automotriz, la opción ideal y superior quizá sea solo uno o dos modelos, pero muchas otras empresas y modelos inferiores igual se siguen vendiendo por varias razones
      Este artículo muestra que DeepSeek puede competir con GPT 5.5 y que a veces incluso puede ser mejor. Además, es una señal importante de que no hay un moat defendible
    • Cuando se trata del indicador de “un pelícano andando en bicicleta”, nadie dice que sea un tipo de experimento arbitrario y deficiente
  • Estas pruebas cada vez parecen más una pérdida de tiempo
    A estas alturas, la inteligencia claramente está ahí. Intentar medirla se ve inútil. Cuando compras un martillo en la ferretería no puedes ordenarlos según “la calidad del producto final hecho con este martillo”, pero eso es más o menos lo que se le está pidiendo hoy a la evaluación de modelos
    La siguiente magia vendrá de arneses y entornos específicos del dominio. Usas a propósito un modelo un poco menos potente para exponer debilidades en la forma en que el dominio quedó incorporado al modelo. Si todavía te sobra capacidad, la confiabilidad del proyecto sube muchísimo. Si un cliente se queja de cierto caso límite, solo subes ese escenario a gpt5.5, pero si ya estabas usando 5.5, ya no tienes adónde ir

    • Eso de que “la inteligencia claramente está ahí” no me hace clic
      Me pregunto si estamos usando los mismos modelos que usa el resto. Para mí, los LLM dan buenas respuestas el 80% del tiempo, pero el otro 20% fallan de una forma tan desastrosa que queda claro que no hay inteligencia
    • De acuerdo. Siento que sonnet 4.6 ya alcanza para casi todo. Más allá de ese nivel, parece que importa más la orquestación que el modelo en sí
      Aun así, los modelos siguen sorprendiendo cada día con distintas alucinaciones, carencias epistemológicas, falta de sentido común y fallas para seguir instrucciones
      Hoy intenté hacer que opus 4.8 siguiera un patrón arquitectónico simple para el controlador de una app Rails, y fue como sacarle los dientes a un tiburón
    • Incluso si aceptamos que “claramente está ahí”, el simple hecho de que ya tengamos que preguntar “¿dónde está?” y de que hayamos visto bots claramente no inteligentes implica que necesitamos definir e investigar la ubicación y la causa de la inteligencia
      Solo así podemos tener garantías de que la inteligencia no aparece de forma accidental o solo superficial, sino de manera consistente y estructural. Para usos livianos, herramientas livianas; para usos de misión crítica, herramientas certificadas
    • No entiendo por qué sería una pérdida de tiempo
      Recién estamos entrando en el detalle del benchmarking de LLM, y todavía falta mucho camino. Aun así, que un LLM que corre localmente pueda dar resultados parecidos a los mejores modelos de última generación es algo tremendamente interesante
    • La magia no ocurre en arneses y entornos específicos del dominio. Lo central pasa en entrenamiento y reinforcement learning. Un arnés no puede sobrescribir el comportamiento para el que el modelo fue entrenado
      Si el modelo fue entrenado para escupir sitios web CRUD y lo que quieres es crear un sitio web CRUD, entonces un arnés puede ser útil. Pero eso se acerca más a perder tiempo mezclando mejor lo que ya existe
  • Después de usar Claude, y de que Opencode quedara bloqueado, en el trabajo ahora uso GPT. En lo personal, uso Deepseek en Opencode Go con el plan de $10 al mes y, sinceramente, casi no noto diferencia
    Se siente igual de capaz, y comete el mismo tipo de errores tontos que los otros dos han venido cometiendo desde marzo. Por el precio, estoy más que conforme

    • El 95% del tiempo no hace falta ese 5% extra de rigor que ofrecen los modelos frontier frente a modelos chinos 10 a 100 veces más baratos
      En el otro 5% del tiempo sí ayudan muchísimo en problemas difíciles de razonamiento y te evitan bastante sufrimiento. Ojalá pudiera predecir con precisión cuándo va a hacer falta ese 5% extra
    • Uso ambas suscripciones y sí siento claramente que gpt es mejor y más consistente. Aun así, cuando llego al límite, tampoco es que lo extrañe demasiado
    • No sé qué estaré haciendo mal. En los últimos 7 meses he usado Claude y de vez en cuando probé modelos como deepseek y kimi, pero nada se le acercó. Claude casi siempre lo resuelve al primer intento
  • Probé agregar GPT 5.5 Pro a un benchmark de escaneo de vulnerabilidades hecho por mí (https://swelljoe.com/post/will-it-mythos/), pero se gastó en el camino todo el límite de presupuesto de $100. DeepSeek V4 Pro costó alrededor de 1 dólar para todo el benchmark, y GPT Pro costó en promedio $22 por caso
    GPT 5.5 Pro encontró 2 de 4 casos procesados antes de que se agotara el presupuesto. Con presupuesto ilimitado quizá habría sido el mejor, pero Opus 4.8, DeepSeek V4 Pro y MiMo 2.5 Pro encontraron 4 de 9 bugs. Opus fue un orden de magnitud más barato que GPT 5.5 Pro y también alrededor de 30% más barato que GPT 5.5, mientras que DeepSeek y MiMo fueron dos órdenes de magnitud más baratos, a unos 10 centavos por caso
    GPT Pro “mastica” relativamente por más tiempo y más
    No se me ocurre un caso de uso razonable para usar GPT 5.5 Pro pagando unas 31 veces el costo de Opus, y ya no pienso seguir haciéndole benchmarks
    En una situación donde el costo por tokens se vuelve cada vez más importante, el hecho de que existan modelos dramáticamente más baratos que los grandes proveedores de EE. UU. va a ser un problema para Anthropic y OpenAI. Está bien pagar una prima razonable por el mejor modelo en programación conversacional, pero en uso vía API, como la iteración de modelos, la comparación entre modelos y la evaluación de modelos pueden resolverse con un harness y un framework de validación de respuestas correctas sin requerir mucho tiempo humano, es difícil encontrar una razón para pagar entre 10 y 200 veces más que DeepSeek

    • Esto también puede ser interesante
      “Con $3.88, 690,003,591 tokens y 5 horas, hice ingeniería inversa del sistema de licencias de Teamspeak 3.13.8 usando Deepseek Pro y Flash juntos”
      https://www.reddit.com/r/DeepSeek/comments/1txcfrh/with_388_...
    • Me pregunto si podrían incluir también GPT 5.5 non-pro en la comparación. GPT Pro es la opción de “está bien quemar dinero de vez en cuando por un resultado un poco mejor”, no una opción que se espere que la gente use a diario. Probablemente esa sea una de las razones por las que no entró en Codex
    • Buen artículo. Pero me confunde por qué Sonnet quedó por debajo de Haiku. Creo que decía que, aunque no encontró el bug que estaban buscando, sí encontró muchos otros bugs
      9 bugs parecen una muestra un poco pequeña para hacer un ranking
      Aun así, el ranking en general sale bastante parecido a lo esperado
      Me pregunto si Deepseek sí es Pro y no Flash. Uso mucho Flash para tareas pequeñas y funciona bastante bien. Es bueno para uso “conversacional”, es muy rápido y las tareas pequeñas casi las termina al instante
      También parece útil para investigar codebases grandes. Me pregunto si también serviría para trabajo de seguridad
    • Buen trabajo. Parece que la intuición era correcta. Gran parte del Mythos moment probablemente se puede reproducir con un harness adecuado y un modelo sólido sin demasiados guardrails tontos
      Da gusto ver que a los modelos baratos les vaya bien
    • ¿Dónde ejecutan DeepSeek?
  • Me pregunto si cambiar Claude Code por los precios de la API de DeepSeek daría más por el dinero que el plan Max de $100 que uso ahora.
    Solo pego con el límite de 5 horas una vez cada varios días, y al límite semanal solo llego si lo uso de la forma más agresiva, normalmente uno o dos días antes del reinicio. Más allá de no toparme con límites, no creo que mi uso vaya a aumentar mucho.
    Tampoco lo veo solo desde el costo, porque todavía me incomoda enviar mi trabajo a un laboratorio bajo un gobierno hostil a EE. UU., pero mi pregunta ahora es desde la perspectiva del costo.

    • Depende de qué entiendas por “vale la pena”. Los modelos de pesos abiertos no son mejores que openai/claude. Pero son mucho más baratos y tienen límites mucho más altos, así que puedes hacer más trabajo por menos dinero.
      Todos los proveedores por suscripción ofrecen mejor valor en límites por dinero que Anthropic. La única excepción es GitHub, que en comparación es abrumadoramente caro y limitado, hasta dar vergüenza.
      (https://codeberg.org/mutablecc/calculate-ai-cost/src/branch/...)
      Si lo que quieres decir es que no quieres usar modelos hechos por laboratorios fuera de EE. UU., entonces quedas atado a los modelos estadounidenses, pero en EE. UU. también hay varios laboratorios grandes. Si te preocupa dónde se ejecuta la inferencia, a través de OpenRouter puedes usar proveedores de 12 países, incluido EE. UU., y varios proveedores por suscripción también alojan en múltiples países. Hay muchas opciones.
    • Yo recomendaría probarlo primero. Pon $5 en deepseek.com, mete esta configuración en un script de shell y luego ejecuta . ./deepseek-claude.sh, y usa claude como siempre.
      export ANTHROPIC_BASE_URL=https://api.deepseek.com/anthropic
      export ANTHROPIC_AUTH_TOKEN= *** PUT YOUR DEEPSEEK KEY HERE***
      export ANTHROPIC_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_OPUS_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_SONNET_MODEL=deepseek-v4-pro
      export ANTHROPIC_DEFAULT_HAIKU_MODEL=deepseek-v4-flash
      export CLAUDE_CODE_SUBAGENT_MODEL=deepseek-v4-flash
      export CLAUDE_CODE_EFFORT_LEVEL=max
      Al principio lo usé para tareas grandes de lectura cuando estaba cerca del límite. Siendo sincero, no es tan bueno como Claude, pero es muchísimo más barato y te deja seguir trabajando. A veces también está bueno pedirle tanto a claude como a deepseek que revisen el código y sugieran cómo pulirlo, y luego comparar las dos respuestas.
    • Uso Claude con una suscripción de $100 al mes. Estoy probando una configuración donde Opus es el arquitecto, Sonnet el implementador/ingeniero, y deepseek-pro el revisor profundo y tester, y está saliendo bastante bien, como era de esperar.
      Si se mantiene mi patrón de uso, pienso bajar la suscripción a $20 al mes y meter más dinero en Deepseek.
      Repositorio de referencia: https://github.com/aravindhsampath/agentic-template
    • El rendimiento por dólar es mucho mejor, y el rendimiento por hora es un poco peor.
      Como siempre, cada modelo se atasca en puntos distintos. Para la mayoría de mis experimentos en Cursor, exploración y pruebas de concepto, uso la API de DeepSeek v4, pero para escribir código de producción le tengo menos confianza que a OpenAI/Claude. A veces DeepSeek es muy bueno para depurar o planificar, y otras veces se traba o entrega baja calidad. Con los modelos de OpenAI y Anthropic también pasa.
      En general, DeepSeek sirve, pero parece estar un escalón por debajo de Opus 4.8 y GPT 5.5. Los corro a todos con la configuración máxima de razonamiento.
    • Si te preocupa mandar datos afuera para la inferencia, Fireworks es una de las empresas que ofrece modelos abiertos con buen rendimiento y con compliance y políticas de no retención de datos bastante claras. OpenCode también soporta Fireworks y varios otros proveedores, y Cursor usa Fireworks.
      No tiene los beneficios de lectura en caché ultra barata del endpoint propio de DeepSeek, pero igual sigue siendo muchísimo más barato que la tarifa de la API de Anthropic. Aunque es importante recordar que ahora mismo no estás pagando tarifa de API.
      Los descuentos de lectura en caché de DeepSeek y Xiaomi están relacionados con que los modelos de última generación usan menos espacio de almacenamiento KV, así que cachear sale más barato. Ningún proveedor de inferencia de modelos abiertos ha intentado igualar esos precios, lo cual probablemente dice algo sobre la estructura de precios de inferencia, aunque no sé exactamente qué.
      Coincido en que los mejores modelos abiertos no están al nivel frontier. En planificación de alto nivel, o en situaciones donde les das solo el marco general y esperas muchas suposiciones, ahí se va a notar la diferencia. Pero para programar a partir de un plan concreto, parecen suficientemente buenos. Solo los he usado fuera del trabajo, así que no tengo experiencia con codebases gigantes, pero parecen bastante buenos reuniendo la información necesaria antes de meterse, así que imagino que, si hace falta, se pondrían a buscar con grep.
      Hay una pista molesta: si usas mucho el plan de suscripción personal, sale muchísimo más barato que la API. Si ves https://she-llac.com/claude-limits, la discusión de costos se complica. Aun así, creo que vale la pena jugar con modelos abiertos. Es una de las cosas que permite tratarlos como una sola tecnología, y no como un paquete de productos de unas pocas empresas.
  • Una advertencia con noticias grandes como esta. Declaran que un modelo es mejor que otro usando un conjunto pequeño de pruebas, pero me pregunto si de verdad esos resultados se pueden reproducir de forma consistente.
    Casi no publican nada, así que en la práctica no hay material para que otros verifiquen por su cuenta las pruebas o los criterios.
    El mayor valor de DeepSeek V4 Pro es su precio bajo. No espero que rinda mucho mejor que GPT-5.5; incluso si estuviera más o menos al nivel de gpt-5.4, seguiría siendo un muy buen modelo.

    • Las expectativas no siempre coinciden con la realidad. Lo mejor es usar el modelo tú mismo. Siendo honesto, ni siquiera usé Pro, solo Flash, y hago desarrollo web en PHP.
  • Casi nunca hago algo que requiera un modelo mejor que DSv4 Flash. Mucho menos necesito Pro
    Si puedes explicar el problema y la solución lo bastante bien, Flash simplemente lo resuelve
    Cuando no puedes explicar el problema con suficiente detalle o te da flojera y solo puedes describir el resultado que quieres, siento que un modelo como GPT 5.5 es claramente mejor encontrando por sí solo una solución sólida
    La diferencia de capacidad entre modelos es clara, pero también está claro que incluso los modelos más pequeños de pesos abiertos son lo bastante buenos como para ayudar mucho en la mayoría de las tareas

  • Estoy usando deepseek v4 por su relación costo-rendimiento. En general siento que está por debajo de algunos otros modelos, pero al final, si le das los criterios de aceptación correctos, puedes hacer que cualquier modelo funcione
    Solo hay que darle especificaciones detalladas y pruebas, y darle permiso para iterar hasta que salga bien. One-shot es una mala métrica para medir el rendimiento

    • No creo que todos los modelos converjan a los criterios de aceptación. He probado bastante modelado basado en agentes y modelado científico en esa área, y aunque tengas criterios para validar y una idea de cómo llegar al punto de convergencia, eso no significa que de verdad converja
      Puede quedarse atrapado iterando dentro del espacio de información sin encontrar la solución que buscas
      Sí ayuda, pero en los casos de fallo muchas veces hace falta que una persona intervenga para guiarlo o corregir a la fuerza cierta ruta para llegar a la solución
  • DeepSeek V4 Pro usado con reasonix es sorprendentemente barato y suficientemente bueno para la mayoría de las tareas de programación. También es bastante distinto de GPT 5.5 y Opus 4.8, así que a veces encuentra problemas que los otros dos no detectan
    Creo que vale la pena tenerlo en la caja de herramientas

  • DeepSeek V4 Pro es excelente y ridículamente barato, pero se está subestimando MiMo V2.5 Pro. Cuesta lo mismo, su precio de caché es más bajo, es multimodal y aparece mejor posicionado en la mayoría de los benchmarks
    Lo mismo aplica al comparar MiMo V2.5 con DeepSeek V4 Flash

    • Según https://news.ycombinator.com/item?id=48343690 al momento de escribir el post, el precio con acierto de caché de MiMo V2.5 Pro era más bajo. El texto original dice esto
      Los modelos OSS varían mucho según el proveedor que uses, y la razón principal es la tasa de aciertos de caché
      Model Cheapest effectiveInputPrice (Provider)
      MiMo-V2.5-Pro 0.3720 (Xiaomi)
      DeepSeek V4 Pro (Max) 0.0560 (DeepSeek)