- Ya está disponible una versión preliminar del más reciente Gemini 2.5 Pro antes de su lanzamiento oficial
- En evaluaciones clave como LMArena y WebDevArena, muestra una subida de 24 a 35 puntos Elo frente al modelo anterior
- Registra rendimiento de primer nivel en benchmarks clave como codificación, ciencia, matemáticas, comprensión multimodal y manejo de contexto largo
- Con precio de entrada de $1.25 y precio de salida de $10 (por millón de tokens), ofrece una estructura de costos más barata que la de sus competidores
Comparación por benchmarks principales
- Reasoning & Knowledge (Humanity's Last Exam): 21.6%, en un nivel similar al de OpenAI/Anthropic y superior a DeepSeek R1 (14%)
- Science (GPQA diamond): 86.4%, el mejor rendimiento de la industria (con un solo intento)
- Mathematics (AIME 2025): 88.0%, en un nivel similar a OpenAI o3 y DeepSeek R1, y por encima de Anthropic Claude 4/3
- Code Generation/Editing: LiveCodeBench 69.0% y Aider Polyglot 82.2%, con alta precisión tanto en generación como en edición de código
- Agentic Coding (SWE-bench Verified): 59.6% (un solo intento) y 67.2% (múltiples intentos), ligeramente por debajo de Anthropic Claude 4 pero similar a OpenAI/DeepSeek
- Factuality: SimpleQA 54.0% y FACTS Grounding 87.8%, con fortaleza en generación basada en datos reales
- Visual/Video/Image Understanding: MMMU 82.0%, Vibe-Eval (imagen) 67.2% y VideoMMMU (video) 83.6%, con buen desempeño en texto, imagen y video
- Long Context (MRCR v2, 128K): 58.0%, el mejor rendimiento frente a modelos competidores principales como OpenAI, Anthropic y xAI
Precios e idiomas compatibles
- Precio de entrada: $1.25 / millón de tokens ($2.50 para más de 200K)
- Precio de salida: $10 / millón de tokens ($15 para más de 200K)
- Idiomas compatibles: más de 70 idiomas globales (multipolíglota 89.2%)
Casos de uso y características adicionales
- Disponible de inmediato en vista previa en Google AI Studio y Vertex AI
- Se agregan funciones de control de costos y latencia para desarrolladores, como Thinking Budget
- Refuerza funciones aptas para uso real en el trabajo, como codificación, conocimiento, multimodalidad y procesamiento de textos largos
Conclusión
- Gemini 2.5 Pro sobresale frente a la competencia en varios aspectos como precio, rendimiento, versatilidad, multimodalidad y contexto largo
- Al adoptar IA para empresas y desarrolladores, puede considerarse junto con comparaciones claras basadas en benchmarks clave y eficiencia de costos
1 comentarios
Opiniones en Hacker News
Impresiona ver que Google sumó unos 25 puntos ELO más en lmarena, y eso además hace notar que el #1 anterior también era Gemini. Después de usar bastante tanto Gemini como Claude Opus 4 durante las últimas semanas, en mi opinión Opus se siente en otra liga. Trabajando con problemas complejos de TypeScript, fue la primera vez que vi a Gemini quedarse dando vueltas sobre lo mismo o incluso rendirse y decir que no podía hacerlo, mientras que Opus lo resolvía con facilidad. Puede que este caso no represente todo el rendimiento general, pero la diferencia se siente en que Gemini parece forzar el código para que medio funcione, mientras que Opus capta la esencia del problema y se acerca de forma más limpia. También me dio la impresión de que Opus tiene más imaginación o está mejor optimizado para tareas agentic. Me impresionó especialmente que Opus, de forma espontánea, armara soluciones inesperadas como crear scripts de playwright para volcar el DOM, analizarlo y revisar problemas de interacción. Gemini, en cambio, intenta cazar bugs leyendo el código con mucha insistencia, pero siento que ese enfoque tiene límites. Aun así, Gemini también es un gran modelo, y antes de la versión 4.0 lo consideraba el mejor.
Personalmente incluso prefiero o3 antes que Opus 4, y después de gastar cientos de dólares en herramientas de generación de código con IA durante el último mes armé mi propio ranking. El primer lugar es para o3: sobresale muchísimo en los detalles finos, en entender la raíz del problema y en escribir código de alta calidad realmente usable en producción. Sus desventajas son la ventana de cutoff, el costo y que le gusta demasiado usar herramientas. En proyectos Rails casi no da problemas, pero a veces sí impacta. En segundo lugar pongo a Opus 4 (usándolo mediante Claude Code), porque rinde bien y además es más barato que o3, así que lo uso como conductor diario. Hago que Opus 4 planifique y prepare el primer borrador, y luego o3 lo critique a fondo y me devuelva una lista de feedback para llevar el resultado a un nivel muy pulido. En tercer lugar está Gemini 2.5 Pro; no probé este lanzamiento más reciente, pero antes estaba en el puesto 2. Ahora lo pondría al nivel de Sonnet 4 o apenas por encima, según el caso. En cuarto lugar Sonnet 4: produce mucho código, pero si no lo diriges y supervisas directamente no saca código realmente bueno, conciso y profundo. Como soy muy obsesivo con la calidad y la organización del código (nombres, reutilización, etc.), según las estadísticas de Cursor del último mes solo acepté el 33% del código sugerido automáticamente. Cuando no va por la ruta óptima, sigo corrigiendo la solicitud equivocada y refinando el prompt para buscar un mejor resultado.
Lo mejor de Gemini, comparado con otros modelos, es su capacidad de búsqueda. En el trabajo le pedí que redactara un correo para un sitio que enviaba spam desde un dominio de la empresa, y me encontró todo: el email de abuse del hosting, la información del dominio, el servidor MX, la IP, el datacenter, etc. También le pedí convertir un paper en podcast y lo hizo al instante, y además fue bastante entretenido de escuchar.
Esta semana les di la misma tarea a Claude 4 y Gemini 2.5, y Gemini dio la respuesta correcta mientras Claude no logró resolverla bien. Incluso fuera de tareas difíciles como comparar queries SQL, muchas veces Gemini termina encontrando el problema real.
En la práctica muchas veces se siente distinto según el caso. Hubo problemas que Gemini resolvió rapidísimo, pero justo después se atoró con bugs muy simples, lo cual fue bastante desconcertante. Me pasó lo mismo con o3 y sonnet, y todavía no he usado lo suficiente 4.0 como para evaluarlo. Siento que hace falta soporte para evaluar varios modelos en paralelo y elegir la mejor solución.
Me preguntaron si también lo había probado con o3. En mi caso de uso, o3 me impresionó mucho más que Opus 4.
Cada vez me preocupa más la valuación de mercado de OpenAI. Hay muchos competidores fuertes y resulta convincente la idea de que ya no es el líder indiscutible. Me da curiosidad cómo va a conseguir levantar más inversión con una valuación de 300 mil millones de dólares. Cuando los ingresos son bajos y los costos como hardware y electricidad no dejan de subir, es difícil estimar su valor real. Cuando la próxima generación de LLM necesite datos nuevos, Facebook y Google probablemente tengan ventaja en esa estructura. OpenAI, que no tiene por sí misma muchos negocios basados en datos, parece estar en desventaja en la competencia por datos exclusivos. Cuando lideraba tanto en investigación como en apps para usuarios, esa valuación alta tenía sentido, pero ahora la base de confianza es débil. No está claro qué beneficio obtendrían los nuevos inversionistas con OpenAI. Una valuación de 300 mil millones normalmente requeriría 150 mil millones en ingresos si se hablara de un múltiplo de 2x ventas, y aun con un P/E extremo de 100x habría que asumir 3 mil millones de ganancia anual y un escenario de duplicar crecimiento por 10 años seguidos, como Amazon en los 2000. Encima, con los problemas de estructura entre entidad sin fines de lucro y con fines de lucro, quizá ni siquiera salir a bolsa sea tan sencillo. Felicitaciones a Google por sus resultados; parece muy probable que termine siendo el mayor ganador de la competencia en IA.
Hay una gran confusión sobre la posición de OpenAI en el mercado. "chatgpt" ya se convirtió en un verbo de uso cotidiano, y Claude o Gemini son completamente desconocidos para la gente común. Salvo que pase algo realmente disruptivo, no hay motivo para que el público masivo cambie a otro producto. La comodidad del historial de conversaciones, la memoria y la estructura de exportación de ChatGPT por sí sola ya crea suficiente fricción para migrar. Frente a 500 millones de usuarios activos, lo único que OpenAI tiene que hacer es mantener la calidad. Si el paradigma actual se mantiene, incluso sin ir a la cabeza puede igualar la tecnología de otras empresas. La gente común no cambia de producto por mejoras pequeñas.
Señalan que hay un error en el cálculo de la valuación. No sería el doble de 300 mil millones en ingresos, sino 150 mil millones de ingresos. Pero el argumento de fondo sigue siendo válido.
Donde OpenAI claramente sigue siendo superior hoy es en generación de imágenes. Se nota la diferencia en ilustración, cómics, edición de fotos e ideación de proyectos para el hogar.
Aunque Google esté ganando la carrera de IA, su negocio de búsqueda igual seguirá siendo canibalizado, y no está claro si podrá extraer beneficios económicos de dominar el mercado gracias a la IA. Está obligado a competir, pero probablemente habría sido mejor seguir en la época del monopolio centrado en anuncios.
Como o3 pro y GPT 5 están por salir, todavía es pronto para afirmar que OpenAI ya no lidera. Si esos dos modelos no muestran avances notorios, recién ahí podría hablarse de una pérdida de liderazgo. Por ahora da la impresión de que al menos sigue hombro a hombro con Google y otros.
Ya es confuso que saquen tres versiones preview del mismo modelo, pero mezclar además las dos últimas fechas (05-06 y 06-05) lo vuelve todavía más caótico. Da pena pensar que si lo hubieran retrasado un solo día habría quedado mucho más claro.
En realidad, por lo ambiguo de la fecha, tendrían que haberlo movido hasta el día 13 para que no generara confusión. En Canadá se mezclan formatos de fecha británicos y estadounidenses, así que realmente confunde mucho. Últimamente el formato y-m-d ya está permitido oficialmente y cada vez se usa más.
El simple hecho de que 05-06 y 06-05 confundan da la sensación de ser una burla directa a los modelos 4o y o4 de OpenAI.
Me da curiosidad cuándo pasarán de Gemini 2.5 pro a 2.6 pro. Supongo que en Gemini 3 probablemente aumenten el tamaño.
Broma típica: los desarrolladores son realmente malos para poner nombres.
Hay dos problemas que solo siento con Gemini.
Doy un caso concreto donde Gemini se equivoca. Aunque el código especifica claramente
processing_class=tokenizer, por más veces que lo corrija Gemini insiste en cambiarlo atokenizer=tokenizer. Incluso si le pongo un comentario enorme diciendo DO NOT CHANGE, lo sigue modificando mal. Todavía no probé la versión más reciente (06-05), pero en la anterior 05-06 repetía el mismo error.En la práctica, o1-pro está junto con Gemini en lo más alto de mi ranking. Pero Gemini mete demasiados comentarios innecesarios y cambios de código no relacionados, así que es difícil usarlo en trabajo real. Sirve para explorar ideas, pero para la solución final termino usando o1-pro.
Gemini además agrega un montón de comentarios no ejecutables realmente absurdos. "# Added this function", "# Changed this to fix the issue", etc. Ese tipo de cosas van más para el mensaje del commit o el PR, así que molesta que las meta dentro del código.
A ChatGPT también le pasa mucho ignorar por completo ciertas instrucciones. Por ejemplo, aunque le remarques muchísimo que no use em dash ni en dash, termina metiéndolos todavía más. Incluso después de varios intentos, nunca logré controlarlo bien.
Estoy pagando tanto ChatGPT Plus como Gemini Pro. Estoy pensando en cancelar ChatGPT porque sigo pegando contra el rate limit. En Gemini/AI Studio todavía no me pasó ni una sola vez.
AI Studio en realidad usa la cuenta de API desde el backend, y se crea automáticamente un proyecto de Google Cloud en free tier. Abajo de la página "get an api key" puedes vincular una cuenta de facturación. Según los términos de servicio de Google, la API de free tier podría no contar como uso comercial, así que los prompts podrían ser revisados por humanos y usarse como datos de entrenamiento.
Como AI Studio usa API, en la práctica es extremadamente raro que un usuario común llegue al límite de un modelo preview de pago.
Gemini me gustaba mucho más que ChatGPT, pero hace poco el plan Pro recibió un límite de 100 mensajes por día. AI Studio parece no tener todavía ese límite.
Me pregunto si hay alguna razón para no usar la API a través de un intermediario como openrouter.
Sentía que los modelos anteriores de Gemini estaban por debajo de Claude 3.7 Sonnet para asistencia de programación (y 4 es todavía peor). No pienso probar la nueva versión hasta que vea evaluaciones directas. La cantidad de elogios que recibe Gemini en internet es tan distinta de mi experiencia personal que hasta sospecho si no hay marketing descarado o un boom algo artificial mezclado ahí.
La postura es que, con cualquier modelo, la evaluación cambia según lo que realmente hagas con él. Claude 3.5/3.7 Sonnet, en C/C++/Make/CMake, fue directamente inútil. Tuve malas experiencias con información incorrecta, código imposible, sintaxis/API inventadas y contradicciones lógicas. Gemini 2.5-pro y o3 fueron abrumadoramente mejores, al punto de que todo el equipo decía que rendían más. En cambio, Claude quizá sí sea fuerte en TypeScript o Ruby, pero al menos en mi trabajo Gemini estuvo muy por encima de lo que podría explicarse por pura publicidad exagerada.
No he probado Claude, pero Gemini siempre me dio mejores respuestas que ChatGPT o Copilot en preguntas cotidianas. Sobre todo cuando lo uso como buscador (formas de hacer algo en línea de comandos, información de productos, etc.), Gemini claramente tiene ventaja.
En Aider voy alternando entre Sonnet y Gemini. Curiosamente, hay problemas que solo uno de los dos modelos puede resolver, y no hay un patrón predecible de antemano.
Opino que Claude 3.7 Sonnet es mejor asistente de coding que Gemini, pero para data science o ETL complejos en Python, Claude me decepcionó y o3 fue muchísimo mejor.
En Roo Code Claude usa mejor las herramientas, pero el estilo de código más conciso de Gemini se parece más a mi gusto. Mezclo ambos, o si uno falla uso el otro para sacar el problema adelante.
En vez de seguir lanzando versiones preview solo con una fecha distinta, estaría bien que simplemente subieran el número de parche.
Según Aider marcó 82.2. En la práctica sigue quedando por debajo del score oficial de o3 high. Enlace al leaderboard de Aider.
Preguntan si ese 82.2 equivale al Percent correct de otros modelos. El o3 "puro" (high) da 79.6%, y la combinación "o3 (high) + gpt-4.1" llega al máximo de 82.7%. El viejo Gemini 2.5 Pro Preview 05-06 estaba alrededor de 76.9%. Se considera un salto bastante grande. Hoy por hoy, los benchmarks de Aider son los que más confianza generan.
También sorprende mucho que sea bastante más barato y rápido.
Aclaran que el puntaje mencionado corresponde al preview viejo 05-06, no a la nueva versión publicada hoy.
Vi un tuit que dice que 06-05 llena el hueco entre 03-25 y 05-06. Tuit relacionado
Me interesa comparar el código con Claude 4 Sonnet. Según esta tabla del blog, marca que está claramente por debajo de Claude 4 Sonnet.