- Gemini 2.5 es el modelo de IA basado en razonamiento más inteligente, diseñado para resolver problemas complejos
- La primera versión, Gemini 2.5 Pro Experimental, logró el mejor rendimiento en diversos benchmarks de IA
- En particular, obtuvo el primer lugar con una amplia ventaja en el ranking de LMArena
- A diferencia de los modelos anteriores, está diseñado con una estructura que realiza su propio proceso de pensamiento antes de responder, lo que mejora la precisión y el rendimiento
¿Qué significa la capacidad de 'pensar' en la IA?
- Va más allá de la simple clasificación o predicción, e incluye capacidades cognitivas de alto nivel como análisis de información, obtención de conclusiones lógicas, comprensión del contexto y toma de decisiones
- Para esto, DeepMind ha investigado la capacidad de razonamiento de la IA utilizando aprendizaje por refuerzo y técnicas de prompting como Chain-of-Thought
- Muestra un rendimiento un nivel superior al del modelo anterior Gemini 2.0 Flash Thinking
Próxima dirección
- Con Gemini 2.5, se combinan modelos base mejorados y técnicas de posprocesamiento para alcanzar un nuevo nivel de rendimiento
- En el futuro, esta capacidad de pensamiento se incorporará por defecto en todos los modelos Gemini, para permitir resolver problemas más complejos y dar soporte a agentes más avanzados
Presentación de Gemini 2.5 Pro
- Gemini 2.5 Pro Experimental muestra un rendimiento sobresaliente para realizar las tareas más complejas entre los modelos desarrollados hasta ahora
- Ocupó el primer lugar con una amplia ventaja en LMArena, que evalúa según preferencias humanas
- También muestra un rendimiento destacado en benchmarks de programación, matemáticas y ciencia
- Actualmente está disponible en Google AI Studio y en la app de Gemini, y próximamente también estará disponible en Vertex AI
- Más adelante se introducirá un plan de precios para ofrecer un servicio escalable con límites de uso más altos
Mejor rendimiento de razonamiento
- Registró resultados de benchmark de primer nivel en la resolución de problemas lógicos complejos
- Mantiene un rendimiento sobresaliente incluso sin técnicas de prueba adicionales que implican costos extra (por ejemplo, votación por mayoría)
- Muestra un rendimiento líder en problemas de matemáticas y ciencia como GPQA y AIME 2025
- En la exigente prueba de razonamiento 'Humanity’s Last Exam', diseñada por cientos de expertos, logró una puntuación récord en la industria de 18.8% sin usar herramientas
Rendimiento avanzado en programación
- El rendimiento en programación mejoró significativamente frente a Gemini 2.0
- Tiene una capacidad destacada para crear web apps, escribir código de tipo agente y transformar y corregir código
- Alcanzó 63.8% en la evaluación SWE-Bench Verified al usar un agente personalizado
- Incluso hay un ejemplo en el que genera un videojuego ejecutable con una sola línea de prompt
Hereda las fortalezas de los modelos Gemini
- Gemini 2.5 mantiene intactas las fortalezas de los modelos Gemini anteriores: procesamiento multimodal y ventana de contexto extensa
- Soporta una ventana de contexto de 1 millón de tokens (próximamente se ampliará a 2 millones)
- Puede procesar de forma integral diversas fuentes de información como texto, audio, imágenes, video y repositorios completos de código
- Desarrolladores y usuarios empresariales pueden experimentar y probarlo a través de Google AI Studio, Gemini Advanced y Vertex AI
3 comentarios
Supera por mucho a claud y gpt4.5, pero no logra ganarle a cuando intentas varias veces con grok3.
grok3 es impresionante.
Parece que con la llegada de Gemini 2.5 Pro a Google AI Studio, desaparecieron todos los Gemini 2.0 Pro que estaban antes... Los estaba usando bastante bien gratis, así que es una lástima. Gemini 2.5 Pro tiene una restricción bastante grande: límite de 2 veces por minuto y solo se puede invocar hasta 50 veces al día.
Opiniones de Hacker News
Uno de los mayores problemas al usar LLM para escribir textos largos como novelas es que, si les das detalles, el modelo tiende a reaccionar de forma excesivamente ansiosa
He estado usando acertijos matemáticos para evaluar distintos modelos
Tuvo un muy buen desempeño en transcripción de audio y en tareas de dibujar cuadros delimitadores alrededor de seres vivos en fotos complejas
Logró el mejor rendimiento en benchmarks de una forma sin precedentes
Gemini 2.5 Pro logró SOTA con una puntuación de 73% en el leaderboard polyglot de aider
Estos anuncios ya empiezan a parecer una plantilla
Gemini 2.5 alcanzó un nuevo nivel de desempeño al combinar un modelo base muy mejorado con un posprocesamiento optimizado
Usé un caso de prueba en el que le di al LLM toda la base de código de una biblioteca de Dart junto con la descripción de un bug para identificar la causa
Si planeas usar Gemini, hay algunas advertencias que tener en cuenta
El modelo 2.0 todavía no tiene mucho tiempo, así que me pregunto por qué el nombre lleva un +0.5