- Gemini 2.5 Pro destaca más en la escritura de código
- Claude 3.7 Sonnet también es excelente, pero por ahora conviene más usar Gemini 2.5 Pro
- La gran ventaja es su ventana de contexto de 1 millón de tokens y que se puede usar gratis
- Antes, Claude 3.7 Sonnet siempre era el punto de referencia para comparar, pero eso ya cambió
Breve introducción a Gemini 2.5 Pro
- Modelo experimental de razonamiento lanzado por Google el 26 de marzo de 2025
- Tras su lanzamiento, generó un enorme impacto en Twitter(X), YouTube y otros espacios
- Logró el primer lugar en LMArena y mostró un rendimiento sobresaliente en escritura de código, matemáticas, ciencia, comprensión de imágenes y más
- Ofrece una ventana de contexto de 1 millón de tokens, y ya se anticipa una de 2 millones de tokens para el futuro
- En SWE Bench registró una precisión de 63.8%, superior al 62.3% de Claude 3.7 Sonnet
- Demostró su gran rendimiento con varios ejemplos, incluido el demo del juego del dinosaurio presentado por Google
- En general, se le evalúa como un modelo todoterreno apto no solo para programación, sino para todo tipo de tareas intelectuales
Comparación de pruebas de programación
1. Crear un simulador de vuelo
- Gemini 2.5 Pro
- Generó un simulador que funciona perfectamente
- Cumplió todos los requisitos, incluido el control del avión y la generación de una ciudad estilo Minecraft
- Nivel de acabado: 10/10
- Claude 3.7 Sonnet
- Presentó problemas como que el avión volaba de lado y se salía de la ciudad
- Su nivel de completitud funcional fue menor
- Resumen: victoria total de Gemini 2.5 Pro
2. Visualización y resolución de un cubo de Rubik
- Gemini 2.5 Pro
- Implementó correctamente la visualización y la resolución en un solo intento
- Uso de Three.js, colores del cubo, mezcla aleatoria, animaciones y más, todo implementado de forma impecable
- Claude 3.7 Sonnet
- Falló en mostrar los colores y en resolverlo
- Mostró limitaciones similares a las de otros LLM
- Resumen: Gemini 2.5 Pro también domina ampliamente este apartado
3. Visualización de una pelota rebotando dentro de un teseracto en 4 dimensiones
- Gemini 2.5 Pro
- Cumplió todos los requisitos, incluidas colisiones físicas y resaltado de caras
- Muy buena calidad de código y funcionamiento
- Claude 3.7 Sonnet
- La funcionalidad sí trabaja, pero añadió colores innecesarios
- Aun así, cumplió con las funciones solicitadas
- Resumen: ambos modelos cumplieron los requisitos; Claude por fin también lo logró
4. Problema de LeetCode: obtener la suma máxima colocando 3 torres
- Gemini 2.5 Pro
- Escribió una solución compleja pero correcta
- También consideró adecuadamente la complejidad temporal
- Claude 3.7 Sonnet
- Escribió código conciso, pero cayó en tiempo excedido (TLE)
- Es fácil de entender, pero se queda corto en rendimiento
- Resumen: Gemini 2.5 Pro va por delante tanto en rendimiento como en precisión
Conclusión
- Gemini 2.5 Pro tiene una ventaja clara
- Supera a Claude 3.7 Sonnet en ventana de contexto, precisión y rendimiento multitarea
- Claude sigue siendo un modelo excelente, pero por ahora usar Gemini resulta más eficiente
- Si en el futuro se amplía hasta una ventana de 2 millones de tokens, su desempeño mejorará aún más
- Junto con el reciente modelo ligero Gemma 3 27B de Google, forma una sólida línea de productos de IA
1 comentarios
Opiniones de Hacker News
Me gustaría organizar una competencia con premio en efectivo sobre un problema real de programación. Habría que definir las reglas. Dudo que un LLM pueda resolver este problema.
Gemini es el único modelo que avisa cuándo la conversación está por interrumpirse
He usado Gemini 2.5 Pro y me parece bastante bueno
En la competencia entre modelos de IA, el perdedor parece ser Microsoft
Gemini 2.5 Pro obtuvo una puntuación alta en el leaderboard de programación políglota de aider
En el ejemplo del cubo de Rubik, Gemini 2.5 usa una secuencia de mezcla memorizada
Cuando usaba Visual Basic en los 90, me parecía interesante crear nuevos proyectos desde una plantilla
Gemini 2.5 no rinde bien con código Cython complejo
Hay una pregunta sobre si hace falta una discusión imparcial
Todas las tareas de prueba son proyectos greenfield