Comparación de capacidad de programación entre Gemini 2.5 Pro y Claude 3.7 Sonnet

(composio.dev)

9 puntos por GN⁺ 2025-04-01 | 1 comentarios | Compartir por WhatsApp

Gemini 2.5 Pro destaca más en la escritura de código
Claude 3.7 Sonnet también es excelente, pero por ahora conviene más usar Gemini 2.5 Pro
La gran ventaja es su ventana de contexto de 1 millón de tokens y que se puede usar gratis
Antes, Claude 3.7 Sonnet siempre era el punto de referencia para comparar, pero eso ya cambió

Breve introducción a Gemini 2.5 Pro

Modelo experimental de razonamiento lanzado por Google el 26 de marzo de 2025
Tras su lanzamiento, generó un enorme impacto en Twitter(X), YouTube y otros espacios
Logró el primer lugar en LMArena y mostró un rendimiento sobresaliente en escritura de código, matemáticas, ciencia, comprensión de imágenes y más
Ofrece una ventana de contexto de 1 millón de tokens, y ya se anticipa una de 2 millones de tokens para el futuro
En SWE Bench registró una precisión de 63.8%, superior al 62.3% de Claude 3.7 Sonnet
Demostró su gran rendimiento con varios ejemplos, incluido el demo del juego del dinosaurio presentado por Google
En general, se le evalúa como un modelo todoterreno apto no solo para programación, sino para todo tipo de tareas intelectuales

Comparación de pruebas de programación

1. Crear un simulador de vuelo

Gemini 2.5 Pro
- Generó un simulador que funciona perfectamente
- Cumplió todos los requisitos, incluido el control del avión y la generación de una ciudad estilo Minecraft
- Nivel de acabado: 10/10
Claude 3.7 Sonnet
- Presentó problemas como que el avión volaba de lado y se salía de la ciudad
- Su nivel de completitud funcional fue menor
Resumen: victoria total de Gemini 2.5 Pro

2. Visualización y resolución de un cubo de Rubik

Gemini 2.5 Pro
- Implementó correctamente la visualización y la resolución en un solo intento
- Uso de Three.js, colores del cubo, mezcla aleatoria, animaciones y más, todo implementado de forma impecable
Claude 3.7 Sonnet
- Falló en mostrar los colores y en resolverlo
- Mostró limitaciones similares a las de otros LLM
Resumen: Gemini 2.5 Pro también domina ampliamente este apartado

3. Visualización de una pelota rebotando dentro de un teseracto en 4 dimensiones

Gemini 2.5 Pro
- Cumplió todos los requisitos, incluidas colisiones físicas y resaltado de caras
- Muy buena calidad de código y funcionamiento
Claude 3.7 Sonnet
- La funcionalidad sí trabaja, pero añadió colores innecesarios
- Aun así, cumplió con las funciones solicitadas
Resumen: ambos modelos cumplieron los requisitos; Claude por fin también lo logró

4. Problema de LeetCode: obtener la suma máxima colocando 3 torres

Gemini 2.5 Pro
- Escribió una solución compleja pero correcta
- También consideró adecuadamente la complejidad temporal
Claude 3.7 Sonnet
- Escribió código conciso, pero cayó en tiempo excedido (TLE)
- Es fácil de entender, pero se queda corto en rendimiento
Resumen: Gemini 2.5 Pro va por delante tanto en rendimiento como en precisión

Conclusión

Gemini 2.5 Pro tiene una ventaja clara
- Supera a Claude 3.7 Sonnet en ventana de contexto, precisión y rendimiento multitarea
Claude sigue siendo un modelo excelente, pero por ahora usar Gemini resulta más eficiente
Si en el futuro se amplía hasta una ventana de 2 millones de tokens, su desempeño mejorará aún más
Junto con el reciente modelo ligero Gemma 3 27B de Google, forma una sólida línea de productos de IA

1 comentarios

GN⁺ 2025-04-01

Opiniones de Hacker News

Me gustaría organizar una competencia con premio en efectivo sobre un problema real de programación. Habría que definir las reglas. Dudo que un LLM pueda resolver este problema.
- Se trata de crear una versión GTK 4 de Solvespace
- Existe un solo archivo C++ para cada plataforma
- El objetivo es reescribir el archivo de GTK3 a GTK4
- Si quieres demostrar el rendimiento de la IA, recomiendo documentar toda la sesión y convertirla en un video de YouTube
- La prueba final es si aceptarían el PR o no
Gemini es el único modelo que avisa cuándo la conversación está por interrumpirse
- ChatGPT tiende a olvidar la conversación cuando se llena el contexto
- A Gemini le faltan herramientas, pero en general se siente como un mejor modelo
He usado Gemini 2.5 Pro y me parece bastante bueno
- Claude 3.5 parece ser mejor siguiendo instrucciones
- Me decepcionaron las herramientas de Cursor y Claude CLI
- Me gusta cómo Gemini muestra la ventana de contexto
- Creo que el mercado no puede sostener las valuaciones de las grandes empresas de IA
- A veces los modelos gratuitos son mejores
En la competencia entre modelos de IA, el perdedor parece ser Microsoft
- Cuando ChatGPT era la única opción, Microsoft era vista como líder
- Copilot es un fracaso, y Bing no logró aprovechar la IA
- Se menciona que Sundar Pichai de Google quiere compararse con el modelo de Microsoft
Gemini 2.5 Pro obtuvo una puntuación alta en el leaderboard de programación políglota de aider
- Se usa principalmente en el trabajo de la versión más reciente de aider
- Actualmente, el mayor problema de Gemini es su estricto límite de velocidad
En el ejemplo del cubo de Rubik, Gemini 2.5 usa una secuencia de mezcla memorizada
- Resuelve el cubo invirtiendo la secuencia de mezcla
Cuando usaba Visual Basic en los 90, me parecía interesante crear nuevos proyectos desde una plantilla
- Programar con IA se siente parecido a eso, pero más exagerado
- Hay un comentario sobre que Claude estaba confundido porque el avión estaba de lado
Gemini 2.5 no rinde bien con código Cython complejo
- Claude y o3 siguen bien las instrucciones
- Gemini intenta hacer cambios que no tienen relación
Hay una pregunta sobre si hace falta una discusión imparcial
- El enlace del OP parece una publicidad sesgada de Composio
- Hay descripciones exageradas sobre Gemini 2.5 Pro
Todas las tareas de prueba son proyectos greenfield
- Para usar LLM, hay que hacer cambios o modificaciones en proyectos existentes
- Creo que esas pruebas no tienen sentido para medir la utilidad del modelo

Comparación de capacidad de programación entre Gemini 2.5 Pro y Claude 3.7 Sonnet

Breve introducción a Gemini 2.5 Pro

Comparación de pruebas de programación

1. Crear un simulador de vuelo

2. Visualización y resolución de un cubo de Rubik

3. Visualización de una pelota rebotando dentro de un teseracto en 4 dimensiones

4. Problema de LeetCode: obtener la suma máxima colocando 3 torres

Conclusión

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News