9 puntos por GN⁺ 2025-04-01 | 1 comentarios | Compartir por WhatsApp
  • Gemini 2.5 Pro destaca más en la escritura de código
  • Claude 3.7 Sonnet también es excelente, pero por ahora conviene más usar Gemini 2.5 Pro
  • La gran ventaja es su ventana de contexto de 1 millón de tokens y que se puede usar gratis
  • Antes, Claude 3.7 Sonnet siempre era el punto de referencia para comparar, pero eso ya cambió

Breve introducción a Gemini 2.5 Pro

  • Modelo experimental de razonamiento lanzado por Google el 26 de marzo de 2025
  • Tras su lanzamiento, generó un enorme impacto en Twitter(X), YouTube y otros espacios
  • Logró el primer lugar en LMArena y mostró un rendimiento sobresaliente en escritura de código, matemáticas, ciencia, comprensión de imágenes y más
  • Ofrece una ventana de contexto de 1 millón de tokens, y ya se anticipa una de 2 millones de tokens para el futuro
  • En SWE Bench registró una precisión de 63.8%, superior al 62.3% de Claude 3.7 Sonnet
  • Demostró su gran rendimiento con varios ejemplos, incluido el demo del juego del dinosaurio presentado por Google
  • En general, se le evalúa como un modelo todoterreno apto no solo para programación, sino para todo tipo de tareas intelectuales

Comparación de pruebas de programación

1. Crear un simulador de vuelo

  • Gemini 2.5 Pro
    • Generó un simulador que funciona perfectamente
    • Cumplió todos los requisitos, incluido el control del avión y la generación de una ciudad estilo Minecraft
    • Nivel de acabado: 10/10
  • Claude 3.7 Sonnet
    • Presentó problemas como que el avión volaba de lado y se salía de la ciudad
    • Su nivel de completitud funcional fue menor
  • Resumen: victoria total de Gemini 2.5 Pro

2. Visualización y resolución de un cubo de Rubik

  • Gemini 2.5 Pro
    • Implementó correctamente la visualización y la resolución en un solo intento
    • Uso de Three.js, colores del cubo, mezcla aleatoria, animaciones y más, todo implementado de forma impecable
  • Claude 3.7 Sonnet
    • Falló en mostrar los colores y en resolverlo
    • Mostró limitaciones similares a las de otros LLM
  • Resumen: Gemini 2.5 Pro también domina ampliamente este apartado

3. Visualización de una pelota rebotando dentro de un teseracto en 4 dimensiones

  • Gemini 2.5 Pro
    • Cumplió todos los requisitos, incluidas colisiones físicas y resaltado de caras
    • Muy buena calidad de código y funcionamiento
  • Claude 3.7 Sonnet
    • La funcionalidad sí trabaja, pero añadió colores innecesarios
    • Aun así, cumplió con las funciones solicitadas
  • Resumen: ambos modelos cumplieron los requisitos; Claude por fin también lo logró

4. Problema de LeetCode: obtener la suma máxima colocando 3 torres

  • Gemini 2.5 Pro
    • Escribió una solución compleja pero correcta
    • También consideró adecuadamente la complejidad temporal
  • Claude 3.7 Sonnet
    • Escribió código conciso, pero cayó en tiempo excedido (TLE)
    • Es fácil de entender, pero se queda corto en rendimiento
  • Resumen: Gemini 2.5 Pro va por delante tanto en rendimiento como en precisión

Conclusión

  • Gemini 2.5 Pro tiene una ventaja clara
    • Supera a Claude 3.7 Sonnet en ventana de contexto, precisión y rendimiento multitarea
  • Claude sigue siendo un modelo excelente, pero por ahora usar Gemini resulta más eficiente
  • Si en el futuro se amplía hasta una ventana de 2 millones de tokens, su desempeño mejorará aún más
  • Junto con el reciente modelo ligero Gemma 3 27B de Google, forma una sólida línea de productos de IA

1 comentarios

 
GN⁺ 2025-04-01
Opiniones de Hacker News
  • Me gustaría organizar una competencia con premio en efectivo sobre un problema real de programación. Habría que definir las reglas. Dudo que un LLM pueda resolver este problema.

    • Se trata de crear una versión GTK 4 de Solvespace
    • Existe un solo archivo C++ para cada plataforma
    • El objetivo es reescribir el archivo de GTK3 a GTK4
    • Si quieres demostrar el rendimiento de la IA, recomiendo documentar toda la sesión y convertirla en un video de YouTube
    • La prueba final es si aceptarían el PR o no
  • Gemini es el único modelo que avisa cuándo la conversación está por interrumpirse

    • ChatGPT tiende a olvidar la conversación cuando se llena el contexto
    • A Gemini le faltan herramientas, pero en general se siente como un mejor modelo
  • He usado Gemini 2.5 Pro y me parece bastante bueno

    • Claude 3.5 parece ser mejor siguiendo instrucciones
    • Me decepcionaron las herramientas de Cursor y Claude CLI
    • Me gusta cómo Gemini muestra la ventana de contexto
    • Creo que el mercado no puede sostener las valuaciones de las grandes empresas de IA
    • A veces los modelos gratuitos son mejores
  • En la competencia entre modelos de IA, el perdedor parece ser Microsoft

    • Cuando ChatGPT era la única opción, Microsoft era vista como líder
    • Copilot es un fracaso, y Bing no logró aprovechar la IA
    • Se menciona que Sundar Pichai de Google quiere compararse con el modelo de Microsoft
  • Gemini 2.5 Pro obtuvo una puntuación alta en el leaderboard de programación políglota de aider

    • Se usa principalmente en el trabajo de la versión más reciente de aider
    • Actualmente, el mayor problema de Gemini es su estricto límite de velocidad
  • En el ejemplo del cubo de Rubik, Gemini 2.5 usa una secuencia de mezcla memorizada

    • Resuelve el cubo invirtiendo la secuencia de mezcla
  • Cuando usaba Visual Basic en los 90, me parecía interesante crear nuevos proyectos desde una plantilla

    • Programar con IA se siente parecido a eso, pero más exagerado
    • Hay un comentario sobre que Claude estaba confundido porque el avión estaba de lado
  • Gemini 2.5 no rinde bien con código Cython complejo

    • Claude y o3 siguen bien las instrucciones
    • Gemini intenta hacer cambios que no tienen relación
  • Hay una pregunta sobre si hace falta una discusión imparcial

    • El enlace del OP parece una publicidad sesgada de Composio
    • Hay descripciones exageradas sobre Gemini 2.5 Pro
  • Todas las tareas de prueba son proyectos greenfield

    • Para usar LLM, hay que hacer cambios o modificaciones en proyectos existentes
    • Creo que esas pruebas no tienen sentido para medir la utilidad del modelo