9 puntos por GN⁺ 2025-03-26 | 3 comentarios | Compartir por WhatsApp
  • Gemini 2.5 es el modelo de IA basado en razonamiento más inteligente, diseñado para resolver problemas complejos
  • La primera versión, Gemini 2.5 Pro Experimental, logró el mejor rendimiento en diversos benchmarks de IA
  • En particular, obtuvo el primer lugar con una amplia ventaja en el ranking de LMArena
  • A diferencia de los modelos anteriores, está diseñado con una estructura que realiza su propio proceso de pensamiento antes de responder, lo que mejora la precisión y el rendimiento

¿Qué significa la capacidad de 'pensar' en la IA?

  • Va más allá de la simple clasificación o predicción, e incluye capacidades cognitivas de alto nivel como análisis de información, obtención de conclusiones lógicas, comprensión del contexto y toma de decisiones
  • Para esto, DeepMind ha investigado la capacidad de razonamiento de la IA utilizando aprendizaje por refuerzo y técnicas de prompting como Chain-of-Thought
  • Muestra un rendimiento un nivel superior al del modelo anterior Gemini 2.0 Flash Thinking

Próxima dirección

  • Con Gemini 2.5, se combinan modelos base mejorados y técnicas de posprocesamiento para alcanzar un nuevo nivel de rendimiento
  • En el futuro, esta capacidad de pensamiento se incorporará por defecto en todos los modelos Gemini, para permitir resolver problemas más complejos y dar soporte a agentes más avanzados

Presentación de Gemini 2.5 Pro

  • Gemini 2.5 Pro Experimental muestra un rendimiento sobresaliente para realizar las tareas más complejas entre los modelos desarrollados hasta ahora
  • Ocupó el primer lugar con una amplia ventaja en LMArena, que evalúa según preferencias humanas
  • También muestra un rendimiento destacado en benchmarks de programación, matemáticas y ciencia
  • Actualmente está disponible en Google AI Studio y en la app de Gemini, y próximamente también estará disponible en Vertex AI
  • Más adelante se introducirá un plan de precios para ofrecer un servicio escalable con límites de uso más altos

Mejor rendimiento de razonamiento

  • Registró resultados de benchmark de primer nivel en la resolución de problemas lógicos complejos
  • Mantiene un rendimiento sobresaliente incluso sin técnicas de prueba adicionales que implican costos extra (por ejemplo, votación por mayoría)
  • Muestra un rendimiento líder en problemas de matemáticas y ciencia como GPQA y AIME 2025
  • En la exigente prueba de razonamiento 'Humanity’s Last Exam', diseñada por cientos de expertos, logró una puntuación récord en la industria de 18.8% sin usar herramientas

Rendimiento avanzado en programación

  • El rendimiento en programación mejoró significativamente frente a Gemini 2.0
  • Tiene una capacidad destacada para crear web apps, escribir código de tipo agente y transformar y corregir código
  • Alcanzó 63.8% en la evaluación SWE-Bench Verified al usar un agente personalizado
  • Incluso hay un ejemplo en el que genera un videojuego ejecutable con una sola línea de prompt

Hereda las fortalezas de los modelos Gemini

  • Gemini 2.5 mantiene intactas las fortalezas de los modelos Gemini anteriores: procesamiento multimodal y ventana de contexto extensa
  • Soporta una ventana de contexto de 1 millón de tokens (próximamente se ampliará a 2 millones)
  • Puede procesar de forma integral diversas fuentes de información como texto, audio, imágenes, video y repositorios completos de código
  • Desarrolladores y usuarios empresariales pueden experimentar y probarlo a través de Google AI Studio, Gemini Advanced y Vertex AI

3 comentarios

 
wowfoot 2025-03-26

Supera por mucho a claud y gpt4.5, pero no logra ganarle a cuando intentas varias veces con grok3.
grok3 es impresionante.

 
zxshinxz 2025-03-26

Parece que con la llegada de Gemini 2.5 Pro a Google AI Studio, desaparecieron todos los Gemini 2.0 Pro que estaban antes... Los estaba usando bastante bien gratis, así que es una lástima. Gemini 2.5 Pro tiene una restricción bastante grande: límite de 2 veces por minuto y solo se puede invocar hasta 50 veces al día.

 
GN⁺ 2025-03-26
Opiniones de Hacker News
  • Uno de los mayores problemas al usar LLM para escribir textos largos como novelas es que, si les das detalles, el modelo tiende a reaccionar de forma excesivamente ansiosa

    • Por ejemplo, si le das el perfil del interés amoroso en una fantasía narrativa, el protagonista casi siempre termina conociéndolo dentro de las primeras 3 páginas
    • Ese desarrollo no es lógico, y los intentos de cambiarlo no funcionan
    • El modelo actual mostró un desarrollo normal incluso después de generar 19 páginas, incluyendo muchos detalles
    • Muy impresionante
  • He estado usando acertijos matemáticos para evaluar distintos modelos

    • Este acertijo tardó alrededor de 3 días en resolverse por computadora, y un estudiante de matemáticas lo resolvió a mano en un día
    • Gemini 2.5 es el primer modelo que resuelve este acertijo, lo que significa que un LLM ya supera en razonamiento matemático a más del 95% de la población
    • El acertijo trata de tres personas de pie en círculo, cada una con un entero positivo flotando sobre su cabeza, y la suma de dos números es igual al tercero
    • La primera persona dice que no sabe cuál es su número, la segunda también dice que no lo sabe, y la tercera dice lo mismo
    • Cuando vuelven a preguntarle a la primera persona, responde que es 65
    • El acertijo pregunta cuál es el producto de los tres números
  • Tuvo un muy buen desempeño en transcripción de audio y en tareas de dibujar cuadros delimitadores alrededor de seres vivos en fotos complejas

    • Incluso dibujó un pelícano andando en bicicleta
    • Las notas relacionadas pueden verse en el enlace
  • Logró el mejor rendimiento en benchmarks de una forma sin precedentes

    • Muestra resultados claros y de alta calidad, aunque es un poco lento
    • Google está volviendo a lograr algo grande
  • Gemini 2.5 Pro logró SOTA con una puntuación de 73% en el leaderboard polyglot de aider

    • Muestra un gran salto respecto a modelos anteriores de Gemini
    • Es el primer modelo de Gemini que usa eficazmente un formato de edición eficiente tipo diff
  • Estos anuncios ya empiezan a parecer una plantilla

    • Modelo de vanguardia
    • Comparación en benchmarks con X, Y, Z
    • Razonamiento “mejor”
    • Puede que sea un gran modelo, pero el texto repetitivo le quita interés
  • Gemini 2.5 alcanzó un nuevo nivel de desempeño al combinar un modelo base muy mejorado con un posprocesamiento optimizado

    • En adelante, planean incorporar directamente estas capacidades de razonamiento en todos los modelos para abordar problemas más complejos y respaldar agentes más capaces y conscientes del contexto
    • Está conectado a internet y actúa como modelo de razonamiento cuando hace falta
    • Ojalá puedan darle soporte al modo canvas lanzado recientemente en este modelo
  • Usé un caso de prueba en el que le di al LLM toda la base de código de una biblioteca de Dart junto con la descripción de un bug para identificar la causa

    • Incluía alrededor de 360,000 tokens
    • Lo probé con los principales modelos hace un mes, pero este fue el único que identificó la corrección correcta
  • Si planeas usar Gemini, hay algunas advertencias que tener en cuenta

    • No ingreses información confidencial ni datos que puedan ver revisores o que Google pueda usar
    • Para mejorar la calidad de Google AI y sus productos, revisores humanos leen, anotan y procesan las conversaciones
    • Durante este proceso, las conversaciones se separan de tu cuenta de Google para proteger la privacidad
  • El modelo 2.0 todavía no tiene mucho tiempo, así que me pregunto por qué el nombre lleva un +0.5

    • Me pregunto si es por marketing, si indica una nueva arquitectura del modelo, más datos de entrenamiento sobre 2.0 o una nueva infraestructura de servicio
    • Cuando apareció por primera vez esta nomenclatura *.5, me pareció algo tonta
    • Cuando OpenAI lanzó 3.5, dijo que ya estaba preparando 4 y que estaba ajustando 3 para que encajara mejor con ChatGPT
    • Creo que el peor caso de esta nomenclatura es cómo Anthropic nombró sus modelos Sonnet 3, 3.5, 3.5 (new) y 3.7
    • Prefiero semver, nombres basados en fecha ("Gemini Pro 2025") o combinaciones significativas de letras y números (por ejemplo, 4o - "Omni")