Gemini 3.0 es detectado públicamente mediante pruebas A/B

(ricklamers.io)

5 puntos por GN⁺ 2025-10-17 | 1 comentarios | Compartir por WhatsApp

Algunos usuarios detectaron que en Google AI Studio se está ofreciendo un nuevo modelo Gemini 3.0 en forma de prueba A/B
Se espera que Gemini 3.0 sea un modelo de próxima generación con mejoras en rendimiento de código, y usuarios reales comprobaron la diferencia de calidad mediante una prueba de generación de imágenes SVG
Como resultado de la prueba, la generación SVG de un control de Xbox 360 mejoró de forma notable, mostrando una gran mejora frente a Gemini 2.5 Pro
El identificador del modelo es ecpt50a2y6mpgkcn, y es muy probable que corresponda a la versión Gemini 3.0 Pro; también se confirmaron cambios de rendimiento como un aumento del 40% en la longitud de salida y 24 segundos más de TTFT
Esto sugiere que Google ya comenzó un despliegue experimental del modelo Gemini de próxima generación, lo que indica que su lanzamiento oficial estaría cerca

Lanzamiento no oficial y contexto de Gemini 3.0

Según rumores recientes, se reveló que algunos usuarios pueden acceder a Gemini 3.0 mediante una prueba A/B en Google AI Studio
Gemini 3.0 es un modelo que actualmente genera gran interés en el campo de la IA por la expectativa de mejoras en renderizado de imágenes con IA y rendimiento de programación
Después de varios intentos, se pudo experimentar directamente la pantalla de prueba A/B.
Prompt utilizado: Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
En conclusión, el SVG del control de Xbox generado por Gemini 3.0 fue muy superior al del modelo anterior en detalle, precisión y calidad del diseño
Se confirmó que el ID del modelo de Gemini 3.0 es ecpt50a2y6mpgkcn, aunque es difícil saber la versión exacta
Como el modelo seleccionado por defecto era Gemini 2.5 Pro, se puede suponer que en realidad se trataba de una comparación con Gemini 3.0 Pro
En comparación con Gemini 2.5 Pro
- TTFT (Time to First Token) aumentó aproximadamente 24 segundos
- La longitud de salida aumentó aproximadamente un 40%
- Existe la posibilidad de que incluya reasoning tokens

Apéndice

Lista de imágenes de salida del resultado de la comparación A/B entre Gemini 3.0 y Gemini 2.5 Pro

1 comentarios

GN⁺ 2025-10-17

Opinión de Hacker News

Puede que esté en minoría, pero en mi empresa podemos usar todos los modelos Pro y mi experiencia ha sido que Gemini siempre supera a ChatGPT, Claude y Deepseek. Quizá sea porque hago mucho desarrollo web, especialmente trabajo con HTML/SCSS, y también creo que a Google le ayuda tener más datos por haber rastreado internet. Cada modelo tendrá áreas en las que destaca, pero en desarrollo web UI/UX siento que Gemini realmente sobresale. Tengo muchas ganas de ver la versión 3.0
- He sentido que Gemini 2.5 Pro es especialmente mejor que Claude y GPT-5 en estos dos casos.
  - Escritura creativa: Gemini es abrumadoramente superior a los demás modelos. Personalmente, Gemini 2.5 Pro es el único modelo que más o menos puedo usar para escritura creativa (poesía, cuentos cortos). Tiene un nivel bastante bueno para entender matices, así que lo uso para criticar mis textos creativos. Claro, en áreas como escribir poesía, todos los modelos siguen quedándose cortos
  - Razonamiento complejo (matemáticas de nivel licenciatura/posgrado): creo que Gemini es el mejor porque es apenas un poco más preciso. Claude Opus 4.1 y Sonnet 4.5 están en un nivel similar, pero Gemini 2.5 da respuestas más consistentes y predecibles (lo uso mucho en álgebra, álgebra conmutativa, teoría de categorías, geometría algebraica, topología, etc.)
  - Eso sí, en el rol de “agente”, como buscar en una base de código grande completa o pedir refactors ante preguntas abiertas, Gemini queda por debajo de Claude y GPT-5. Tiene problemas parciales con las llamadas a herramientas, así que en Copilot/Cursor funciona de manera inconsistente
  - En general, creo que Gemini 2.5 Pro es el más inteligente, pero también pienso que lo correcto es usar modelos distintos según la tarea
- Hace unas semanas, un script de terceros estaba interfiriendo con el evento click de mi botón en React, así que iba a arreglarlo agregando un evento mousedown. Estaba cansado y le expliqué a Gemini un plan rápido y medio improvisado para simular un click unos ms después de mousedown, pero Gemini lo rechazó de frente y en su lugar me propuso una solución más limpia usando una combinación de mousedown y mouseup. Me sorprendió mucho que entendiera perfectamente el problema y me recomendara un mejor enfoque en vez de hacer simplemente lo que yo quería
- En nuestra empresa estamos haciendo benchmark de los principales modelos LLM, y Gemini 2.5 es el claro número 1 salvo en algunas áreas muy específicas. Va muy en línea con los rumores de que el pretraining de Google es el mejor, y donde queda un poco a deber es solo en tuning/alignment. Esa es justo la razón por la que tengo tantas ganas de ver Gemini 3. La versión 2.5 es la mejor, pero todavía tiene bastante margen de mejora. (Áreas específicas: “razonamiento real” (GPT-5) y escritura de scripts en Python (familia Claude))
- En precisión de búsqueda o tareas basadas en hechos, siento que tanto Claude como Gemini se quedan bastante por detrás de ChatGPT. Gemini empieza a inventar cosas después de unas pocas búsquedas, mientras que ChatGPT repite la búsqueda decenas o incluso cientos de veces, y sigue buscando a partir de los resultados que ya encontró
- Me encanta la ventana de contexto más amplia de Gemini. Mi forma de trabajar es convertir toda la base de código en una cadena, pegarla en Gemini y hacer preguntas. A la gente le encantan los “agentes” que solo seleccionan unos cuantos archivos, pero para mí es mucho más práctico y efectivo simplemente lanzarle toda la base de código y trabajar de forma conversacional con generación de código, edición de archivos, etc.
No entiendo bien el interés excesivo en generar SVG con LLM. Es una tarea difícil de acertar de una sola vez, y hasta para una persona es complicada de intentar, así que no tiene mucha utilidad. Creo que sería más útil si el modelo pudiera recibir retroalimentación visual y mejorar el resultado. Como esto se volvió una tarea de benchmark popular, las empresas están metiendo datos de ejemplo en sus conjuntos de entrenamiento, así que al final solo se compara quién usó un mejor dataset de “texto a SVG”, no la calidad general del modelo
Desde hace como un mes siguen saliendo noticias sobre Gemini 3 junto con todo tipo de especulaciones. Hasta que haya un anuncio oficial, prefiero reservarme el juicio, porque nadie sabe si reemplazará a Pro, Flash y Flash Lite, si será un modelo totalmente nuevo, si realmente se lanzará, etc. Por la forma del A/B testing en AIStudio, solo se puede obtener el resultado de un único prompt, y apenas puedes entender la velocidad, la latencia y si sigue o no instrucciones. No creo que evaluar el rendimiento real de un modelo con un solo prompt sea una evaluación profesional. Obviamente tampoco se puede saber cómo responde al manejo de múltiples archivos o a llamadas de herramientas. Más que inflar la expectativa sin más, ojalá no caigamos en entusiasmo exagerado ni en decepciones exageradas. Esa es también una de las razones por las que no me gusta mucho el contenido especulativo: resalta lo llamativo sin contexto ni análisis real
- Últimamente parece que el hype en sí ya se volvió una profesión, pero me irrita un poco ver reacciones exageradas como "GAME CHANGER!!!" o "¡Todos quedarán en shock!" en cada enlace de Twitter. Los ejemplos reales son geniales, pero decepciona que casi todo esté lleno solo de esas evaluaciones poco profesionales que mencioné arriba
Es un dibujo de pelícano realmente impresionante. Tengo demasiadas ganas de probar Gemini 3 ejemplo relacionado en Twitter
- El benchmark por fin se rompió
- Parece una obra de arte más de lo esperado
- ¿Esto se supone que está bien? A mí solo me parece bastante malo
Lo que me pareció curioso es que Gemini 2.5 Pro es de primera categoría para la mayoría de los usos, pero solo obligatoriamente en la primera pregunta. O sea, funciona mejor cuando metes todo el contexto, haces una sola pregunta y recibes una sola respuesta. Mientras más se alarga la conversación, más se desploma la calidad. Es raro, sobre todo porque su ventana de contexto es más larga que la de otros modelos. Yo lo uso metiendo todo el proyecto (unos 200 mil tokens) en la ventana de chat, lanzando una sola pregunta bien hecha y cerrando inmediatamente ese chat
- En todos los LLM que he usado me pasó lo mismo: mientras más tiempo dura la conversación, peor se vuelve la calidad de las respuestas. Por eso no paso de dos mensajes. Si en la primera respuesta no sale lo que quiero, mientras más mensajes agrego, menos probable es que aparezca la respuesta correcta. Siempre conviene empezar en un chat nuevo e ir ajustando el prompt
Hay quien dice que "Gemini 3.0 es uno de los lanzamientos de IA más esperados en este momento, especialmente por las mejoras en escritura de código", pero por lo que he oído de amigos que lo usan dentro de Google, todos van a quedar decepcionados.
Edición: en realidad ellos no pueden usar Gemini 3, así que es bastante natural que digan que no es gran cosa
- Gemini 3.0 tampoco está desplegado ampliamente dentro de Google en este momento. "Gemini for Google" es una versión fine-tuned de 2.5 Pro o 2.5 Flash. El modelo 3.0 en sí no se está usando de forma amplia. (Empleado de Google, trabajo en un equipo relacionado con pagos, y esta es mi opinión personal)
- Perdón por echarle agua fría a esta expectativa, pero ni siquiera en nuestro equipo de Vibecoding dentro de Google estamos usando Gemini 3
- No es sorprendente. Los LLM ya entraron en una etapa de límite de mejora (rendimientos decrecientes) y hace falta una forma de fabricar GPU más baratas
En Twitter están saliendo muchísimos más ejemplos de Gemini 3. Después de verlos compré acciones de Google de inmediato. Por los resultados, da la impresión de que de verdad genera diseños nuevos y creativos, en vez de copiar y pegar plantillas pasadas. Producir resultados tan consistentes y tan bellos a nivel de código es extremadamente difícil, así que me impactó sentir que Gemini 3 sí lo logra. Además, Google es la única empresa que tiene una integración vertical completa desde el modelo hasta el hardware, así que creo que tiene muchísimas probabilidades de triunfar en la era de la IA
- No soy experto en finanzas, pero sí puedo darte el consejo de que comprar acciones solo por publicaciones hype en Twitter no es una forma segura de invertir. Pero si es dinero que te sobra y lo haces por diversión, pues adelante
En el Twitter de chetaslua están publicando varios resultados de pruebas con Gemini 3 (web desktop, clon de Vampire Survivor, modelo 3D de Vogel realmente jugable, varios clones de juegos, SVG, etc.). Especialmente en formato one-shot, los resultados son muy buenos e impresionantes
- Este ejemplo me pareció realmente novedoso: demo en vivo en codepen
  Si ejecutas la terminal de Python aparece un efecto interesante de romper la cuarta pared
  1. Si usas la palabra clave print de "Python", se abre el cuadro de diálogo de impresión real del navegador
  2. Si usas la palabra clave open de "Python", el navegador abre una pestaña nueva e intenta acceder a ese archivo
    O sea, la ejecución de print y open se conecta directamente con el navegador
Ojalá mejore el problema del looping (repetición). Es un problema realmente grave. Incluso el CLI tiene una función de detección de bucles, y la detectó al minuto de usarlo. En la app de Gemini, 2.5 Pro también se vuelve casi inutilizable porque sigue repitiendo palabras aunque le indiques varias veces que no repita
Me pregunto si los modelos están evaluando el SVG “con los ojos” y corrigiéndolo varias veces, o si se espera que den un resultado perfecto de una sola vez
- En mi benchmark solo hay una oportunidad.
  También probé mostrarle al modelo visual el resultado renderizado y dejarlo mejorar hasta tres veces, pero sorprendentemente no mejora el resultado

Gemini 3.0 es detectado públicamente mediante pruebas A/B

Lanzamiento no oficial y contexto de Gemini 3.0

Apéndice

Lecturas relacionadas

1 comentarios

Opinión de Hacker News