- Algunos usuarios detectaron que en Google AI Studio se está ofreciendo un nuevo modelo Gemini 3.0 en forma de prueba A/B
- Se espera que Gemini 3.0 sea un modelo de próxima generación con mejoras en rendimiento de código, y usuarios reales comprobaron la diferencia de calidad mediante una prueba de generación de imágenes SVG
- Como resultado de la prueba, la generación SVG de un control de Xbox 360 mejoró de forma notable, mostrando una gran mejora frente a Gemini 2.5 Pro
- El identificador del modelo es
ecpt50a2y6mpgkcn, y es muy probable que corresponda a la versión Gemini 3.0 Pro; también se confirmaron cambios de rendimiento como un aumento del 40% en la longitud de salida y 24 segundos más de TTFT
- Esto sugiere que Google ya comenzó un despliegue experimental del modelo Gemini de próxima generación, lo que indica que su lanzamiento oficial estaría cerca
Lanzamiento no oficial y contexto de Gemini 3.0
- Según rumores recientes, se reveló que algunos usuarios pueden acceder a Gemini 3.0 mediante una prueba A/B en Google AI Studio
- Gemini 3.0 es un modelo que actualmente genera gran interés en el campo de la IA por la expectativa de mejoras en renderizado de imágenes con IA y rendimiento de programación
- Después de varios intentos, se pudo experimentar directamente la pantalla de prueba A/B.
- Prompt utilizado:
Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
- En conclusión, el SVG del control de Xbox generado por Gemini 3.0 fue muy superior al del modelo anterior en detalle, precisión y calidad del diseño
- Se confirmó que el ID del modelo de Gemini 3.0 es
ecpt50a2y6mpgkcn, aunque es difícil saber la versión exacta
- Como el modelo seleccionado por defecto era Gemini 2.5 Pro, se puede suponer que en realidad se trataba de una comparación con Gemini 3.0 Pro
- En comparación con Gemini 2.5 Pro
- TTFT (Time to First Token) aumentó aproximadamente 24 segundos
- La longitud de salida aumentó aproximadamente un 40%
- Existe la posibilidad de que incluya reasoning tokens
Apéndice
- Lista de imágenes de salida del resultado de la comparación A/B entre Gemini 3.0 y Gemini 2.5 Pro
1 comentarios
Opinión de Hacker News
Puede que esté en minoría, pero en mi empresa podemos usar todos los modelos Pro y mi experiencia ha sido que Gemini siempre supera a ChatGPT, Claude y Deepseek. Quizá sea porque hago mucho desarrollo web, especialmente trabajo con HTML/SCSS, y también creo que a Google le ayuda tener más datos por haber rastreado internet. Cada modelo tendrá áreas en las que destaca, pero en desarrollo web UI/UX siento que Gemini realmente sobresale. Tengo muchas ganas de ver la versión 3.0
He sentido que Gemini 2.5 Pro es especialmente mejor que Claude y GPT-5 en estos dos casos.
Hace unas semanas, un script de terceros estaba interfiriendo con el evento click de mi botón en React, así que iba a arreglarlo agregando un evento mousedown. Estaba cansado y le expliqué a Gemini un plan rápido y medio improvisado para simular un click unos ms después de mousedown, pero Gemini lo rechazó de frente y en su lugar me propuso una solución más limpia usando una combinación de mousedown y mouseup. Me sorprendió mucho que entendiera perfectamente el problema y me recomendara un mejor enfoque en vez de hacer simplemente lo que yo quería
En nuestra empresa estamos haciendo benchmark de los principales modelos LLM, y Gemini 2.5 es el claro número 1 salvo en algunas áreas muy específicas. Va muy en línea con los rumores de que el pretraining de Google es el mejor, y donde queda un poco a deber es solo en tuning/alignment. Esa es justo la razón por la que tengo tantas ganas de ver Gemini 3. La versión 2.5 es la mejor, pero todavía tiene bastante margen de mejora. (Áreas específicas: “razonamiento real” (GPT-5) y escritura de scripts en Python (familia Claude))
En precisión de búsqueda o tareas basadas en hechos, siento que tanto Claude como Gemini se quedan bastante por detrás de ChatGPT. Gemini empieza a inventar cosas después de unas pocas búsquedas, mientras que ChatGPT repite la búsqueda decenas o incluso cientos de veces, y sigue buscando a partir de los resultados que ya encontró
Me encanta la ventana de contexto más amplia de Gemini. Mi forma de trabajar es convertir toda la base de código en una cadena, pegarla en Gemini y hacer preguntas. A la gente le encantan los “agentes” que solo seleccionan unos cuantos archivos, pero para mí es mucho más práctico y efectivo simplemente lanzarle toda la base de código y trabajar de forma conversacional con generación de código, edición de archivos, etc.
No entiendo bien el interés excesivo en generar SVG con LLM. Es una tarea difícil de acertar de una sola vez, y hasta para una persona es complicada de intentar, así que no tiene mucha utilidad. Creo que sería más útil si el modelo pudiera recibir retroalimentación visual y mejorar el resultado. Como esto se volvió una tarea de benchmark popular, las empresas están metiendo datos de ejemplo en sus conjuntos de entrenamiento, así que al final solo se compara quién usó un mejor dataset de “texto a SVG”, no la calidad general del modelo
Desde hace como un mes siguen saliendo noticias sobre Gemini 3 junto con todo tipo de especulaciones. Hasta que haya un anuncio oficial, prefiero reservarme el juicio, porque nadie sabe si reemplazará a Pro, Flash y Flash Lite, si será un modelo totalmente nuevo, si realmente se lanzará, etc. Por la forma del A/B testing en AIStudio, solo se puede obtener el resultado de un único prompt, y apenas puedes entender la velocidad, la latencia y si sigue o no instrucciones. No creo que evaluar el rendimiento real de un modelo con un solo prompt sea una evaluación profesional. Obviamente tampoco se puede saber cómo responde al manejo de múltiples archivos o a llamadas de herramientas. Más que inflar la expectativa sin más, ojalá no caigamos en entusiasmo exagerado ni en decepciones exageradas. Esa es también una de las razones por las que no me gusta mucho el contenido especulativo: resalta lo llamativo sin contexto ni análisis real
Es un dibujo de pelícano realmente impresionante. Tengo demasiadas ganas de probar Gemini 3 ejemplo relacionado en Twitter
El benchmark por fin se rompió
Parece una obra de arte más de lo esperado
¿Esto se supone que está bien? A mí solo me parece bastante malo
Lo que me pareció curioso es que Gemini 2.5 Pro es de primera categoría para la mayoría de los usos, pero solo obligatoriamente en la primera pregunta. O sea, funciona mejor cuando metes todo el contexto, haces una sola pregunta y recibes una sola respuesta. Mientras más se alarga la conversación, más se desploma la calidad. Es raro, sobre todo porque su ventana de contexto es más larga que la de otros modelos. Yo lo uso metiendo todo el proyecto (unos 200 mil tokens) en la ventana de chat, lanzando una sola pregunta bien hecha y cerrando inmediatamente ese chat
Hay quien dice que "Gemini 3.0 es uno de los lanzamientos de IA más esperados en este momento, especialmente por las mejoras en escritura de código", pero por lo que he oído de amigos que lo usan dentro de Google, todos van a quedar decepcionados.
Edición: en realidad ellos no pueden usar Gemini 3, así que es bastante natural que digan que no es gran cosa
Gemini 3.0 tampoco está desplegado ampliamente dentro de Google en este momento. "Gemini for Google" es una versión fine-tuned de 2.5 Pro o 2.5 Flash. El modelo 3.0 en sí no se está usando de forma amplia. (Empleado de Google, trabajo en un equipo relacionado con pagos, y esta es mi opinión personal)
Perdón por echarle agua fría a esta expectativa, pero ni siquiera en nuestro equipo de Vibecoding dentro de Google estamos usando Gemini 3
No es sorprendente. Los LLM ya entraron en una etapa de límite de mejora (rendimientos decrecientes) y hace falta una forma de fabricar GPU más baratas
En Twitter están saliendo muchísimos más ejemplos de Gemini 3. Después de verlos compré acciones de Google de inmediato. Por los resultados, da la impresión de que de verdad genera diseños nuevos y creativos, en vez de copiar y pegar plantillas pasadas. Producir resultados tan consistentes y tan bellos a nivel de código es extremadamente difícil, así que me impactó sentir que Gemini 3 sí lo logra. Además, Google es la única empresa que tiene una integración vertical completa desde el modelo hasta el hardware, así que creo que tiene muchísimas probabilidades de triunfar en la era de la IA
En el Twitter de chetaslua están publicando varios resultados de pruebas con Gemini 3 (web desktop, clon de Vampire Survivor, modelo 3D de Vogel realmente jugable, varios clones de juegos, SVG, etc.). Especialmente en formato one-shot, los resultados son muy buenos e impresionantes
Si ejecutas la terminal de Python aparece un efecto interesante de romper la cuarta pared
O sea, la ejecución de print y open se conecta directamente con el navegador
Ojalá mejore el problema del looping (repetición). Es un problema realmente grave. Incluso el CLI tiene una función de detección de bucles, y la detectó al minuto de usarlo. En la app de Gemini, 2.5 Pro también se vuelve casi inutilizable porque sigue repitiendo palabras aunque le indiques varias veces que no repita
Me pregunto si los modelos están evaluando el SVG “con los ojos” y corrigiéndolo varias veces, o si se espera que den un resultado perfecto de una sola vez
También probé mostrarle al modelo visual el resultado renderizado y dejarlo mejorar hasta tres veces, pero sorprendentemente no mejora el resultado