Gemini 3.5 Flash
(deepmind.google)- Gemini 3.5 Flash de Google DeepMind es un modelo en Preview que mantiene la baja latencia y escalabilidad de la familia Flash mientras ofrece razonamiento avanzado para tareas de agentes y programación
- Sus capacidades clave son la comprensión multimodal, que abarca no solo flujos de trabajo largos y programación iterativa, sino también texto, audio, imágenes, código y video de forma conjunta
- Los ejemplos públicos incluyen desde generación rápida de interfaces hasta construcción de juegos basados en papers y diseño de ciudades virtuales, destacando su alcance en tareas de tipo agente
- En benchmarks registró las mejores puntuaciones de la tabla en varios apartados, como MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9% y MMMU-Pro 83.6%
- Admite texto, imágenes, video, audio y PDF como entrada, y texto como salida; ofrece 1M tokens de entrada, 64k tokens de salida, llamadas a funciones, salida estructurada, herramienta de búsqueda y ejecución de código
La posición de Gemini 3.5 Flash
- Gemini 3.5 Flash es un modelo que ofrece razonamiento avanzado con “latencia y escalabilidad de nivel Flash”
- Sus áreas de aplicación incluyen agentes, programación, tareas cotidianas, razonamiento avanzado, comprensión multimodal y comprensión de contexto largo
- El estado del modelo es Preview
Tareas a las que apunta con latencia Flash
- La dirección principal es ofrecer velocidad e inteligencia al mismo tiempo
- Busca posicionarse como un modelo que mantiene velocidad y escalabilidad sin sacrificar inteligencia
- Maneja razonamiento de largo alcance y tareas de programación iterativa
- Admite comprensión multimodal en texto, audio, imágenes, código y video
Ejemplos de uso con agentes
- Se presentan varios casos que muestran capacidades rápidas de agentes
- Generación de 6 opciones de UI de pago en menos de 60 segundos
- Generación de 64 variaciones fractales a alta velocidad
- Construcción autónoma de un juego inteligente a partir del paper de AlphaGo
- Coordinación de varios flujos de trabajo para crear y mejorar la marca de un evento de recaudación con entrada mínima
- Conversión de una descripción en texto a un componente HTML interactivo completo
- Generación de canciones por varios agentes usando la biblioteca musical Strudel
- Diseño y construcción de una ciudad virtual coordinando un equipo de agentes especializados
- Renombrado y estructuración automática de un dataset desordenado
- Despliegue de agentes para seguir mejorando un juego en tiempo real
Casos de clientes y mejoras de rendimiento
- Armadin indicó que el modelo Flash más reciente de Gemini superó a Flash 3 en 42% en un benchmark cibernético multivuelta de largo alcance, y mejoró la eficiencia de tokens en 68%
- En el conjunto de evaluación de tareas empresariales de Box, Gemini 3.5 Flash superó a Gemini 3 Flash en 19.6%
- La precisión de extracción de datos y cálculo para clientes de Life Sciences mejoró en 96.4%
- La precisión en la generación de reportes financieros basados en datos estructurados para Financial Services mejoró en 46.7%
- Junie de JetBrains evaluó que Gemini 3.5 Flash ofrece una calidad de programación y razonamiento cercana a Gemini Pro mientras mantiene las características de velocidad y costo de Flash
- Frente a la generación Flash anterior, el rendimiento de programación en razonamiento de menor nivel mejoró entre 10–20%
Resultados de benchmarks
- Gemini 3.5 Flash se destaca con fuerza como modelo para flujos de trabajo con agentes
- Benchmarks de programación
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
- Benchmarks de agentes y uso de herramientas
- MCP Atlas: 83.6%, la mejor puntuación de la tabla
- Toolathlon: 56.5%, la mejor puntuación de la tabla
- Control de UI y tareas especializadas
- OSWorld-Verified: 78.4%
- Finance Agent v2: 57.9%, la mejor puntuación de la tabla
- GDPval-AA Elo: 1656
- Benchmarks multimodales
- CharXiv Reasoning: 84.2%, la mejor puntuación de la tabla
- MMMU-Pro: 83.6%, la mejor puntuación de la tabla
- Blueprint-Bench 2: 33.6%
- Contexto largo y razonamiento
- Promedio MRCR v2 128k: 77.3%
- MRCR v2 1M pointwise: 26.6%, superior a Gemini 3 Flash y Gemini 3.1 Pro comparables
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
- Los detalles del método de evaluación están en Gemini 3.5 Flash evals methodology
Información del modelo y entornos disponibles
- Admite texto, imágenes, video, audio y PDF como entrada
- La salida es texto
- Contexto y base de conocimiento
- Tokens de entrada: 1M
- Tokens de salida: 64k
- Corte de conocimiento: enero de 2025
- Funciones de uso de herramientas
- Llamadas a funciones
- Salida estructurada
- Uso de búsqueda como herramienta
- Ejecución de código
- Los entornos disponibles son Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity y Android Studio
- La documentación para desarrolladores está disponible en Gemini API models documentation
- La model card está disponible en Gemini 3.5 Flash model card
1 comentarios
Comentarios de Hacker News
llm-geminipara ofrecer acceso por CLI a Gemini Flashpipx install llm # or brew install llmllm install llm-gemini --upgradellm keys set gemini# paste API key herellm -m gemini-1.5-flash-latest 'a short poem about otters'https://github.com/simonw/llm-gemini/releases/tag/0.1a4
Comparado con montarlo por cuenta propia, no está nada mal, pero entre los modelos de punta la principal diferencia de Gemini era la multimodalidad nativa. Ahora que existe GPT-4o, no tengo claro por qué una organización que no esté atada a GCP elegiría Gemini. Si no vas a procesar libros o películas enteras de una sola vez, los 128k de contexto de GPT-4o parecen suficientes; me pregunto si de verdad hay casos a escala real donde pasar de 1 millón a 100 mil ya no alcance
La fortaleza de Gemini no está en resolver acertijos lógicos, sino en la longitud del contexto. Si estás estudiando para un examen, puedes meter el libro completo al chat; y si tienes que usar un lenguaje muerto para un sistema de pruebas antiguo sobre el que no hay información en internet, puedes cargar un manual de referencia de 1,300 páginas y preguntarle
Intenté meter Gemini 1.5 Pro en varios flujos de trabajo y fue bastante malo. Sobre todo al darle video o audio, las alucinaciones eran increíblemente frecuentes. No sé si un modelo multimodal pequeño con muchas alucinaciones tenga casos de uso prácticos en la mayoría de las empresas; sin confiabilidad, no deja de ser un juguete
Incluso comparado con GPT-4o, el modelo multimodal más barato de OpenAI, GPT-3.5-Turbo cuesta 1/10 de GPT-4o, con $0.5 por millón de tokens de entrada, $1.50 por millón de tokens de salida y una ventana de contexto de 16K. Gemini 1.5 Flash cuesta $0.35 por millón de tokens de entrada y $0.53 por millón de tokens de salida para prompts de hasta 128K. Para trabajos multimodales que no requieren inteligencia nivel GPT-4, especialmente procesamiento de documentos, Gemini Flash parece ofrecer casi un 95% de ahorro en costos
Ya no tienes que pensarlo dos veces al meter contexto, ni hacer soluciones rebuscadas para manejar los límites. Si la mayoría de tus casos de uso manejan texto más que multimodalidad, la ventaja parece bastante clara
Lo intenté unas cinco o seis veces y me rendí; ojalá esta versión sea más rápida y estable
Mi intuición es que, conforme el contexto se hace más largo, se topa con límites sobre cuánta comprensión puede concentrarse en un solo punto de un espacio vectorial, y que hará falta una arquitectura mejor para seleccionar las partes relevantes del contexto
No sé si esa información es pública, pero el tamaño de la dimensión de embedding es una decisión de arquitectura. Me parece más un tema de diseño y restricciones de recursos que un límite de principio
Si tienen artículos relacionados o lecturas recomendadas, estaría bueno que las compartieran
El número de heads o el tamaño de los vectores key siempre se puede aumentar
Pero solo aparecen algunos personajes, las anotaciones son pobres y costó como $20. Si lo haces 10 veces, apenas sale lo bastante bien como para engañarte unas cuantas
Pero no deberíamos permitir que ese sea el futuro
Si intentas enumerar los modelos desde la propia API, parece que Google ofrece como 10 modelos por una ruta que en la consola de Google Cloud se llama Generative Language API y en la documentación se llama Gemini API. Hay más de 10 nombres de modelo, pero algunos son solo varios alias del mismo modelo.
De esos, solo 3 tienen información de precio en la página de precios de Gemini API, y 2 de esos 3 están en preview, así que el precio aplicará más adelante. En la Generative Language API de la consola, solo aparece el precio de 1 modelo no preview de esos 3 de la documentación. En la lista de Cloud SKU no existe Generative Language API, sí existe Gemini API, pero otra vez solo para ese mismo modelo. En la lista de precios de Cloud, a la que la página de la consola enlaza como “precio más reciente”, no aparece ni Generative Language API ni Gemini API. No entiendo por qué hay tantas entradas distintas
Tengo muchísima curiosidad por cómo se compararían los LLM basados en caracteres. Con 2 millones de contexto, el cuello de botella computacional se vuelve menos relevante. Aun así, no tengo claro qué papel juega el tamaño del vocabulario. Como los embeddings ya contienen una gran parte del conocimiento, un vocabulario grande podría ser importante. Por otro lado, usar un vocabulario basado en caracteres podría resolver varios problemas, como los tokens con glitches, la aritmética y la prosodia. Implementar y entrenar correctamente un tokenizador de subpalabras también parece bastante complejo, mientras que a nivel de caracteres debería ser muy simple
En los servidores de inferencia, una parte considerable de la memoria se va al caché KV, y para acumular embeddings mediante atención hay que relacionar muchos más tokens entre sí, pero cada token tiene un “significado” más débil. Tal vez algún día se llegue a ese punto. En última instancia, harán falta LLM multimodales que entiendan imágenes y sonido hasta el nivel de píxeles y frecuencias, y probablemente se quiera que el texto termine yendo por ese mismo camino
Al menos, así lo veo en términos generales. Me parece que este enfoque podría dar más calidad que con el alfabeto romano. Me pregunto si bastaría con comparar cómo los LLM procesan inglés y chino para ponerlo a prueba
Segundo, estos modelos convierten de manera muy aproximada los tokens en un “significado promedio” en la capa de embeddings, las capas de atención combinan significados, y las capas feedforward ajustan la combinación actual de significados a algo así como arquetipos o prototipos aprendidos. Si se baja de fragmentos de palabras a caracteres, todo eso se vuelve más confuso. Por ejemplo, ya es ambiguo cuál sería el significado promedio de “a”, así que creo que todavía no hay suficientes técnicas para entrenar bien modelos basados en caracteres
Es una especulación poco informada, pero tal vez sea porque los transformers no son reconocedores de patrones de propósito general, sino que solo pueden captar patrones en ciertos niveles de granularidad
“ChatGPT” es un nombre bastante tosco y complicado, y OpenAI se siente como una organización sin rostro. Claro que eso podría cambiar, pero a estas alturas parece bastante tarde. Cuando salieron al mercado, seguramente tenían dinero de sobra para ser más creativos
¿“GPT4o”? ¿En serio? Incluso “GPT4 Omni” es más fácil en una conversación, y además ese es el significado de la “o”. Están subestimando gravemente cuántos usuarios comunes hay
GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2
Según https://ai.google.dev/pricing, parece estar apenas un poco más barato que gpt3.5-turbo, pero no hay forma de saber cómo se compara en la práctica
Durante varios meses usé Gemini Pro y ChatGPT 4 en paralelo para programación práctica, arquitectura de sistemas y, a veces, preguntas generales, y ChatGPT fue al menos un 80% más útil. Gemini se equivocaba o divagaba largamente antes de llegar a una respuesta útil, así que no valía la pena usarlo. Lo que yo necesitaba no era más velocidad. Tal vez ahora sí sea más “inteligente”, es decir, más útil