Gemini 3.5 Flash

(deepmind.google)

2 puntos por GN⁺ 2024-05-15 | 1 comentarios | Compartir por WhatsApp

Gemini 3.5 Flash de Google DeepMind es un modelo en Preview que mantiene la baja latencia y escalabilidad de la familia Flash mientras ofrece razonamiento avanzado para tareas de agentes y programación
Sus capacidades clave son la comprensión multimodal, que abarca no solo flujos de trabajo largos y programación iterativa, sino también texto, audio, imágenes, código y video de forma conjunta
Los ejemplos públicos incluyen desde generación rápida de interfaces hasta construcción de juegos basados en papers y diseño de ciudades virtuales, destacando su alcance en tareas de tipo agente
En benchmarks registró las mejores puntuaciones de la tabla en varios apartados, como MCP Atlas 83.6%, Toolathlon 56.5%, Finance Agent v2 57.9% y MMMU-Pro 83.6%
Admite texto, imágenes, video, audio y PDF como entrada, y texto como salida; ofrece 1M tokens de entrada, 64k tokens de salida, llamadas a funciones, salida estructurada, herramienta de búsqueda y ejecución de código

La posición de Gemini 3.5 Flash

Gemini 3.5 Flash es un modelo que ofrece razonamiento avanzado con “latencia y escalabilidad de nivel Flash”
Sus áreas de aplicación incluyen agentes, programación, tareas cotidianas, razonamiento avanzado, comprensión multimodal y comprensión de contexto largo
El estado del modelo es Preview

Tareas a las que apunta con latencia Flash

La dirección principal es ofrecer velocidad e inteligencia al mismo tiempo
- Busca posicionarse como un modelo que mantiene velocidad y escalabilidad sin sacrificar inteligencia
Maneja razonamiento de largo alcance y tareas de programación iterativa
Admite comprensión multimodal en texto, audio, imágenes, código y video

Ejemplos de uso con agentes

Se presentan varios casos que muestran capacidades rápidas de agentes
- Generación de 6 opciones de UI de pago en menos de 60 segundos
- Generación de 64 variaciones fractales a alta velocidad
- Construcción autónoma de un juego inteligente a partir del paper de AlphaGo
- Coordinación de varios flujos de trabajo para crear y mejorar la marca de un evento de recaudación con entrada mínima
- Conversión de una descripción en texto a un componente HTML interactivo completo
- Generación de canciones por varios agentes usando la biblioteca musical Strudel
- Diseño y construcción de una ciudad virtual coordinando un equipo de agentes especializados
- Renombrado y estructuración automática de un dataset desordenado
- Despliegue de agentes para seguir mejorando un juego en tiempo real

Casos de clientes y mejoras de rendimiento

Armadin indicó que el modelo Flash más reciente de Gemini superó a Flash 3 en 42% en un benchmark cibernético multivuelta de largo alcance, y mejoró la eficiencia de tokens en 68%
En el conjunto de evaluación de tareas empresariales de Box, Gemini 3.5 Flash superó a Gemini 3 Flash en 19.6%
- La precisión de extracción de datos y cálculo para clientes de Life Sciences mejoró en 96.4%
- La precisión en la generación de reportes financieros basados en datos estructurados para Financial Services mejoró en 46.7%
Junie de JetBrains evaluó que Gemini 3.5 Flash ofrece una calidad de programación y razonamiento cercana a Gemini Pro mientras mantiene las características de velocidad y costo de Flash
- Frente a la generación Flash anterior, el rendimiento de programación en razonamiento de menor nivel mejoró entre 10–20%

Resultados de benchmarks

Gemini 3.5 Flash se destaca con fuerza como modelo para flujos de trabajo con agentes
Benchmarks de programación
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
Benchmarks de agentes y uso de herramientas
- MCP Atlas: 83.6%, la mejor puntuación de la tabla
- Toolathlon: 56.5%, la mejor puntuación de la tabla
Control de UI y tareas especializadas
- OSWorld-Verified: 78.4%
- Finance Agent v2: 57.9%, la mejor puntuación de la tabla
- GDPval-AA Elo: 1656
Benchmarks multimodales
- CharXiv Reasoning: 84.2%, la mejor puntuación de la tabla
- MMMU-Pro: 83.6%, la mejor puntuación de la tabla
- Blueprint-Bench 2: 33.6%
Contexto largo y razonamiento
- Promedio MRCR v2 128k: 77.3%
- MRCR v2 1M pointwise: 26.6%, superior a Gemini 3 Flash y Gemini 3.1 Pro comparables
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
Los detalles del método de evaluación están en Gemini 3.5 Flash evals methodology

Información del modelo y entornos disponibles

Admite texto, imágenes, video, audio y PDF como entrada
La salida es texto
Contexto y base de conocimiento
- Tokens de entrada: 1M
- Tokens de salida: 64k
- Corte de conocimiento: enero de 2025
Funciones de uso de herramientas
- Llamadas a funciones
- Salida estructurada
- Uso de búsqueda como herramienta
- Ejecución de código
Los entornos disponibles son Gemini App, Gemini API, Gemini Enterprise, Gemini Enterprise Agent Platform, Google AI Mode, Google AI Studio, Google Antigravity y Android Studio
La documentación para desarrolladores está disponible en Gemini API models documentation
La model card está disponible en Gemini 3.5 Flash model card

1 comentarios

GN⁺ 2024-05-15

Comentarios de Hacker News

Actualicé el plugin llm-gemini para ofrecer acceso por CLI a Gemini Flash
pipx install llm # or brew install llm
llm install llm-gemini --upgrade
llm keys set gemini
# paste API key here
llm -m gemini-1.5-flash-latest 'a short poem about otters'
https://github.com/simonw/llm-gemini/releases/tag/0.1a4
Viendo benchmarks como MMLU, esto parece significar en la práctica calidad de Llama 3 70B, con una latencia al primer token de menos de 1 segundo, y aunque no llega al nivel de GPT-4/Opus, sí es un modelo con multimodalidad nativa y 1 millón de contexto
Comparado con montarlo por cuenta propia, no está nada mal, pero entre los modelos de punta la principal diferencia de Gemini era la multimodalidad nativa. Ahora que existe GPT-4o, no tengo claro por qué una organización que no esté atada a GCP elegiría Gemini. Si no vas a procesar libros o películas enteras de una sola vez, los 128k de contexto de GPT-4o parecen suficientes; me pregunto si de verdad hay casos a escala real donde pasar de 1 millón a 100 mil ya no alcance
- 1 millón de tokens permite meter 2,000 páginas de documentos en la ventana de contexto antes siquiera de empezar a chatear
  La fortaleza de Gemini no está en resolver acertijos lógicos, sino en la longitud del contexto. Si estás estudiando para un examen, puedes meter el libro completo al chat; y si tienes que usar un lenguaje muerto para un sistema de pruebas antiguo sobre el que no hay información en internet, puedes cargar un manual de referencia de 1,300 páginas y preguntarle
- No creo que esto tenga calidad de Llama 3 70B
  Intenté meter Gemini 1.5 Pro en varios flujos de trabajo y fue bastante malo. Sobre todo al darle video o audio, las alucinaciones eran increíblemente frecuentes. No sé si un modelo multimodal pequeño con muchas alucinaciones tenga casos de uso prácticos en la mayoría de las empresas; sin confiabilidad, no deja de ser un juguete
- La razón para que una organización no atada a GCP elija Gemini es el precio. Sobre todo en trabajos multimodales donde no hace falta calidad nivel GPT-4
  Incluso comparado con GPT-4o, el modelo multimodal más barato de OpenAI, GPT-3.5-Turbo cuesta 1/10 de GPT-4o, con $0.5 por millón de tokens de entrada, $1.50 por millón de tokens de salida y una ventana de contexto de 16K. Gemini 1.5 Flash cuesta $0.35 por millón de tokens de entrada y $0.53 por millón de tokens de salida para prompts de hasta 128K. Para trabajos multimodales que no requieren inteligencia nivel GPT-4, especialmente procesamiento de documentos, Gemini Flash parece ofrecer casi un 95% de ahorro en costos
- Esto se parece a preguntar por qué necesitas 1GB de Gmail si una cuenta de Yahoo de 50MB parece suficiente
  Ya no tienes que pensarlo dos veces al meter contexto, ni hacer soluciones rebuscadas para manejar los límites. Si la mayoría de tus casos de uso manejan texto más que multimodalidad, la ventaja parece bastante clara
- Hace unos meses intenté usar 1 millón de tokens con Gemini, pero se colgaba o respondía extremadamente lento y al final terminaba fallando
  Lo intenté unas cinco o seis veces y me rendí; ojalá esta versión sea más rápida y estable
Creo que el gran diferenciador aquí es el contexto base de 1 millón de tokens, pero hacen falta mejores benchmarks para medir lo que eso realmente significa
Mi intuición es que, conforme el contexto se hace más largo, se topa con límites sobre cuánta comprensión puede concentrarse en un solo punto de un espacio vectorial, y que hará falta una arquitectura mejor para seleccionar las partes relevantes del contexto
- Si hablamos de uso en producción, la multimodalidad en un modelo que cuesta 4–7% por token frente al modelo multimodal más barato de OpenAI sí es una función importante, no una demo económicamente insostenible
- No entiendo eso de que exista un límite de punto único en un espacio vectorial de cierta dimensionalidad
  No sé si esa información es pública, pero el tamaño de la dimensión de embedding es una decisión de arquitectura. Me parece más un tema de diseño y restricciones de recursos que un límite de principio
- Me pregunto si alguien podría explicar qué significa meter comprensión en un solo punto de un espacio vectorial de forma que lo entienda incluso alguien que conoce por encima los vectores y las bases de datos vectoriales
  Si tienen artículos relacionados o lecturas recomendadas, estaría bueno que las compartieran
- Estamos hablando de atención multi-head, así que hay varios puntos por token
  El número de heads o el tamaño de los vectores key siempre se puede aumentar
- En realidad no es tan bueno. Puedes hacer demos convincentes del tipo “le metí Harry Potter 6.5 y me hizo un mapa SVG que conecta personajes con anotaciones”
  Pero solo aparecen algunos personajes, las anotaciones son pobres y costó como $20. Si lo haces 10 veces, apenas sale lo bastante bien como para engañarte unas cuantas
Es curioso que sea un modelo ligero que solo puede usarse en la nube. Estas megatecnológicas de verdad quieren adueñarse hasta del uso de la IA
Pero no deberíamos permitir que ese sea el futuro
Una cosa en la que OpenAI sí supera a Google es que de verdad publica los precios de su API y además usa nombres relativamente consistentes
Si intentas enumerar los modelos desde la propia API, parece que Google ofrece como 10 modelos por una ruta que en la consola de Google Cloud se llama Generative Language API y en la documentación se llama Gemini API. Hay más de 10 nombres de modelo, pero algunos son solo varios alias del mismo modelo.
De esos, solo 3 tienen información de precio en la página de precios de Gemini API, y 2 de esos 3 están en preview, así que el precio aplicará más adelante. En la Generative Language API de la consola, solo aparece el precio de 1 modelo no preview de esos 3 de la documentación. En la lista de Cloud SKU no existe Generative Language API, sí existe Gemini API, pero otra vez solo para ese mismo modelo. En la lista de precios de Cloud, a la que la página de la consola enlaza como “precio más reciente”, no aparece ni Generative Language API ni Gemini API. No entiendo por qué hay tantas entradas distintas
Ahora que la longitud de contexto parece suficientemente amplia para la mayoría de las tareas, me pregunto por qué seguimos usando subword tokens

Tengo muchísima curiosidad por cómo se compararían los LLM basados en caracteres. Con 2 millones de contexto, el cuello de botella computacional se vuelve menos relevante. Aun así, no tengo claro qué papel juega el tamaño del vocabulario. Como los embeddings ya contienen una gran parte del conocimiento, un vocabulario grande podría ser importante. Por otro lado, usar un vocabulario basado en caracteres podría resolver varios problemas, como los tokens con glitches, la aritmética y la prosodia. Implementar y entrenar correctamente un tokenizador de subpalabras también parece bastante complejo, mientras que a nivel de caracteres debería ser muy simple

El mecanismo de atención aprende con mucha más eficiencia cuando puede prestar atención a tokens más grandes y con más significado
En los servidores de inferencia, una parte considerable de la memoria se va al caché KV, y para acumular embeddings mediante atención hay que relacionar muchos más tokens entre sí, pero cada token tiene un “significado” más débil. Tal vez algún día se llegue a ese punto. En última instancia, harán falta LLM multimodales que entiendan imágenes y sonido hasta el nivel de píxeles y frecuencias, y probablemente se quiera que el texto termine yendo por ese mismo camino
Los caracteres no son los componentes semánticos de las palabras; por lo general, las sílabas cumplen ese papel
Al menos, así lo veo en términos generales. Me parece que este enfoque podría dar más calidad que con el alfabeto romano. Me pregunto si bastaría con comparar cómo los LLM procesan inglés y chino para ponerlo a prueba
Creo que hay dos grandes problemas. Primero, como hay que generar secuencialmente más salida, la latencia empeora
Segundo, estos modelos convierten de manera muy aproximada los tokens en un “significado promedio” en la capa de embeddings, las capas de atención combinan significados, y las capas feedforward ajustan la combinación actual de significados a algo así como arquetipos o prototipos aprendidos. Si se baja de fragmentos de palabras a caracteres, todo eso se vuelve más confuso. Por ejemplo, ya es ambiguo cuál sería el significado promedio de “a”, así que creo que todavía no hay suficientes técnicas para entrenar bien modelos basados en caracteres
En la generación de música con AI, se obtienen resultados mucho mejores con tamaños de vocabulario grandes del orden de 10^6
Es una especulación poco informada, pero tal vez sea porque los transformers no son reconocedores de patrones de propósito general, sino que solo pueden captar patrones en ciertos niveles de granularidad
Google definitivamente parece tener un mejor equipo de branding. Me gustan nombres como Gemini y Gems
“ChatGPT” es un nombre bastante tosco y complicado, y OpenAI se siente como una organización sin rostro. Claro que eso podría cambiar, pero a estas alturas parece bastante tarde. Cuando salieron al mercado, seguramente tenían dinero de sobra para ser más creativos
- “ChatGPT” es un nombre como “Google”. No creo que “Gemini” pueda reemplazar eso
- OpenAI necesita urgentemente asesoría de marketing
  ¿“GPT4o”? ¿En serio? Incluso “GPT4 Omni” es más fácil en una conversación, y además ese es el significado de la “o”. Están subestimando gravemente cuántos usuarios comunes hay
En el benchmark de NYT Connections, Gemini 1.5 Flash obtiene 15.3 puntos
GPT-4 turbo(gpt-4-0125-preview) 31.0, GPT-4o 30.7, GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7, GPT-4 turbo(gpt-4-1106-preview) 28.8, Claude 3 Opus 27.3, GPT-4(0613) 26.1, Llama 3 Instruct 70B 24.0, Gemini Pro 1.5 19.9, Mistral Large 17.7, Gemini 1.5 Flash 15.3, Mistral Medium 15.0, Gemini Pro 1.0 14.2, Llama 3 Instruct 8B 12.3, Mixtral-8x22B Instruct 12.2
- En esa lista hay demasiados modelos de OpenAI con buen rendimiento pero con nombres pésimos
No hay mucha información. Lo están vendiendo como una opción rápida y barata, pero no hay benchmarks de velocidad de inferencia ni comparaciones con modelos que no sean Gemini
Según https://ai.google.dev/pricing, parece estar apenas un poco más barato que gpt3.5-turbo, pero no hay forma de saber cómo se compara en la práctica
Si Gemini Flash es solo un Gemini más rápido, las malas respuestas no mejoran por llegar más rápido
Durante varios meses usé Gemini Pro y ChatGPT 4 en paralelo para programación práctica, arquitectura de sistemas y, a veces, preguntas generales, y ChatGPT fue al menos un 80% más útil. Gemini se equivocaba o divagaba largamente antes de llegar a una respuesta útil, así que no valía la pena usarlo. Lo que yo necesitaba no era más velocidad. Tal vez ahora sí sea más “inteligente”, es decir, más útil
- Quizá, si defines inteligencia como hacer más con menos recursos, esto podría verse como una señal de que tiene algo en el espacio latente que vale la pena escalar