2 puntos por GN⁺ 3 시간 전 | 1 comentarios | Compartir por WhatsApp
  • Gemini 3.5 Flash es el primer modelo Gemini 3.5 que combina inteligencia y capacidad de ejecución de nivel frontier, orientado a tareas de larga duración en agentes y programación
  • Mantiene la velocidad de la serie Flash, mientras supera a Gemini 3.1 Pro en Terminal-Bench 2.1 con 76.2% y en GDPval-AA con 1656 Elo
  • Según los tokens de salida procesados por segundo, es 4 veces más rápido que otros modelos frontier y, en muchos casos, cuesta menos de la mitad, por lo que resulta ventajoso para tareas largas con agentes
  • Realiza tareas de múltiples pasos en Antigravity y AI Studio, como desarrollar apps, migrar código legado a Next.js, implementar juegos a partir de papers y generar propuestas de UX
  • Se ofrece como modelo predeterminado en la app de Gemini y en el AI Mode de Search; también se aplica a Gemini Spark y a flujos de trabajo de socios empresariales, mientras que 3.5 Pro está previsto para el próximo mes

Presentación de Gemini 3.5 y alcance de disponibilidad

  • Gemini 3.5 es la familia de modelos más reciente que combina inteligencia y capacidad de ejecución de nivel frontier, y se posiciona como una base para crear agentes más capaces
  • El primer modelo lanzado es 3.5 Flash, que ofrece rendimiento de nivel frontier en agentes y programación, con foco en tareas complejas y largas que tienen utilidad real
  • 3.5 Flash está disponible a través de varios productos de Google y herramientas para desarrolladores
    • Está disponible para usuarios generales a través de la app de Gemini y el AI Mode de Google Search
    • Los desarrolladores pueden usarlo mediante Google Antigravity, la Gemini API en Google AI Studio y Android Studio
    • Se ofrece a empresas mediante Gemini Enterprise Agent Platform y Gemini Enterprise
  • 3.5 Pro también está en desarrollo, ya se usa internamente y está previsto para el próximo mes

Rendimiento de 3.5 Flash

  • 3.5 Flash mantiene la velocidad de la serie Flash y, al mismo tiempo, ofrece inteligencia que compite con grandes modelos insignia en múltiples dimensiones
  • Es el modelo de programación orientado a agentes más potente de Google y supera a Gemini 3.1 Pro en benchmarks difíciles de programación y agentes
    • Terminal-Bench 2.1: 76.2%
    • GDPval-AA: 1656 Elo
    • MCP Atlas: 83.6%
    • Comprensión multimodal CharXiv Reasoning: 84.2%
  • En tokens de salida procesados por segundo, es 4 veces más rápido que otros modelos frontier
  • En los indicadores de Artificial Analysis aparece en el cuadrante superior derecho, lo que lo muestra como un modelo que reduce el compromiso entre calidad y latencia

Trabajo de agentes a gran escala

  • Gracias al equilibrio entre velocidad y rendimiento, 3.5 Flash es adecuado para tareas largas con agentes
  • Ayuda a completar en menos tiempo tareas que antes tomaban días a los desarrolladores y semanas a los auditores, y en muchos casos es posible hacerlo a menos de la mitad del costo frente a otros modelos frontier
  • Permite planear, construir e iterar rápidamente durante la resolución de problemas reales
    • Desarrollo de nuevas aplicaciones
    • Mantenimiento de bases de código
    • Apoyo en la preparación de documentos financieros
  • Al combinarse con el harness de Antigravity actualizado, se convierte en un motor de ejecución que despliega subagentes colaborativos para abordar problemas a gran escala en casos de uso exigentes
  • Ejecuta de forma confiable flujos de trabajo de múltiples pasos y tareas de programación bajo supervisión, manteniendo rendimiento de nivel frontier

Ejemplos de uso con Antigravity y AI Studio

  • 3.5 Flash ejecuta en Antigravity flujos de trabajo de múltiples pasos para renombrar y clasificar automáticamente activos no estructurados según criterios dinámicos
  • En Antigravity, usa dos agentes para sintetizar el paper de AlphaZero y programar un juego completamente jugable en 6 horas
  • Convierte una base de código legado compleja a Next.js con el harness de Antigravity
  • En Antigravity, usa subagentes para generar nuevos paisajes urbanos y desarrollar un juego con un rápido ciclo de auto-mejora entre dos agentes: constructor y jugador
  • Sobre la sólida base multimodal de Gemini 3, 3.5 Flash genera interfaces web y gráficos más ricos e interactivos
    • En AI Studio, genera animaciones interactivas para un paper de investigación en IA
    • En AI Studio, convierte descripciones de texto simples en hardware interactivo
    • En AI Studio, ejecuta múltiples conceptos en paralelo para crear un concepto completo de branding para una recaudación escolar
    • En AI Studio, genera distintos enfoques de UX para un flujo de checkout en 60 segundos

Uso empresarial y para desarrolladores

  • Las capacidades de agente de 3.5 Flash ya se están usando en flujos de trabajo de desarrolladores y empresas
  • Durante el desarrollo de la familia de modelos Gemini 3.5, se identificaron junto con socios de la industria los puntos donde aparecen trabajo repetitivo y complejidad
  • Los socios ya están viendo resultados, desde la automatización de flujos de trabajo de varias semanas en banca y fintech hasta ayudar a equipos de ciencia de datos a encontrar insights en entornos de datos complejos
  • Shopify

    • Ejecuta subagentes en paralelo para analizar datos complejos a largo plazo y realizar predicciones de crecimiento de comerciantes más precisas a escala global
  • Macquarie Bank

    • Está piloteando una forma de acelerar la incorporación de clientes razonando sobre documentos complejos de más de 100 páginas, buscando información relevante y generando recomendaciones confiables con baja latencia
  • Salesforce

    • Integra 3.5 Flash en Agentforce para automatizar tareas empresariales complejas con múltiples subagentes que mantienen el contexto y ejecutan llamadas a herramientas complejas de varios turnos
  • Ramp

    • Habilita un OCR más inteligente y confiable al combinar comprensión multimodal de facturas complejas con razonamiento sobre patrones históricos
  • Xero

    • Permite que agentes administren de forma autónoma flujos de trabajo complejos de varias semanas, como la identificación de proveedores y la recopilación de información para formularios fiscales 1099, haciendo posible automatizar tareas administrativas repetitivas en pequeñas empresas
  • Databricks

    • Usa flujos de trabajo orientados a agentes para monitorear y buscar información en tiempo real, razonar sobre grandes conjuntos de datos, diagnosticar problemas y sugerir correcciones y soluciones

Aplicación en agentes personales de IA y Search

  • 3.5 Flash se convierte en el modelo predeterminado en la app de Gemini y en el AI Mode de Search en todo el mundo
  • En Google I/O se presentaron nuevas funciones que aplican las capacidades de agente de 3.5 Flash a la vida cotidiana
  • Gemini Spark es un agente personal de IA que usa 3.5 Flash
    • Funciona las 24 horas del día
    • Navega la vida digital del usuario y actúa en su nombre según sus instrucciones
    • Comienza a lanzarse desde hoy para testers de confianza
    • Estará disponible en beta la próxima semana para suscriptores de Google AI Ultra en Estados Unidos
  • Las capacidades mejoradas de programación orientada a agentes de 3.5 Flash ofrecen experiencias más inteligentes en Search
    • Introduce un nuevo agente de información que trabaja 24 horas para el usuario
    • Hace posibles experiencias de UI generativa más dinámicas
    • Search usa 3.5 Flash para generar materiales visuales interactivos que explican el patrón Gyroid

Medidas de seguridad

  • Gemini 3.5 fue desarrollado conforme al Frontier Safety Framework
  • Se reforzaron las medidas de seguridad en ciberseguridad y CBRN, reduciendo la probabilidad de generar contenido dañino y de rechazar por error respuestas a consultas seguras
  • Se aplicaron nuevas técnicas más avanzadas de entrenamiento y mitigación en seguridad
  • Incluye herramientas de interpretabilidad que ayudan a revisar y comprender el razonamiento interno de la IA antes de entregar respuestas

1 comentarios

 
GN⁺ 3 시간 전
Comentarios en Hacker News
  • El pelícano está bastante decente: https://github.com/simonw/llm-gemini/issues/133#issuecomment...
    Aunque la bicicleta no tanto. Le falta la barra entre el pedal y la rueda trasera, y el otro cuadro también está enredado de forma rara
    Además es caro. Ese pelícano salió en 13 centavos: https://www.llm-prices.com/#it=11&ot=14403&sel=gemini-3.5-fl...

    • Ese pelícano parece haber venido a Miami por una conferencia de cripto
    • Esto muestra perfectamente un fenómeno que ya se sentía en el progreso de los modelos de lenguaje grandes. Cuando les pides mejorar un SVG así, no corrigen la barra faltante ni las extremidades desconectadas; solo agregan más elementos
      Este ejemplo claramente mejoró mucho y tiene una cantidad ridícula de detalle, pero la forma básica del cuadro sigue estando mal. En páginas web aparece el mismo patrón: agregan más cosas, como botones
      Incluso metí el SVG roto del pelícano en un modelo de imágenes para que encontrara los defectos, y aun así no logró detectar los elementos rotos
    • Omitir el chainstay es un resultado muy común cuando le pides a cualquier persona que dibuje una bicicleta
      https://www.gianlucagimini.it/portfolio-item/velocipedia/

      most ended up drawing something that was pretty far off from a regular men’s bicycle

    • Siento que captura bastante bien esa vibra tan propia de Google: medio poco cool, pero tratando de seguir pareciendo relevante para la gente joven
    • Ese sol se parece muchísimo al que aparece en el fondo de otro post destacado de HN sobre el museo de sistemas operativos: https://news.ycombinator.com/item?id=48195009
  • Precio por millón de tokens de entrada/salida:
    Gemini 2.5 Flash: $0.30/$2.50
    Gemini 3.0 Flash Preview: $0.50/$3.00
    Gemini 3.5 Flash: $1.50/$9.00
    La dirección del precio es interesante. No recuerdo haber visto un aumento de 3x en el modelo inmediatamente siguiente del mismo tamaño, y también da risa que 3 solo haya tenido Preview
    3.5 Flash cuesta parecido a Gemini 2.5 Pro, que estaba en $1.25/$10

    • Eso subestima el aumento de costo. 3.5 Flash también usa más tokens. Según artificialanalysis.ai, la diferencia de costo al correr la evaluación completa parece un precio más realista:
      Gemini 2.5 Flash (27 puntos): $172 (1.0x)
      Gemini 2.5 Pro (35 puntos): $649 (3.8x)
      Gemini 3.0 Flash (46 puntos): $278 (1.6x)
      Gemini 3.5 Flash (55 puntos): $1,552 (9.0x, o 2.4x frente a 2.5 Pro)
      Es un aumento brutal. Comparado con Gemini 3.0 Flash, es 5.6x
    • Probablemente nunca tuvieron intención de seguir ofreciendo un modelo barato. Es la forma natural de empezar a apretar una vez que ya hay gente construyendo servicios encima de la API
      Por eso de verdad tiene sentido poner una capa de abstracción que no te ate al proveedor. Si usas Kotlin, Koog está excelente
    • Hace falta otro momento DeepSeek. Si no, usar IA se va a volver difícil para la gente común y terminará siendo algo que solo las grandes empresas pueden pagar
    • Si Google de verdad está ejecutando inferencia más barata que otros gracias a los TPU, esto se siente como una señal de peligro. Tal vez servir modelos de lenguaje grandes con ganancias sea más difícil de lo que parece
      O quizá creen que, como los benchmarks son buenos, pueden subir el precio. Pero todavía no parece que tengan suficiente cuota de mercado como para justificar esa decisión
    • ¿No está marcado 3.5 Flash como Stable y no como Preview? ¿Leí mal?
      https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flas...
  • Vale la pena notar que Google marcó este modelo como Stable y no como Preview. Eso es inusual comparado con su ritmo reciente de lanzamientos
    Sumado al aumento de precio de 3x, da la impresión de que el precio de Flash no es una medida temporal para revertir después, sino más bien el piso de largo plazo que Google quiere
    Aun así, todavía es difícil saber si esto es solo Google leyendo el ambiente o si toda la industria está reajustando en silencio la línea base de la inferencia barata

  • Create animated SVG of a frog on a boat rowing through jungle river. Single page self contained HTML page with SVG
    3.5 Flash: Thinking Medium - 7516 tokens
    https://gistpreview.github.io/?5c9858fd2057e678b55d563d9bff0...
    3.5 Flash: Thinking High - 7280 tokens
    https://gistpreview.github.io/?1cab3d70064349d08cf5952cdc165...
    3.1 Pro - 28,258 tokens
    https://gistpreview.github.io/?6bf3da2f80487608b9525bce53018...
    3.1 se quedó pensando 3 minutos para generar, pero fue el único modelo que realmente metió bien el movimiento de animación

  • ¿Ya estoy realmente viejo si cuando alguien dice "Flash" lo primero que pienso es "considera HTML5 en su lugar"?

    • Casi nada de lo que hacía tan divertida la cultura Flash pasó a HTML5
    • Flash Designer era realmente bueno. Una de las cosas en las que la web retrocedió un poco fue en las herramientas RAD de los 90 y 2000
    • ¡Jóvenes!
      Flash, ah, ah, saviour of the universe. Flash, ah, ah, he'll save every one of us!
      Desde hace tantos años que ya ni sé cuántos, siempre pienso en esto cada vez que escucho la palabra "flash"
  • Corte de conocimiento: enero de 2025
    Última actualización: mayo de 2026
    Esto me da una sensación bastante ominosa con respecto a ese retraso

    • Al menos en algunos casos, parece que van en la dirección de entrenar con más datos sintéticos y datos seleccionados con mucho rigor. En especial los modelos pequeños no tienen espacio para guardar todo el mundo dentro de unas decenas o cientos de GB de pesos del modelo, así que no pueden ampliar al extremo su amplitud de conocimiento
      Entonces, para obtener razonamiento de mayor calidad, hay que concentrar el entrenamiento y los datos tienen que ser de altísima calidad y densidad
      Si el uso de herramientas es fuerte, que el modelo use datos viejos quizá no importe tanto. Puede buscar información reciente. Pero hoy la mayoría de los modelos no lo hacen salvo que los empujes un poco
      Según entiendo, toda la familia Qwen 3 parte del mismo modelo base y luego solo hace ajuste fino/post-entrenamiento para mejorar varias métricas. Puede que toda la familia Gemini 3 también sea igual, y que justo ahora estén entrenando modelos basados en Gemini 4 con conocimiento actualizado al mismo tiempo
    • No deberíamos hacer que el modelo saque hechos de los pesos. Hay que anclarlo a una fuente de datos real
    • ¿Puedes explicar qué significa eso?
    • Yo pensaba que eso era algo que Google había elegido
  • Uso el plan google ai pro y probé 3.5 Flash en Antigravity, pero me acabé toda la cuota en solo dos prompts. Si no es un bug, el nivel es realmente inusable

    • Ayer o antier Google bajó la cuota de AI Pro de 33x el uso estándar a 4x
      Por el ambiente en el subreddit de Gemini, parece que la reducción fue fuerte comparado con antes. Yo también probablemente cancele AI Pro
      Con esta actualización también rompieron la app. Si editas un mensaje, la app se cae cada vez. Y eso incluso usándola en un Pixel
  • El reloj de 2000 tokens de Gemini 3.5 Flash no está nada mal. https://clocks.brianmoore.com/

  • Un aumento de precio de 3x por un modelo casi igual. Se suponía que la IA iba a volverse más barata y estar en todos lados

    • Supongo que querían decir que se iba a esparcir por todos lados como la moda del crack
    • Si confías en los benchmarks, también podrías verlo como tres cuartos del precio de 3.1 Pro
  • El precio es absurdo
    Seguro que Gemini 3.5 Pro también va a subir de precio. ¿12 x 5 = 60?
    Google parece querer que usemos modelos chinos