Lanzamiento de Gemini 2.0
(developers.googleblog.com)Gemini 2.0: el modelo de IA de próxima generación para desarrolladores
- Un modelo de IA de vanguardia desarrollado por Google que ayuda a los desarrolladores a construir el futuro de la IA.
- Desde el lanzamiento de Gemini 1.0, millones de desarrolladores han usado Gemini en 109 idiomas a través de Google AI Studio y Vertex AI.
- Con Gemini 2.0 Flash Experimental, es posible desarrollar aplicaciones más inmersivas e interactivas, además de contar con un nuevo agente de código que realiza tareas en nombre del desarrollador.
Gemini 2.0 Flash
- Es un modelo construido sobre el éxito de Gemini 1.5 Flash, que ofrece un rendimiento potente siendo 2 veces más rápido que 1.5 Pro.
- Ofrece nuevas capacidades de salida multimodal y uso nativo de herramientas.
- Introduce la API Live multimodal para crear aplicaciones dinámicas mediante streaming de audio y video en tiempo real.
- Los desarrolladores pueden probar y explorar Gemini 2.0 Flash en fase experimental en Google AI Studio y Vertex AI, y su lanzamiento general está previsto para inicios del próximo año.
Funciones principales:
-
Rendimiento mejorado:
- Es más potente que Gemini 1.5 Pro, mientras mantiene la velocidad y eficiencia del modelo Flash.
- Se mejoró el rendimiento en multimodalidad, texto, código, video, comprensión espacial y razonamiento.
- En particular, la mejora en la comprensión espacial incrementó la precisión al generar cuadros delimitadores para objetos pequeños en imágenes complejas.
-
Nuevos modos de salida:
- Puede generar respuestas unificadas que incluyen texto, audio e imágenes con una sola llamada a la API.
- Aplica marcas de agua invisibles de SynthID a todas las salidas de imagen y audio para reducir problemas de desinformación y atribución errónea.
- Salida de audio nativa multilingüe: permite controlar con precisión la salida de audio de texto a voz eligiendo entre 8 voces de alta calidad, varios idiomas y acentos.
- Salida de imagen nativa: puede generar imágenes y admite edición interactiva en múltiples turnos para mejorarlas a partir de resultados previos. Es útil para crear contenido multimodal, como recetas, combinando texto e imágenes.
-
Uso nativo de herramientas:
- Cuenta con capacidad de uso de herramientas, una función básica para crear experiencias de agentes.
- Puede invocar de forma nativa herramientas como Google Search y ejecución de código, y también usar funciones de terceros mediante llamadas a funciones personalizadas.
- Usar Google Search como herramienta permite ofrecer respuestas más precisas y completas, además de aumentar el tráfico hacia los editores.
- Puede ejecutar múltiples búsquedas en paralelo para encontrar información relevante de varias fuentes al mismo tiempo y mejorar la precisión.
-
API Live multimodal:
- Permite crear aplicaciones multimodales en tiempo real usando entrada de audio y video por streaming desde la cámara o la pantalla.
- Admite patrones de conversación naturales, como interrupciones y detección de actividad de voz.
- Puede integrar múltiples herramientas en una sola llamada a la API para resolver casos de uso complejos.
Avances en la asistencia de código con IA
- La asistencia de código con IA está evolucionando rápidamente, pasando de la simple búsqueda de código a asistentes impulsados por IA integrados en el flujo de trabajo del desarrollador.
- Los agentes de código basados en Gemini 2.0 pueden realizar tareas en nombre del desarrollador.
- 2.0 Flash con herramienta de ejecución de código alcanzó una tasa de éxito de 51.8% en SWE-bench Verified, que evalúa el rendimiento de agentes en tareas reales de ingeniería de software.
Jules: agente de código impulsado por IA
- Es un agente experimental de código impulsado por IA que maneja tareas de programación en Python y Javascript.
- Está integrado con el flujo de trabajo de GitHub y funciona de manera asíncrona para encargarse de corrección de errores y otras tareas que consumen tiempo.
- Jules elabora un plan integral de varios pasos para resolver problemas, modifica múltiples archivos de forma eficiente y prepara pull requests para aplicar directamente los cambios en GitHub.
Ventajas de Jules:
- Mayor productividad: mejora la eficiencia al asignarle a Jules problemas y tareas de programación mediante codificación asíncrona.
- Seguimiento del progreso: permite mantenerse informado con actualizaciones en tiempo real y priorizar tareas que requieren atención.
- Control para el desarrollador: se puede revisar el plan generado por Jules, dar retroalimentación o solicitar ajustes. También se puede revisar el código escrito por Jules e integrarlo al proyecto.
- Actualmente está disponible para un grupo de testers de confianza y se prevé que llegue a más desarrolladores a inicios de 2025.
Agente de ciencia de datos en Colab
- En labs.google/code se ofrece un agente experimental de ciencia de datos con el que se puede subir un conjunto de datos y obtener insights en pocos minutos.
- Usa Gemini 2.0 al integrar las mismas capacidades de agente dentro de Colab.
- Si se describen los objetivos del análisis mediante instrucciones en lenguaje natural, se genera automáticamente un notebook que puede acelerar la investigación y el análisis de datos.
- Ofrece acceso anticipado a través de un programa de testers de confianza, y su lanzamiento más amplio para usuarios de Colab está previsto para la primera mitad de 2025.
Soporte para desarrolladores
- Los modelos Gemini 2.0 ayudan a los desarrolladores a crear apps de IA potentes de forma más rápida y sencilla.
- Está previsto integrar Gemini 2.0 en plataformas como Android Studio, Chrome DevTools y Firebase.
- Gemini 2.0 Flash estará disponible en Gemini Code Assist para mejorar la asistencia de programación en IDE populares como Visual Studio Code, IntelliJ y PyCharm.
1 comentarios
Parece que ya está disponible para usarse en Google AI Studio y Vertex AI.
El rendimiento del modelo y la latencia del audio E2E en vivo son impresionantes.