Lanzamiento de Gemini 2.0

(developers.googleblog.com)

3 puntos por lemonmint 2024-12-12 | 1 comentarios | Compartir por WhatsApp

Gemini 2.0: el modelo de IA de próxima generación para desarrolladores

Un modelo de IA de vanguardia desarrollado por Google que ayuda a los desarrolladores a construir el futuro de la IA.
Desde el lanzamiento de Gemini 1.0, millones de desarrolladores han usado Gemini en 109 idiomas a través de Google AI Studio y Vertex AI.
Con Gemini 2.0 Flash Experimental, es posible desarrollar aplicaciones más inmersivas e interactivas, además de contar con un nuevo agente de código que realiza tareas en nombre del desarrollador.

Gemini 2.0 Flash

Es un modelo construido sobre el éxito de Gemini 1.5 Flash, que ofrece un rendimiento potente siendo 2 veces más rápido que 1.5 Pro.
Ofrece nuevas capacidades de salida multimodal y uso nativo de herramientas.
Introduce la API Live multimodal para crear aplicaciones dinámicas mediante streaming de audio y video en tiempo real.
Los desarrolladores pueden probar y explorar Gemini 2.0 Flash en fase experimental en Google AI Studio y Vertex AI, y su lanzamiento general está previsto para inicios del próximo año.

Funciones principales:

Rendimiento mejorado:
- Es más potente que Gemini 1.5 Pro, mientras mantiene la velocidad y eficiencia del modelo Flash.
- Se mejoró el rendimiento en multimodalidad, texto, código, video, comprensión espacial y razonamiento.
- En particular, la mejora en la comprensión espacial incrementó la precisión al generar cuadros delimitadores para objetos pequeños en imágenes complejas.
Nuevos modos de salida:
- Puede generar respuestas unificadas que incluyen texto, audio e imágenes con una sola llamada a la API.
- Aplica marcas de agua invisibles de SynthID a todas las salidas de imagen y audio para reducir problemas de desinformación y atribución errónea.
- Salida de audio nativa multilingüe: permite controlar con precisión la salida de audio de texto a voz eligiendo entre 8 voces de alta calidad, varios idiomas y acentos.
- Salida de imagen nativa: puede generar imágenes y admite edición interactiva en múltiples turnos para mejorarlas a partir de resultados previos. Es útil para crear contenido multimodal, como recetas, combinando texto e imágenes.
Uso nativo de herramientas:
- Cuenta con capacidad de uso de herramientas, una función básica para crear experiencias de agentes.
- Puede invocar de forma nativa herramientas como Google Search y ejecución de código, y también usar funciones de terceros mediante llamadas a funciones personalizadas.
- Usar Google Search como herramienta permite ofrecer respuestas más precisas y completas, además de aumentar el tráfico hacia los editores.
- Puede ejecutar múltiples búsquedas en paralelo para encontrar información relevante de varias fuentes al mismo tiempo y mejorar la precisión.
API Live multimodal:
- Permite crear aplicaciones multimodales en tiempo real usando entrada de audio y video por streaming desde la cámara o la pantalla.
- Admite patrones de conversación naturales, como interrupciones y detección de actividad de voz.
- Puede integrar múltiples herramientas en una sola llamada a la API para resolver casos de uso complejos.

Avances en la asistencia de código con IA

La asistencia de código con IA está evolucionando rápidamente, pasando de la simple búsqueda de código a asistentes impulsados por IA integrados en el flujo de trabajo del desarrollador.
Los agentes de código basados en Gemini 2.0 pueden realizar tareas en nombre del desarrollador.
2.0 Flash con herramienta de ejecución de código alcanzó una tasa de éxito de 51.8% en SWE-bench Verified, que evalúa el rendimiento de agentes en tareas reales de ingeniería de software.

Jules: agente de código impulsado por IA

Es un agente experimental de código impulsado por IA que maneja tareas de programación en Python y Javascript.
Está integrado con el flujo de trabajo de GitHub y funciona de manera asíncrona para encargarse de corrección de errores y otras tareas que consumen tiempo.
Jules elabora un plan integral de varios pasos para resolver problemas, modifica múltiples archivos de forma eficiente y prepara pull requests para aplicar directamente los cambios en GitHub.

Ventajas de Jules:

Mayor productividad: mejora la eficiencia al asignarle a Jules problemas y tareas de programación mediante codificación asíncrona.
Seguimiento del progreso: permite mantenerse informado con actualizaciones en tiempo real y priorizar tareas que requieren atención.
Control para el desarrollador: se puede revisar el plan generado por Jules, dar retroalimentación o solicitar ajustes. También se puede revisar el código escrito por Jules e integrarlo al proyecto.
Actualmente está disponible para un grupo de testers de confianza y se prevé que llegue a más desarrolladores a inicios de 2025.

Agente de ciencia de datos en Colab

En labs.google/code se ofrece un agente experimental de ciencia de datos con el que se puede subir un conjunto de datos y obtener insights en pocos minutos.
Usa Gemini 2.0 al integrar las mismas capacidades de agente dentro de Colab.
Si se describen los objetivos del análisis mediante instrucciones en lenguaje natural, se genera automáticamente un notebook que puede acelerar la investigación y el análisis de datos.
Ofrece acceso anticipado a través de un programa de testers de confianza, y su lanzamiento más amplio para usuarios de Colab está previsto para la primera mitad de 2025.

Soporte para desarrolladores

Los modelos Gemini 2.0 ayudan a los desarrolladores a crear apps de IA potentes de forma más rápida y sencilla.
Está previsto integrar Gemini 2.0 en plataformas como Android Studio, Chrome DevTools y Firebase.
Gemini 2.0 Flash estará disponible en Gemini Code Assist para mejorar la asistencia de programación en IDE populares como Visual Studio Code, IntelliJ y PyCharm.

1 comentarios

lemonmint 2024-12-12

Parece que ya está disponible para usarse en Google AI Studio y Vertex AI.

El rendimiento del modelo y la latencia del audio E2E en vivo son impresionantes.