Google DeepMind presenta Gemini 2.0, un nuevo modelo de IA para la era agéntica

(blog.google)

2 puntos por GN⁺ 2024-12-12 | 1 comentarios | Compartir por WhatsApp

Gemini 1.0 marcó un avance con un modelo multimodal capaz de procesar información en texto, video, imagen, audio y código
Gemini 2.0 lleva esta visión más lejos y evoluciona hacia un modelo agéntico que puede comprender el mundo, planificar múltiples pasos y realizar tareas
Gemini 2.0 se integra en productos clave como Google Search, ofreciendo la capacidad de manejar temas más complejos y preguntas de varios pasos

Características principales de Gemini 2.0 Flash

Basado en el éxito de 1.5 Flash, ofrece un rendimiento mejorado y tiempos de respuesta más rápidos
Es 2 veces más rápido que 1.5 Pro y muestra un mejor desempeño en benchmarks clave
Admite no solo entradas multimodales como imagen, video y audio, sino también generación de imágenes mezcladas con texto y síntesis de voz multilingüe
Puede invocar de forma nativa herramientas como Google Search, ejecución de código y funciones personalizadas
Se lanzará primero para desarrolladores y testers de confianza, con una disponibilidad más amplia a inicios del próximo año

Introducción a los proyectos de investigación

Project Astra: asistente de IA de propósito general con capacidades de memoria mejoradas
- Mejoras en funciones como conversación multilingüe, uso de Google Search/Lens/Maps y memoria de sesión de alrededor de 10 minutos
- Sigue evolucionando mientras recopila comentarios de testers de confianza a través de dispositivos Android
Project Mariner: prototipo de investigación que interactúa con el navegador y puede ayudar con tareas complejas
- Alcanzó un alto resultado de 83.5% en el benchmark WebVoyager
- Incorpora medidas de seguridad que piden confirmación antes de que el usuario apruebe la tarea final
Jules: agente de programación impulsado por IA integrado en flujos de trabajo de GitHub
- Ayuda a los desarrolladores en el proceso de resolver issues y ejecutar planes

Áreas de aplicación de los agentes de IA

Colabora con la desarrolladora de juegos Supercell para explorar el uso de agentes de IA dentro de los juegos
Está realizando experimentos para aplicar las capacidades de razonamiento espacial de Gemini 2.0 en el campo de la robótica

Seguridad y desarrollo responsable

Adopta un enfoque gradual y exploratorio en el desarrollo de nueva tecnología
Genera automáticamente detección de riesgos y medidas de mitigación mediante un enfoque de red teaming asistido por IA
En Project Mariner, implementa funciones para proteger a los usuarios de intentos maliciosos de prompt injection
Ofrece controles para proteger la privacidad del usuario y funciones para borrar sesiones

Planes futuros

Planea ampliar las capacidades de Gemini 2.0 a la app de Gemini y a otros productos de Google
Dará la máxima prioridad a la seguridad y la responsabilidad en el camino hacia AGI

1 comentarios

GN⁺ 2024-12-12

Opiniones de Hacker News

El nuevo plugin llm-gemini es compatible con el modelo Gemini 2.0 Flash. Comparten cómo usarlo desde la terminal
- Los modelos Gemini tienen la capacidad de escribir y ejecutar código Python
- No puede hacer llamadas de red, pero se probaron varios enfoques
- Muestra un rendimiento sobresaliente en descripciones visuales
Las grandes empresas tardan en cambiar de rumbo, pero una vez que definen la dirección, pueden lograr cosas que las empresas pequeñas no pueden
- Google tiene mucho talento en este campo y está obteniendo buenos resultados
- Su capacidad para convertir modelos LLM en productos y comercializarlos sigue siendo una incógnita, pero el rendimiento es excelente
Supera a Gemini 1.5 Pro en la mayoría de los benchmarks
- Google DeepMind se está adaptando a la era de los LLM
- Controla directamente el hardware a través de TPU
Se anunció un nuevo SDK. Parece seguir prácticas modernas recomendadas
- Habían estado ofreciendo un endpoint compatible con OpenAI, pero no estaba claro si tendría soporte a largo plazo
- Recomiendan configurar un clúster de Kubernetes y buckets de GCP
Da gusto que el nuevo lanzamiento de Google esté disponible de inmediato
- Gemini Flash 2.0 supera a Gemini Pro 1.5 en problemas de Advent of Code
- Flash 2.0 corrige errores de compilación
La palabra "agentic" se siente desagradable
- Palabras como "versatile", "multifaceted" y "autonomous" parecen más apropiadas
Los modelos Gemini 2 admiten generación de audio e imágenes
- Se espera que la generación de imágenes esté disponible de forma general en enero
- Las tareas de visión por computadora podrán hacerse mediante LLM
Gemini 2 está por delante de 4o en Chatbot Arena
Se piensa que la palabra "agentic" es inapropiada
- En su mayoría es un pipeline compuesto por system prompts y herramientas
Se accedió a Gemini 2.0 Flash desde el navegador Safari del iPhone a través de Google AI Studio
- Identifica con precisión lo que ve a través de la cámara
- Puede leer texto en inglés y japonés
- Identificó visualmente notas de piano, pero no pudo hacerlo solo con el sonido

Google DeepMind presenta Gemini 2.0, un nuevo modelo de IA para la era agéntica

Características principales de Gemini 2.0 Flash

Introducción a los proyectos de investigación

Áreas de aplicación de los agentes de IA

Seguridad y desarrollo responsable

Planes futuros

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News