- Gemini 1.0 marcó un avance con un modelo multimodal capaz de procesar información en texto, video, imagen, audio y código
- Gemini 2.0 lleva esta visión más lejos y evoluciona hacia un modelo agéntico que puede comprender el mundo, planificar múltiples pasos y realizar tareas
- Gemini 2.0 se integra en productos clave como Google Search, ofreciendo la capacidad de manejar temas más complejos y preguntas de varios pasos
Características principales de Gemini 2.0 Flash
- Basado en el éxito de 1.5 Flash, ofrece un rendimiento mejorado y tiempos de respuesta más rápidos
- Es 2 veces más rápido que 1.5 Pro y muestra un mejor desempeño en benchmarks clave
- Admite no solo entradas multimodales como imagen, video y audio, sino también generación de imágenes mezcladas con texto y síntesis de voz multilingüe
- Puede invocar de forma nativa herramientas como Google Search, ejecución de código y funciones personalizadas
- Se lanzará primero para desarrolladores y testers de confianza, con una disponibilidad más amplia a inicios del próximo año
Introducción a los proyectos de investigación
- Project Astra: asistente de IA de propósito general con capacidades de memoria mejoradas
- Mejoras en funciones como conversación multilingüe, uso de Google Search/Lens/Maps y memoria de sesión de alrededor de 10 minutos
- Sigue evolucionando mientras recopila comentarios de testers de confianza a través de dispositivos Android
- Project Mariner: prototipo de investigación que interactúa con el navegador y puede ayudar con tareas complejas
- Alcanzó un alto resultado de 83.5% en el benchmark WebVoyager
- Incorpora medidas de seguridad que piden confirmación antes de que el usuario apruebe la tarea final
- Jules: agente de programación impulsado por IA integrado en flujos de trabajo de GitHub
- Ayuda a los desarrolladores en el proceso de resolver issues y ejecutar planes
Áreas de aplicación de los agentes de IA
- Colabora con la desarrolladora de juegos Supercell para explorar el uso de agentes de IA dentro de los juegos
- Está realizando experimentos para aplicar las capacidades de razonamiento espacial de Gemini 2.0 en el campo de la robótica
Seguridad y desarrollo responsable
- Adopta un enfoque gradual y exploratorio en el desarrollo de nueva tecnología
- Genera automáticamente detección de riesgos y medidas de mitigación mediante un enfoque de red teaming asistido por IA
- En Project Mariner, implementa funciones para proteger a los usuarios de intentos maliciosos de prompt injection
- Ofrece controles para proteger la privacidad del usuario y funciones para borrar sesiones
Planes futuros
- Planea ampliar las capacidades de Gemini 2.0 a la app de Gemini y a otros productos de Google
- Dará la máxima prioridad a la seguridad y la responsabilidad en el camino hacia AGI
1 comentarios
Opiniones de Hacker News
El nuevo plugin
llm-geminies compatible con el modelo Gemini 2.0 Flash. Comparten cómo usarlo desde la terminalLas grandes empresas tardan en cambiar de rumbo, pero una vez que definen la dirección, pueden lograr cosas que las empresas pequeñas no pueden
Supera a Gemini 1.5 Pro en la mayoría de los benchmarks
Se anunció un nuevo SDK. Parece seguir prácticas modernas recomendadas
Da gusto que el nuevo lanzamiento de Google esté disponible de inmediato
La palabra "agentic" se siente desagradable
Los modelos Gemini 2 admiten generación de audio e imágenes
Gemini 2 está por delante de 4o en Chatbot Arena
Se piensa que la palabra "agentic" es inapropiada
Se accedió a Gemini 2.0 Flash desde el navegador Safari del iPhone a través de Google AI Studio