El modelo de próxima generación de Google: Gemini 1.5
(blog.google)- La semana pasada, Google logró un avance importante al lanzar Gemini 1.0 Ultra, su modelo más capaz hasta ahora, haciendo que los productos de Google sean más útiles
- Los desarrolladores y clientes de la nube ya pueden empezar a construir con 1.0 Ultra a través de la API de Gemini en AI Studio y Vertex AI
- Los equipos que están empujando la frontera de los modelos con la seguridad como eje central están avanzando rápidamente, y ya están listos para presentar la siguiente generación: Gemini 1.5
- Gemini 1.5 muestra mejoras notables en múltiples dimensiones, y 1.5 Pro logra una calidad similar a 1.0 Ultra usando menos cómputo
- La nueva generación ofrece un gran avance en comprensión de contexto largo a través de modalidades, aumentando de forma significativa la cantidad de información que el modelo puede procesar y ejecutándose de manera consistente hasta 1 millón de tokens
Presentación de Gemini 1.5
- Los nuevos avances en IA tienen el potencial de hacer que la IA sea más útil para miles de millones de personas en los próximos años
- Desde la presentación de Gemini 1.0, se ha seguido probando, refinando y mejorando sus capacidades
- Gemini 1.5 ofrece un rendimiento notablemente mejorado y representa un cambio en el enfoque, basado en innovaciones de investigación e ingeniería
- Utiliza una nueva arquitectura Mixture-of-Experts (MoE) para hacer más eficiente tanto el entrenamiento como el servicio del modelo
- Gemini 1.5 Pro es un modelo multimodal de tamaño intermedio, optimizado para una amplia gama de tareas, y ofrece un nivel de desempeño comparable al de 1.0 Ultra, el modelo más grande hasta ahora
- Gemini 1.5 Pro ofrece una ventana de contexto estándar de 128,000 tokens, pero los desarrolladores y clientes empresariales pueden probar una ventana de contexto de hasta 1 millón de tokens a través de AI Studio y Vertex AI
Arquitectura eficiente
- Gemini 1.5 fue construido sobre investigación de punta en arquitecturas Transformer y MoE
- Mientras que un Transformer tradicional opera como una sola red neuronal grande, un modelo MoE se divide en redes neuronales más pequeñas llamadas "expertos"
- Según el tipo de entrada, un modelo MoE aprende a activar de forma selectiva solo las rutas de expertos más relevantes dentro de la red neuronal
- Esta especialización mejora drásticamente la eficiencia del modelo
Más contexto, funciones más útiles
- La "ventana de contexto" de un modelo de IA está compuesta por los tokens usados para procesar información
- Cuanto más grande es la ventana de contexto de un modelo, más información puede procesar a la vez, lo que hace que sus resultados sean más consistentes, relevantes y útiles
- Gracias a innovaciones en aprendizaje automático, fue posible ampliar la capacidad de la ventana de contexto de 1.5 Pro mucho más allá de los 32,000 tokens originales de Gemini 1.0
- Ahora 1.5 Pro puede procesar enormes volúmenes de información de una sola vez, y en investigación se ha probado con éxito hasta 10 millones de tokens
Mejoras de rendimiento
- Al evaluarlo en un panel integral que incluye texto, código, imágenes, audio y video, 1.5 Pro supera a 1.0 Pro en el 87% de los benchmarks usados para el desarrollo de modelos grandes de lenguaje (LLMs)
- 1.5 Pro mantiene un alto nivel de rendimiento incluso con el aumento en la ventana de contexto
Pruebas exhaustivas de ética y seguridad
- En línea con los principios de IA y políticas sólidas de seguridad, se garantiza que el modelo pase por pruebas exhaustivas de ética y seguridad
- Desde el lanzamiento de 1.0 Ultra, el equipo ha seguido refinando el modelo para hacerlo seguro de cara a un lanzamiento más amplio
- Antes del lanzamiento de 1.5 Pro, se realizaron evaluaciones extensas en áreas como seguridad de contenido y daños por representatividad, y estas pruebas seguirán ampliándose de forma continua
Construir y experimentar con los modelos Gemini
- Se ha establecido el objetivo de ofrecer de forma responsable la nueva generación de modelos Gemini a miles de millones de personas, desarrolladores y empresas en todo el mundo
- Desde hoy, una vista previa limitada de 1.5 Pro está disponible para desarrolladores y clientes empresariales a través de AI Studio y Vertex AI
- Cuando el modelo esté listo para un lanzamiento más amplio, se presentará 1.5 Pro con una ventana de contexto estándar de 128,000 tokens
- Los primeros testers pueden probar gratis la ventana de contexto de 1 millón de tokens durante el periodo de pruebas, aunque esta función experimental puede implicar una mayor latencia
Opinión de GN⁺
- Lo más importante de Gemini 1.5 es que aumenta de forma significativa la cantidad de información que un modelo de IA puede procesar, permitiéndole realizar tareas más complejas y diversas
- Este modelo lleva el avance de la IA a una nueva dimensión y ayudará a desarrolladores y empresas a crear modelos y aplicaciones más útiles
- Es un ejemplo de cómo la investigación y la innovación de Google están dando forma al futuro de la tecnología de IA, y ofrece una mirada interesante sobre cómo esta tecnología podría integrarse en nuestra vida diaria en el futuro
3 comentarios
De las IA que uso ahora mismo, la que más utilizo es GPT-4; cada vez más la tecnología de IA se va a integrar en la vida cotidiana.
Parece que Google está bastante presionado; siguen filtrando si será mejor o peor incluso antes del lanzamiento, y Ultra todavía ni siquiera tiene un buen soporte multilingüe, está al nivel de necesitar un prompt genie de OpenAI de hace un año.
Opiniones de Hacker News
Resumen de comentarios sobre el whitepaper:
Información interesante del informe técnico:
Rendimiento destacable en el informe técnico:
Nueva capacidad de los modelos de lenguaje a gran escala:
Falta de confianza en Google:
Dudas sobre Demis Hassabis:
Lo revolucionario de 10M de tokens:
Experiencia negativa con Gemini:
Diferencia entre Pro y Ultra:
Innovación en el tamaño de la ventana de contexto: