El modelo de próxima generación de Google: Gemini 1.5

(blog.google)

9 puntos por GN⁺ 2024-02-16 | 3 comentarios | Compartir por WhatsApp

La semana pasada, Google logró un avance importante al lanzar Gemini 1.0 Ultra, su modelo más capaz hasta ahora, haciendo que los productos de Google sean más útiles
Los desarrolladores y clientes de la nube ya pueden empezar a construir con 1.0 Ultra a través de la API de Gemini en AI Studio y Vertex AI
Los equipos que están empujando la frontera de los modelos con la seguridad como eje central están avanzando rápidamente, y ya están listos para presentar la siguiente generación: Gemini 1.5
Gemini 1.5 muestra mejoras notables en múltiples dimensiones, y 1.5 Pro logra una calidad similar a 1.0 Ultra usando menos cómputo
La nueva generación ofrece un gran avance en comprensión de contexto largo a través de modalidades, aumentando de forma significativa la cantidad de información que el modelo puede procesar y ejecutándose de manera consistente hasta 1 millón de tokens

Presentación de Gemini 1.5

Los nuevos avances en IA tienen el potencial de hacer que la IA sea más útil para miles de millones de personas en los próximos años
Desde la presentación de Gemini 1.0, se ha seguido probando, refinando y mejorando sus capacidades
Gemini 1.5 ofrece un rendimiento notablemente mejorado y representa un cambio en el enfoque, basado en innovaciones de investigación e ingeniería
Utiliza una nueva arquitectura Mixture-of-Experts (MoE) para hacer más eficiente tanto el entrenamiento como el servicio del modelo
Gemini 1.5 Pro es un modelo multimodal de tamaño intermedio, optimizado para una amplia gama de tareas, y ofrece un nivel de desempeño comparable al de 1.0 Ultra, el modelo más grande hasta ahora
Gemini 1.5 Pro ofrece una ventana de contexto estándar de 128,000 tokens, pero los desarrolladores y clientes empresariales pueden probar una ventana de contexto de hasta 1 millón de tokens a través de AI Studio y Vertex AI

Arquitectura eficiente

Gemini 1.5 fue construido sobre investigación de punta en arquitecturas Transformer y MoE
Mientras que un Transformer tradicional opera como una sola red neuronal grande, un modelo MoE se divide en redes neuronales más pequeñas llamadas "expertos"
Según el tipo de entrada, un modelo MoE aprende a activar de forma selectiva solo las rutas de expertos más relevantes dentro de la red neuronal
Esta especialización mejora drásticamente la eficiencia del modelo

Más contexto, funciones más útiles

La "ventana de contexto" de un modelo de IA está compuesta por los tokens usados para procesar información
Cuanto más grande es la ventana de contexto de un modelo, más información puede procesar a la vez, lo que hace que sus resultados sean más consistentes, relevantes y útiles
Gracias a innovaciones en aprendizaje automático, fue posible ampliar la capacidad de la ventana de contexto de 1.5 Pro mucho más allá de los 32,000 tokens originales de Gemini 1.0
Ahora 1.5 Pro puede procesar enormes volúmenes de información de una sola vez, y en investigación se ha probado con éxito hasta 10 millones de tokens

Mejoras de rendimiento

Al evaluarlo en un panel integral que incluye texto, código, imágenes, audio y video, 1.5 Pro supera a 1.0 Pro en el 87% de los benchmarks usados para el desarrollo de modelos grandes de lenguaje (LLMs)
1.5 Pro mantiene un alto nivel de rendimiento incluso con el aumento en la ventana de contexto

Pruebas exhaustivas de ética y seguridad

En línea con los principios de IA y políticas sólidas de seguridad, se garantiza que el modelo pase por pruebas exhaustivas de ética y seguridad
Desde el lanzamiento de 1.0 Ultra, el equipo ha seguido refinando el modelo para hacerlo seguro de cara a un lanzamiento más amplio
Antes del lanzamiento de 1.5 Pro, se realizaron evaluaciones extensas en áreas como seguridad de contenido y daños por representatividad, y estas pruebas seguirán ampliándose de forma continua

Construir y experimentar con los modelos Gemini

Se ha establecido el objetivo de ofrecer de forma responsable la nueva generación de modelos Gemini a miles de millones de personas, desarrolladores y empresas en todo el mundo
Desde hoy, una vista previa limitada de 1.5 Pro está disponible para desarrolladores y clientes empresariales a través de AI Studio y Vertex AI
Cuando el modelo esté listo para un lanzamiento más amplio, se presentará 1.5 Pro con una ventana de contexto estándar de 128,000 tokens
Los primeros testers pueden probar gratis la ventana de contexto de 1 millón de tokens durante el periodo de pruebas, aunque esta función experimental puede implicar una mayor latencia

Opinión de GN⁺

Lo más importante de Gemini 1.5 es que aumenta de forma significativa la cantidad de información que un modelo de IA puede procesar, permitiéndole realizar tareas más complejas y diversas
Este modelo lleva el avance de la IA a una nueva dimensión y ayudará a desarrolladores y empresas a crear modelos y aplicaciones más útiles
Es un ejemplo de cómo la investigación y la innovación de Google están dando forma al futuro de la tecnología de IA, y ofrece una mirada interesante sobre cómo esta tecnología podría integrarse en nuestra vida diaria en el futuro

3 comentarios

yoo04233 2024-02-17

De las IA que uso ahora mismo, la que más utilizo es GPT-4; cada vez más la tecnología de IA se va a integrar en la vida cotidiana.

riskatcher 2024-02-16

Parece que Google está bastante presionado; siguen filtrando si será mejor o peor incluso antes del lanzamiento, y Ultra todavía ni siquiera tiene un buen soporte multilingüe, está al nivel de necesitar un prompt genie de OpenAI de hace un año.

GN⁺ 2024-02-16

Opiniones de Hacker News

Resumen de comentarios sobre el whitepaper:
- Falta de explicación sobre cómo llegaron a un contexto de 10M de tokens: El whitepaper no menciona cómo lograron alcanzar un contexto de 10M de tokens.
- Reducción de la complejidad del stack de RAG: La capacidad de contexto de 10M elimina de inmediato la mayor parte de la complejidad de los stacks de RAG, lo que simplifica muchísimo muchos casos de uso.
- Superioridad de 1.5 Pro: Deja claro que 1.5 Pro generalmente es mejor que GPT-4, lo cual resulta interesante como nuevo líder de LLM-as-judge.
- Alta capacidad de 1.5 Ultra: 1.5 Ultra parece ser extremadamente capaz, y 1.5 Pro ya es muy capaz. Obtuvo puntuaciones altas en varias pruebas, y se señala que las pruebas con puntajes bajos en su mayoría terminan siendo falsos negativos.
- Potencial de 1.5 Pro: 1.5 Pro debería establecer el estándar para tareas de flujo de trabajo. 1.0 Ultra es muy capaz, pero algo lento. Los modelos abiertos que lo usen probablemente mejorarán mucho en calidad.
- Revisión de pruebas de programación: Ya es momento de volver a intentar las pruebas de programación que exigen escribir módulos nuevos.
- Curiosidad sobre cómo llegaron a 10M de contexto: Por lo que sugieren las pruebas de "needle" en audio y video, que muestran un recuerdo perfecto a lo largo de 10M de tokens, se especula que debe haber alguna forma de compresión y no solo un único vector ultralargo.
Información interesante del informe técnico:
- Problema de filtración de datos en el benchmark HumanEval: HumanEval es el benchmark abierto estándar de la industria para evaluación, pero no es fácil controlar filtraciones accidentales desde páginas web y repositorios de código abierto. El análisis de filtración de datos de prueba de Gemini 1.0 Ultra muestra que continuar el preentrenamiento con un dataset que incluye una sola época del split de prueba de HumanEval mejora mucho la puntuación, de 74.4% a 89.0%. Este aumento persiste incluso cuando los ejemplos están incluidos en otros formatos, como JSON y HTML. Se pide a los investigadores minimizar el riesgo de filtración manteniendo siempre un pequeño conjunto propio de funciones de prueba realmente reservadas para evaluar la capacidad de programación de estos modelos. El benchmark Natural2Code fue creado para cerrar esa brecha; sigue el mismo formato que HumanEval, pero con prompts y conjuntos de prueba distintos.
Rendimiento destacable en el informe técnico:
- Capacidad de contexto largo de Gemini 1.5 Pro: El estudio de la capacidad de contexto largo de Gemini 1.5 Pro encontró mejoras sostenidas en la predicción del siguiente token y una recuperación casi perfecta (>99%) hasta al menos 10M de tokens.
Nueva capacidad de los modelos de lenguaje a gran escala:
- Traducción del idioma Kalamang: Al modelo se le dio un manual gramatical del idioma Kalamang, que tiene menos de 200 hablantes en todo el mundo, y aprendió a traducir del inglés al Kalamang a un nivel similar al de una persona que aprende a partir del mismo material.
Falta de confianza en Google:
- Dudas sobre los anuncios de Google: Como un video promocional editado que lanzaron antes no mostraba el producto real, no confío en nada de lo que saque Google a menos que sea un formulario de entrada que pueda probar de inmediato.
Dudas sobre Demis Hassabis:
- Escepticismo por sus estrategias de promoción pasadas: Hay una visión escéptica sobre Demis Hassabis en cuanto a promoción desde sus tiempos desarrollando videojuegos. "Infinite Polygons" se volvió un chiste en la industria, y su juego Republic es visto como un fracaso poco interesante.
Lo revolucionario de 10M de tokens:
- Correlación entre tamaño del prompt y calidad: 10M de tokens cambia las reglas del juego; si no hay una caída notable entre el tamaño del prompt y la calidad, sería algo muy revolucionario. Haría que se empezara a pensar en el prompt mismo no como una entrada estática, sino como una especie de runtime.
Experiencia negativa con Gemini:
- Rendimiento deficiente de Gemini: Después de probar Gemini, el rendimiento fue muy decepcionante. Funciona mucho peor que ChatGPT o que un llama local. No hay confianza en la estrategia de IA de Google, y se asume que todo el talento realmente capaz se fue a OpenAI o Anthropic.
Diferencia entre Pro y Ultra:
- Tamaño de la ventana de contexto: Las ventanas de contexto actuales, de más de 100k tokens y hasta un millón, abren funciones muy interesantes. RAG puede ser muy potente con esa cantidad de información.
Innovación en el tamaño de la ventana de contexto:
- Resolución del problema de los tokens de entrada: Si realmente funciona como se anuncia, reemplazaría la necesidad de RAG o de ajuste fino para ciertos análisis. Hay curiosidad por saber cómo resolvieron el problema de llenar los tokens de entrada.