Chameleon: el nuevo LLM multimodal de Meta

(arxiv.org)

4 puntos por GN⁺ 2024-05-23 | 2 comentarios | Compartir por WhatsApp

Chameleon es una familia de modelos multimodales mixtos basados en tokens de fusión temprana que puede comprender y generar imágenes y texto en un orden arbitrario
Esta familia de modelos incluye un enfoque de entrenamiento estable, una receta de alineación y parámetros arquitectónicos para una configuración multimodal mixta basada en tokens de fusión temprana
Desde el inicio adoptó un enfoque de entrenamiento estable, y la receta de alineación y los parámetros arquitectónicos fueron diseñados para ajustarse a una configuración multimodal mixta basada en tokens de fusión temprana
Fue evaluado en tareas integrales como respuesta visual a preguntas, generación de pies de imagen, generación de texto, generación de imágenes y generación multimodal mixta de formato largo
- Muestra rendimiento de vanguardia en la tarea de generación de pies de imagen
- En tareas solo de texto, supera a Llama-2 y muestra un rendimiento competitivo frente a modelos como Mixtral 8x7B y Gemini-Pro
- Tiene excelentes capacidades de generación de imágenes y puede realizar diversas tareas con un solo modelo
- En la evaluación de generación multimodal mixta de formato largo, cuando el prompt o la salida incluyen secuencias mixtas de imágenes y texto, iguala o supera el rendimiento de modelos mucho más grandes como Gemini Pro y GPT-4V
Chameleon representa un avance importante en el modelado unificado de documentos completamente multimodales
Esto establece un nuevo estándar para modelos multimodales unificados con capacidades integrales en diversas tareas

Opinión de GN⁺

Los modelos multimodales pueden procesar simultáneamente distintos tipos de entrada, por lo que son muy útiles en aplicaciones reales. Por ejemplo, ofrecen grandes ventajas en sistemas de respuesta visual a preguntas o en la generación de pies de imagen.
Chameleon muestra un rendimiento competitivo en comparación con Llama-2, Mixtral 8x7B y Gemini-Pro. Esto demuestra su flexibilidad y desempeño en distintas tareas.
Al introducir una nueva tecnología, es necesario considerar la estabilidad del modelo, el costo de entrenamiento y los requisitos de datos, entre otros factores. En el caso de Chameleon, el enfoque de fusión temprana es estable, pero su aplicación práctica puede requerir suficientes datos y recursos de cómputo.
El rendimiento en generación multimodal mixta de largo plazo es muy interesante. Esto abre grandes posibilidades para la generación de documentos complejos o la producción de contenido multimedia.
En la industria existen diversos modelos multimodales, como GPT-4 de OpenAI y BERT de Google. Es importante comparar las características, ventajas y desventajas de cada modelo para elegir el más adecuado.

2 comentarios

fastkoder 2024-06-19

Checkpoints del modelo: https://ai.meta.com/resources/models-and-libraries/…
Blog: https://ai.meta.com/blog/meta-fair-research-new-releases/
Repositorio de GitHub: https://github.com/facebookresearch/chameleon
¡Publicado hace 8 horas!

GN⁺ 2024-05-23

Opiniones en Hacker News

Resumen de comentarios de Hacker News

Investigación fundamental y el problema de softmax
- La investigación fundamental es muy interesante. En particular, resulta impresionante el análisis sobre la dificultad de usar softmax en distintos espacios de tokenización.
- El problema se vuelve más evidente en el modelo de 34B. Esto recuerda que entrenar modelos a gran escala genera nuevos problemas.
Multimodalidad y Mirasol3B
- En comparación con Mirasol3B, no soporta audio. El Mirasol3B de Google hizo posible la demo al convertir audio en imágenes.
- Meta también avanza en la dirección de la multimodalidad. Es muy probable que el nuevo modo de voz de GPT use la misma arquitectura.
- Cuando se agregan nuevas modalidades, mejora el rendimiento del modelo con el mismo tamaño de parámetros.
Tiempo y costo de entrenamiento
- El tiempo de entrenamiento es de 4,282,407 horas y, usando una GPU de 200W, el consumo eléctrico sería de aproximadamente 1 GWh. El costo sería de unos $100,000.
- Con una sola GPU, se necesitarían 500 años de entrenamiento y un costo energético de $100,000. En la práctica, podría entrenarse en 2 meses con 3,000 GPUs.
Rendimiento del modelo Chameleon
- El modelo Chameleon iguala o supera el rendimiento de modelos más grandes como Gemini Pro y GPT-4V. Muestra un desempeño sobresaliente en evaluaciones de generación de modalidad mixta.
- Representa un avance importante en el modelado unificado de documentos multimodales.
Velocidad del avance tecnológico
- El avance tecnológico es muy rápido. Hay muchos puntos interesantes y es fácil de entender.
- Sin embargo, puede generar cansancio, y como se está invirtiendo tanto dinero, mucho puede sentirse como una estafa. Conviene profundizar en un tema y leer artículos relacionados.
Adopción de modelos multimodales
- Recientemente, los modelos multimodales han sido adoptados de forma amplia, pero todavía usan codificadores o decodificadores separados para cada modalidad.
- Por ejemplo, Gemini Pro usa tokens de imagen y GPT-4V también es similar. Se preentrenan dos tokenizadores diferentes.
Modelo unificado y competencia modal
- El modelo unificado es interesante, pero el hallazgo de la "competencia modal" sugiere que, a corto plazo, podría ser mejor entrenar modelos especializados para cada modalidad.
Planes de código abierto de Meta
- Hay curiosidad sobre si Meta planea publicar estos modelos como código abierto.
- También se pregunta si el modelo estará disponible para descarga.

Chameleon: el nuevo LLM multimodal de Meta

Opinión de GN⁺

Lecturas relacionadas

2 comentarios

Opiniones en Hacker News

Resumen de comentarios de Hacker News