Lanzamiento del modelo de próxima generación de la serie Falcon 2
- Technology Innovation Institute (TII) lanzó la serie Falcon 2 de modelos de lenguaje de gran escala (LLM) de próxima generación
- Falcon 2 11B: modelo de 11 mil millones de parámetros entrenado con 5.5 billones de tokens, con mejoras en eficiencia y accesibilidad
- Falcon 2 11B VLM: primer modelo multimodal con capacidad de vision-to-language que convierte entradas visuales en salidas de texto
- Ambos modelos son compatibles con varios idiomas y, en particular, Falcon 2 11B VLM ofrece una función de conversión de imagen a texto, algo poco común incluso entre los modelos de más alto nivel actuales
Rendimiento de Falcon 2 11B
- Según la evaluación de Hugging Face, Falcon 2 11B mostró un rendimiento superior al de Llama 3 8B de Meta, y un rendimiento similar al de Gemma 7B de Google (Falcon 2 11B: 64.28 vs Gemma 7B: 64.29)
- Tanto Falcon 2 11B como 11B VLM se publicarán como open source y estarán disponibles para los desarrolladores sin restricciones
- En el futuro, la serie Falcon 2 se ampliará con modelos de distintos tamaños, y planea incorporar tecnología Mixture of Experts (MoE) para llevar su rendimiento aún más lejos
Características de Falcon 2 11B VLM
- Capaz de procesar varios idiomas, incluidos inglés, francés, español, alemán y portugués
- Incorpora capacidades vision-to-language para reconocer e interpretar imágenes e información visual del entorno
- Puede aplicarse en diversos sectores, como salud, finanzas, comercio electrónico, educación y legal
- Amplio rango de usos, desde gestión documental, archivado digital e indexación contextual hasta apoyo para personas con discapacidad visual
- Puede ejecutarse eficientemente en una sola GPU, lo que le da una gran escalabilidad y facilita su integración en infraestructura ligera, como laptops
La opinión de GN⁺
-
La serie Falcon 2 es una nueva generación que mejora aún más el rendimiento y la eficiencia de los modelos Falcon existentes, y Falcon 2 11B VLM destaca especialmente por ser el primer gran modelo multimodal multilingüe con capacidades vision-to-language. Se espera que esto permita procesar de forma integrada datos visuales y lingüísticos, haciendo posibles interacciones más naturales y cercanas a las humanas.
-
Aun así, la IA multimodal sigue en una etapa temprana y todavía hay margen de mejora en términos de estabilidad y robustez. Por ello, para su uso real será necesario revisar y corregir cuidadosamente aspectos como el sesgo en los datos, los temas de privacidad y seguridad, y las vulnerabilidades ante entradas erróneas.
-
También resulta destacable que la serie Falcon 2 se publique como open source. Esto podría impulsar una participación activa de la comunidad de desarrolladores y acelerar la mejora y expansión del modelo. Sin embargo, en el caso de los modelos open source también existen preocupaciones sobre posibles usos maliciosos, por lo que parece recomendable fomentar un uso responsable de la IA incluyendo, por ejemplo, una acceptable use policy dentro de la política de licencias.
-
El plan para incorporar tecnología Mixture of Experts (MoE) también es un punto interesante. MoE combina varias redes pequeñas especializadas para generar resultados más precisos y personalizados mediante la colaboración entre dominios expertos, y se espera que contribuya significativamente a mejorar el rendimiento futuro de la serie Falcon 2. Esta dirección de investigación puede verse como parte de un esfuerzo por construir sistemas de IA más eficientes e inteligentes, más allá de simplemente aumentar el tamaño del modelo.
1 comentarios
Opiniones de Hacker News
Se señala que los resultados de benchmark del modelo Falcon 2 11B están en un nivel similar al de Mistral 7B y Llama 3 8B. Considerando el aumento en el tamaño del modelo, no parece gran cosa.
Hay problemas con la licencia. Modificaron la licencia Apache 2 para incluir cláusulas adicionales, entre ellas el requisito de cumplir con una política de uso aceptable. El problema es que no se sabe cómo podría cambiar esa política en el futuro. Más adelante podría cambiar a cualquier cosa, sin relación con el contenido actual, y aun así habría que acatarla. Se señala que la tendencia de llamar a este tipo de licencias "open source" no cumple con la definición de la OSI.
Frente a la afirmación de que "Falcon 2 11B supera a Llama 3 8B de Meta y muestra un rendimiento equivalente a Gemma 7B de Google", surge la réplica de que la impresión general es que Llama 3 8B supera a Gemma 7B en casi todos los aspectos.
Sobre la expresión "el único modelo de IA con capacidad Vision-to-Language", se cuestiona si en realidad no hace algo muy distinto de lo que ya hacen GPT-4 Vision o LLaVA.
Se vuelve a señalar que los modelos Falcon no son tan abiertos. El Falcon original no rendía tan bien como sugerían los benchmarks. Aunque fue presentado como un salto importante, no dio la impresión de superar a los modelos competidores.
Da la impresión de que el PR sobre que el modelo 11B supera a los modelos 7B y 8B de "la misma categoría" está algo exagerado. Se probará para inferencia local, pero por ahora la intuición es que Llama 3 8B ajustado con fine-tuning sigue siendo lo mejor.
Si fue entrenado mayormente con datasets públicos y usando hardware de AWS junto con algoritmos y técnicas bien conocidos, surge la duda de en qué se diferencia de otros modelos que cualquiera podría entrenar si tuviera dinero. También aparece una visión escéptica/crítica de que parece más un intento de mostrarse relevante y de presumir.
Se dice que Falcon 2 11B es superior a Llama 3 8B, pero como tiene más parámetros, no es una comparación justa. Parece que el mejor modelo open source es Llama 3 70B, así que se cuestiona por qué afirman que supera a Llama 3 si en realidad no supera al mejor modelo de esa familia.