TII presenta la serie de modelos de IA Falcon 2, por delante de Llama 3 8B

(tii.ae)

2 puntos por GN⁺ 2024-05-14 | 1 comentarios | Compartir por WhatsApp

El Falcon 2 de TII, con sede en Abu Dhabi, pone en primer plano modelos multilingües y multimodales en la competencia de los LLM de código abierto
Falcon 2 11B es un modelo de 11 mil millones de parámetros entrenado con 5.5 billones de tokens, y supera a Meta Llama 3 8B en la tabla de clasificación de Hugging Face
Falcon 2 11B VLM es el primer modelo multimodal de TII que convierte entradas visuales en texto, y puede aplicar la interpretación de imágenes en múltiples industrias
Ambos modelos se ofrecen como código abierto bajo la TII Falcon License 2.0, y fueron diseñados para que los desarrolladores puedan implementarlos e integrarlos más fácilmente incluso en infraestructura más ligera
TII busca ampliar Falcon 2 a varios tamaños y evaluar Mixture of Experts para mejorar el rendimiento y la calidad de las respuestas

Lanzamiento de Falcon 2 y composición de los modelos

Technology Innovation Institute es una organización de investigación aplicada bajo el Advanced Technology Research Council de Abu Dhabi, y lanzó el gran modelo de lenguaje Falcon 2 el 13 de mayo de 2024
Esta serie está compuesta por dos modelos
- Falcon 2 11B: LLM de 11 mil millones de parámetros entrenado con 5.5 billones de tokens
- Falcon 2 11B VLM: modelo de visión a lenguaje que convierte entradas visuales en salidas de texto
Ambos modelos admiten múltiples idiomas, y Falcon 2 11B VLM es el primer modelo multimodal de TII
TII presenta a Falcon 2 11B VLM como el único modelo del nivel más alto actual del mercado con capacidad de conversión de imagen a texto

Comparación de rendimiento y alcance de uso

Falcon 2 11B fue comparado con el grupo de modelos preentrenados en la tabla de evaluación de LLM abiertos de Hugging Face
- Registró un rendimiento superior al de Meta Llama 3 8B
- Se ubicó en la parte alta del ranking con una puntuación casi igual a la de Google Gemma 7B
- Las puntuaciones fueron de 64.28 para Falcon 2 11B y 64.29 para Gemma 7B
El modelo Falcon 2 11B maneja tareas en inglés, francés, español, alemán, portugués y varios otros idiomas
Falcon 2 11B VLM puede identificar e interpretar imágenes y materiales visuales del entorno
- Entre sus áreas de aplicación se mencionan salud, finanzas, comercio electrónico, educación y el ámbito legal
- También incluye casos de uso como gestión documental, archivado digital, indexación contextual y apoyo a personas con discapacidad visual

Forma de publicación y próximos planes

Tanto Falcon 2 11B como Falcon 2 11B VLM se ofrecen como código abierto para que los desarrolladores puedan acceder a ellos
Se presenta que ambos modelos pueden ejecutarse eficientemente incluso en una sola GPU, lo que facilita su despliegue e integración en infraestructura más ligera como laptops y otros dispositivos
Falcon 2 11B se ofrece bajo la TII Falcon License 2.0, una licencia de software permisiva basada en Apache 2.0
- Incluye una política de uso permitido que promueve un uso responsable de la IA
A futuro, TII planea diversificar los tamaños de la próxima generación de Falcon 2 y evaluar la adopción de Mixture of Experts
- Mixture of Experts es un enfoque que combina redes pequeñas con distintas especialidades para generar respuestas más sofisticadas y personalizadas
- TII considera que este enfoque puede aumentar la precisión y acelerar la toma de decisiones
La información del nuevo modelo puede consultarse en FalconLLM.TII.ae

1 comentarios

GN⁺ 2024-05-14

Opiniones en Hacker News

Los resultados de los benchmarks parecen más o menos similares a los de Mistral 7B y Llama 3 8B, y considerando que el tamaño del modelo aumentó, no parece tan impresionante
https://huggingface.co/tiiuae/falcon-11B
https://huggingface.co/meta-llama/Meta-Llama-3-8B
https://mistral.ai/news/announcing-mistral-7b/
- Sí. Falcon-180b también fue muy sobrevalorado al principio, pero la comunidad pronto se dio cuenta de que era casi inútil, y en casos generales modelos de lenguaje grandes más pequeños lo superaban fácilmente
  Esta vez afirman que falcon-11b es mejor que Llama 3 8b, pero ya se ven varios problemas. falcon-11b es aproximadamente 40% más grande que Llama 3 8b, así que es difícil compararlos como si fueran de la misma categoría de tamaño, y la afirmación se apoya en benchmarks automáticos, cuando desde hace mucho está claro que los benchmarks automáticos por sí solos no alcanzan para sacar esa conclusión
  Algunas puntuaciones en benchmarks automáticos son mucho más bajas que las de Llama 3 8b, y apenas lo supera en un solo benchmark. Es posible hacer que parezca el mejor de la historia en un benchmark, pero eso no significa en absoluto que sea un buen modelo
  Aunque no hay ninguna evaluación humana, usaron deliberadamente un título clickbait con una afirmación apresurada, y al decir que es mejor que Llama 3 ignoran por completo a Llama 3 70b
  Sinceramente, me molesta que tiiuae reciba tanta atención mientras sigue lanzando este tipo de cebos engañosos sin producir nada útil
- Parece ser algo general de sus modelos. Son realmente grandes, pero no hay una mejora de rendimiento real en relación con el esfuerzo invertido
  Su dataset web depurado está fuertemente censurado, y eso también podría influir. Es moralmente muy conservador, excluye por completo la pornografía y varios temas
  Así que no me sorprendería que filtrar demasiado contenido y meter más de lo mismo sea parte del problema
- Puede que las métricas de comparación no sean las adecuadas
  Es cierto que el modelo es más grande, pero para el entrenamiento necesitó menos tokens que Llama 3. El problema es que, sin un dataset público, es difícil comparar y reproducir correctamente
  Es difícil saber si se debe a la arquitectura del modelo, a la calidad del dataset, al tamaño del modelo, a una combinación de eso o a otra razón
La licencia no es buena: https://falconllm-staging.tii.ae/falcon-2-terms-and-conditio...
Es una licencia Apache 2 modificada con cláusulas adicionales, e incluye el requisito de seguir una política de uso aceptable: https://falconllm-staging.tii.ae/falcon-2-acceptable-use-pol...
Pero esa licencia Apache 2 modificada dice que “la política de uso aceptable puede actualizarse de vez en cuando, y usted debe monitorear la dirección web donde está alojada la política para asegurarse de que su uso de la obra o de obras derivadas cumpla con la política actualizada”
Sea como se vea la política de uso aceptable actual, se reservan el derecho de cambiarla como quieran en el futuro y el usuario tiene que cumplir con la nueva política
Esto muestra muy bien por qué no me gusta la tendencia de llamar open source a este tipo de licencias aunque no sean compatibles con la definición de la OSI
- Básicamente, no se puede usar para nada que no sea trivial. Porque pueden prohibir tu caso de uso en cualquier momento y sin aviso
- De verdad me pregunto si una cláusula como “se reservan el derecho de cambiarla como quieran en el futuro y el usuario tiene que cumplir con la nueva política” se sostendría en un tribunal. Me gustaría saber si hay jurisprudencia o precedentes relacionados
- No es la primera vez que hacen estos juegos con la licencia. Ya pasó con Falcon 1. Valoro el esfuerzo, pero parece que todavía están buscando si monetizarlo y cómo hacerlo
- El modelo 40b parece ser Apache puro
Hay una frase que dice que “el nuevo Falcon 2 11B supera a Llama 3 8B de Meta y rinde al nivel del modelo líder Gemma 7B de Google”, pero tenía muy entendido que Llama 3 8B supera a Gemma 7B en casi todas las métricas
- Hay que considerar que esta es una comparación de modelos base, no de modelos ajustados para chat. Porque Falcon-11B actualmente no tiene un modelo ajustado para chat. El ajuste para chat de Meta parece mejor que el de Gemma
  Aun así, por lo que probé, el modelo de chat Gemma 1.1 era bastante bueno, aunque sí creo que el modelo de chat Llama3 8B es claramente mejor
  CodeGemma 1.1 7B está especialmente subestimado frente a modelos de coding relacionados. El modelo base CodeGemma 7B fue de los mejores que probé para autocompletado de código, y el modelo de chat también fue de los mejores que probé para escribir código
  Otros modelos parecen apuntar mejor a los benchmarks, pero en uso real no aguantaron tan bien como CodeGemma. Tengo curiosidad por ver cómo saldrá CodeLlama3, pero todavía no existe
- Es anecdótico, pero en mi experiencia Gemma es completamente inútil y Llama 3 8b es excepcionalmente bueno para su tamaño. La idea de que Gemma supere a Llama 3 me parece rara. Si Gemma está adelante en algunos benchmarks, sospecho que puede haber algo como contaminación
- A mí también me pareció raro
  Últimamente no sigo mucho los benchmarks y estoy totalmente dedicado al básquetbol
  Como referencia, en realidad soy un poco mejor que Lebron. Lebron es mucho peor incluso que mi hija de tres años, y yo a veces le gano a mi hija. En básquetbol
Uf, pensé que esto era un artículo sobre Falcon AT de Spectrum Holobyte. Según MyAbandonware.com:
“Falcon AT, que en esencia es Falcon 2 pero comercializado de alguna manera con otro enfoque, es el segundo lanzamiento de la innovadora serie Falcon de simuladores de vuelo hardcore de Spectrum Holobyte. A diferencia de la idea común de que Falcon 3.0 marcó el inicio de los simuladores de vuelo modernos, Falcon AT ya era un gran avance respecto de Falcon, con gráficos EGA nítidos, muchas opciones realistas y una campaña muy ampliada. Es un simulador moderno de combate aéreo con excelentes tutoriales, misiones variadas y una dinámica de vuelo precisa, justo lo que los fans de Falcon llegaron a conocer y querer. Entre sus varias innovaciones también había opciones multijugador sorprendentemente jugables mediante hotseat y módem. Aunque hoy está mayormente olvidado, Falcon AT explica la brecha difícil de entender entre Falcon y Falcon 3.0”.
- Parece que hay una tendencia a tomar nombres de productos nuevos de juegos clásicos de computadora. Quizás no sea intencional. Hace un rato también hubo aquí un artículo sobre un sistema llamado Loom, pero no era el juego clásico de aventura. Siento que alguien va a lanzar un gran modelo de lenguaje o software de redes y ponerle Zork
- También ayuda a esa asociación mental que ahora mismo esté en la portada “F-16 Strike Eagle II reverse engineering” <https://news.ycombinator.com/item?id=40347662>
No entiendo qué significa la frase “el único modelo de IA con capacidades de visión-lenguaje”. ¿No es eso más o menos lo que hacen GPT-4 Vision y LLaVA?
- Al principio pensé que era un juego de palabras retorciendo el significado
  Tal vez LLaVA sería un modelo lenguaje-visión, pero ni interpretándolo así pude hacer que tuviera sentido
  Quizás simplemente están mintiendo
- Los modelos de Claude también entran todos en esa categoría
Los modelos abiertos son bienvenidos, pero como ya se señaló aquí, los modelos Falcon no son tan abiertos. El Falcon original tampoco funcionaba tan bien como sugerían sus cifras de benchmarks. Lo promocionaron como un gran avance, pero en el momento de su lanzamiento no sentí que superara a los modelos abiertos competidores
El texto promocional de que el modelo 11B supera a modelos 7B y 8B de “la misma categoría” se siente un poco forzado. Habrá que verlo, pero sin duda pienso probarlo para inferencia local. Aun así, mi intuición es que un llama 3 8B ajustado finamente probablemente sea el mejor de su categoría esta semana
- Yo también vi que el Falcon original no rendía tanto como sus cifras de benchmark. Creo que, en términos de tokens por parámetro, le faltó entrenamiento. Parece que simplemente querían tener un modelo de 40 mil millones de parámetros, y estaba más cerca del enfoque previo a la optimización de Chinchilla
Es realmente escalofriante este recordatorio de que la IA será usada no solo por democracias que al menos intentan algún grado de supervisión ética, sino también por los peores dictadores
- MBZ no es MBS, y Arabia Saudita y los EAU son países distintos. MBZ es uno de los líderes más populares del mundo, y sus ciudadanos están entre los más ricos
  Su país es uno de los pocos países desarrollados cuya economía sigue creciendo de forma sostenida, y tiene una de las políticas migratorias más libres del mundo, pero aun así es uno de los países más seguros fuera de Asia Oriental
  Más que estar entre los peores dictadores, está mucho más cerca de ser candidato a mejor dictador
Hay algo que quiero entender. ¿Este modelo no fue entrenado en su mayor parte con datasets públicos, usando hardware de AWS y algoritmos y técnicas bien conocidos? ¿En qué se diferencia de otros modelos que cualquiera con dinero podría entrenar?
Desde mi mirada escéptica, casi anti, esto parece simplemente ostentación y un esfuerzo por parecer relevantes. ¿Hay algo más que no estoy viendo en este tipo de intentos?
- Muchos modelos caen en esta categoría. La soberanía tiene cierto valor, ya sea para un país o para una empresa. La amenaza de competencia también es buena para todos
  Aunque el resultado final en su mayoría no sea especialmente interesante, me alegra que haya gente haciendo este trabajo
Por un momento pensé que esto tenía que ver con el simulador de vuelo clásico:
https://en.wikipedia.org/wiki/Falcon_4.0
- SpaceX también tiene los cohetes Falcon 1 y Falcon 9, y también existió el Falcon 5, que fue propuesto pero nunca desarrollado
El sesgo del artículo es ridículo, al punto de dar ganas de decirle a los EAU que sean un poco más sutiles. “vence a llama 3” es un resumen sospechosamente poco útil, y la parte de “el único modelo de IA con capacidades de visión-lenguaje” es simplemente desconcertante

TII presenta la serie de modelos de IA Falcon 2, por delante de Llama 3 8B

Lanzamiento de Falcon 2 y composición de los modelos

Comparación de rendimiento y alcance de uso

Forma de publicación y próximos planes

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News