Meta FAIR publica 9 nuevos estudios, modelos y datasets

(ai.meta.com)

1 puntos por GN⁺ 2024-12-14 | 1 comentarios | Compartir por WhatsApp

Meta FAIR publicó 9 recursos en forma de código, modelos, datasets y demos para la investigación en inteligencia de máquinas avanzada, abarcando agentes, robustez y seguridad, y arquitecturas de modelos
Entre los lanzamientos principales están Meta Motivo para control de humanoides virtuales, Meta Video Seal para watermarking de video, la base de código de Flow Matching, Explore Theory-of-Mind y Large Concept Model
Meta Motivo usa datos de movimiento sin etiquetas y un nuevo algoritmo para ubicar estado, movimiento y recompensa en el mismo espacio latente, permitiendo tareas de control de cuerpo completo sin entrenamiento adicional ni planificación
Meta Video Seal inserta marcas de agua invisibles y mensajes ocultos opcionales en videos, y está diseñado para resistir ediciones comunes como desenfoque, recorte y compresión de compartición en línea
Los investigadores pueden descargar los recursos publicados para experimentar, integrarlos y ampliarlos, mientras Meta enfatiza la ciencia abierta reproducible y un ecosistema abierto

Alcance de la publicación de Meta FAIR

Meta FAIR pone a disposición de la comunidad de investigación sus más recientes investigaciones, código, modelos y datasets
Esta publicación se concentra en tres ejes
- Construir agentes más capaces
- Robustez y seguridad
- Innovación en arquitecturas para que los modelos aprendan nueva información con más eficacia y puedan escalar más allá de los límites actuales
En total, hay 9 proyectos y recursos disponibles para descargar y usar de inmediato
La dirección apunta a impulsar la investigación iterativa mediante publicaciones tempranas y avanzar de forma responsable en el desarrollo de la IA

Meta Motivo: modelo base de comportamiento para controlar acciones de humanoides virtuales

Meta Motivo es un modelo basado en comportamiento que controla los movimientos de agentes humanoides virtuales corporizados para realizar tareas complejas
El aprendizaje por refuerzo no supervisado tradicional suele requerir datasets de interacción refinados o depender de pérdidas no supervisadas que pueden producir políticas poco alineadas con la tarea objetivo
Meta Motivo se entrena con un nuevo algoritmo que aprovecha datasets de movimiento sin etiquetas
- Aprende una representación que inserta estado, movimiento y recompensa en el mismo espacio latente
- Resuelve tareas de control de cuerpo completo como seguimiento de movimiento, alcance de posturas objetivo y optimización de recompensa sin entrenamiento adicional ni planificación
Su rendimiento compite con métodos específicos por tarea y supera a baselines modernos de aprendizaje por refuerzo no supervisado y modelos basados en dinámica
También muestra alta robustez frente a cambios del entorno como gravedad no vista, viento e interferencias directas
Esta investigación podría conducir a agentes totalmente corporizados para el metaverso, NPCs más realistas, democratización de la animación de personajes y nuevas experiencias inmersivas
Leer el paper
Probar la demo
Descargar código y modelos

Meta Video Seal: watermarking de video de código abierto

Meta Video Seal es un framework de última generación para watermarking de video basado en redes neuronales
Inserta marcas de agua invisibles en videos y opcionalmente puede incluir también mensajes ocultos
La marca de agua insertada puede extraerse después para verificar el origen del video
Está diseñado para resistir procesos comunes de edición y compartición de video
- Desenfoque
- Recorte
- Algoritmos de compresión usados con frecuencia al compartir contenido en línea
Los modelos de Video Seal se publican bajo una licencia permisiva, y también se ofrecen el paper, el código de entrenamiento, el código de inferencia y una demo
También se publican otros recursos relacionados con watermarking
- Meta Omni Seal Bench: leaderboard sobre watermarking neuronal en múltiples modalidades
- Meta Watermark Anything: republicado bajo una licencia permisiva
- Taller de watermarking de ICLR 2025
Watermark Anything, Video Seal y Audio Seal se ofrecen listos para descarga e integración
Leer el paper
Probar la demo
Descargar código y modelos de Video Seal
Descargar código y modelos de Watermark Anything
Ver el leaderboard de Omni Seal Bench

Guía y base de código de Flow Matching

Flow Matching es un paradigma generativo usado en múltiples modalidades, incluidas imagen, video, audio, música y estructuras 3D como proteínas
Dentro de Meta, reemplaza enfoques de difusión anteriores en varias aplicaciones generativas
- Meta Movie Gen
- Meta Audiobox
- Meta Melody Flow
En la industria hay ejemplos como Stable-Diffusion-3, Flux, Fold-Flow y Physical Intelligence Pi_0
Flow Matching es un framework de IA generativa simple pero flexible, que mejora el rendimiento y la eficiencia y facilita la generalización a datos complejos
Lo publicado incluye el paper, implementaciones clave de Flow Matching continuo y discreto, y scripts de entrenamiento de última generación
Leer el paper
Descargar código

Explore Theory-of-Mind: generación de datos para razonamiento de teoría de la mente

Meta Explore Theory-of-Mind es un framework de generación adversarial de datos guiada por programas para razonamiento de teoría de la mente
Los datasets existentes de Theory-of-Mind tienen la limitación de enfocarse solo en evaluación y cubrir interacciones de alcance reducido
Este framework genera datos de razonamiento ToM variados, difíciles y escalables que pueden usarse tanto para entrenamiento como para evaluación
Puede crear historias robustas y confiables para poner a prueba los límites de los modelos de lenguaje grandes
Al afinar Llama-3.1 7B, logró una mejora de 27 puntos de exactitud en el benchmark ToMi de uso común
Sus usos incluyen generación de datasets para mejorar LLMs, refuerzo de escenarios orientados a objetivos, recopilación de datasets de interacción y benchmarks para evaluar el rendimiento de LLMs
Leer el paper
Descargar código
Descargar dataset

Large Concept Model: predecir conceptos en lugar de tokens

Large Concept Model (LCM) es un paradigma de entrenamiento alternativo para modelado de lenguaje
Los modelos de lenguaje predominantes hoy suelen operar a nivel de token y no razonan explícitamente de manera jerárquica
La idea central de LCM es separar el razonamiento de la expresión lingüística
- Se inspira en cómo una persona puede mantener la misma secuencia de ideas al presentar algo, aunque cambie la elección de palabras cada vez
LCM se entrena para predecir no el siguiente token, sino el siguiente concepto o idea de alto nivel
Los conceptos se representan como oraciones completas dentro de un espacio de embeddings multimodal y multilingüe
En tareas puramente generativas como el resumen, muestra un rendimiento superior o similar al de LLMs recientes, y además ofrece una fuerte generalización zero-shot a idiomas no vistos
Su eficiencia computacional también mejora a medida que crece la longitud del contexto de entrada
Leer el paper
Descargar código

Dynamic Byte Latent Transformer: modelo a nivel de bytes sin tokenizer

Dynamic Byte Latent Transformer es un modelo jerárquico a nivel de bytes que usa un enfoque de parchado dinámico
Los modelos de lenguaje tradicionales tokenizan el texto en una etapa heurística de preprocesamiento, lo que limita el entrenamiento end-to-end, dificulta la optimización en producción y puede perjudicar el rendimiento en secuencias de texto raras
Este modelo opera sobre bytes sin heurísticas de tokenización
También mejora la eficiencia para procesar secuencias largas tanto en entrenamiento como en inferencia
Muestra una ventaja promedio de 7 puntos en robustez frente a modelos basados en tokenizer
Tiene fortalezas para manejar la larga cola de símbolos no vistos y secuencias raras
Este enfoque podría ayudar a avanzar el razonamiento en áreas como idiomas de bajos recursos, código y factualidad
Leer el paper
Descargar código

Meta Memory Layers: expansión de memoria dispersa para información factual

Meta Memory Layers at Scale propone una forma de mejorar la factualidad en benchmarks generales mediante la expansión de capas de memoria
La memoria paramétrica es un depósito de información factual almacenado en los pesos de una red neuronal durante el preentrenamiento, y contribuye a que los LLMs comprendan conceptos complejos y matices lingüísticos
A medida que los métodos de escalado existentes se acercan a sus límites de expansión eficiente, surge la necesidad de nuevas arquitecturas que aprendan información con mayor eficacia
Memory Layers añade parámetros adicionales al modelo mediante un mecanismo entrenable de búsqueda clave-valor sin incrementar los FLOPs
Las capas de memoria dispersa con activación esparsa complementan las costosas capas feedforward densas y ofrecen capacidad dedicada para almacenar y recuperar información a bajo costo
Los modelos de lenguaje con capas de memoria mejoradas superan en tareas downstream a
- Modelos densos con más del doble de presupuesto de cómputo
- Modelos MoE con cómputo y parámetros equiparados
A diferencia de la creencia de que las arquitecturas de memoria dispersa son difíciles de escalar de forma competitiva, se escalaron eficientemente hasta 128B parámetros y modelos base de 8B, mostrando mejoras frente a cómputo similar en benchmarks generales de factualidad
Leer el paper
Descargar código

Image Diversity Modeling y EvalGIM

FAIR está realizando investigaciones para comprender el desarrollo seguro de modelos de generación de imágenes y crear nuevos métodos
El modelo de generación de imágenes desarrollado durante esa investigación se basa en estudios previos sobre arquitecturas y funciones de pérdida para modelos generativos
Este modelo prioriza la generación de imágenes que representen el mundo físico, mientras mantiene una calidad de imagen competitiva frente a modelos de última generación
Expertos externos pueden usar el modelo para investigar áreas que mejoren la seguridad y la responsabilidad en el modelado de diversidad de imágenes en general
También se publicará como código abierto una caja de herramientas integral de evaluación para modelos de generación texto-imagen
- Aumenta la facilidad y reproducibilidad del benchmarking de generación de imágenes
- Promueve resultados interpretables que ayuden a la investigación responsable en texto a imagen
Leer el paper
Descargar código

Meta CLIP 1.2: codificador visión-lenguaje y curación de datos

Meta CLIP 1.2 es un lanzamiento para el desarrollo de codificadores visión-lenguaje de alto rendimiento
Meta desarrolló algoritmos para curar y alinear de forma eficaz grandes volúmenes de datos imagen-texto, de modo que los modelos aprendan conocimiento humano sobre el mundo
Los datasets grandes, de alta calidad y diversos son esenciales para construir modelos fundacionales que aprendan sobre el mundo
Meta CLIP es el trabajo de Meta para construir estos datasets y modelos fundacionales
Para modelos base de codificación visión-lenguaje de alta calidad y seguros, desarrolló algoritmos de curación y alineación de datos, y aplicó medidas de integridad y protección de privacidad
Lo publicado puede ser usado por investigadores y desarrolladores para avanzar en la comprensión visión-lenguaje
- Algoritmos de datos
- Recetas de entrenamiento
- Modelos fundacionales entrenados con datasets curados
Algunos casos de uso son codificación visual para MLLMs, embeddings multimodales para búsqueda, clasificación zero-shot y punto de partida para investigación sobre calidad de datos
Los algoritmos y métodos de entrenamiento también pueden usarse para crear desde cero datasets tipo CLIP de gran escala y alta calidad
Leer el paper
Descargar dataset
Descargar código
Descargar modelo

1 comentarios

GN⁺ 2024-12-14

Opiniones de Hacker News

Aquí hay muchísimo contenido interesante, y destacan especialmente las ideas relacionadas con LLM.
Se presentan, como métodos separados para mejorar la calidad o la eficiencia, un modelo grande de conceptos que maneja y predice conceptos en lugar de tokens, un transformador latente dinámico a nivel de bytes como alternativa byte a byte a la tokenización estándar, y una capa de memoria dispersa que amplía la jerarquía de memoria clave-valor sin aumentar los requisitos de cómputo.
Me pregunto cuánto mejorarían la calidad y la eficiencia si se combinaran todos estos métodos, y hasta pienso que quizá eso podría ser Llama 4.
- Me gustaría que Llama 4 o 5 tuviera una arquitectura distinta.
  Los Llama publicados hasta ahora han tenido una arquitectura de inferencia casi igual, con un pipeline de entrenamiento mejorado.
  La desventaja es que llamacpp podría no poder ejecutar el nuevo modelo, y tal vez haría falta una reescritura grande, lo que podría requerir nuevos programas en C, C++, Go y Rust.
- Me pregunto si habrá una mejor forma de mostrar este tipo de contenido.
  Estoy haciendo documentos o demos similares, y si fuera una página de documentación, cada sección podría organizarse de forma uniforme con título, contenido, enlace al código y enlace al paper.
  Pero esta página en sí es un post de blog, así que creo que será difícil volver a encontrarla el año que viene.
  ¿Hay otros ejemplos de empresas que organicen bien resúmenes técnicos y hagan que sigan siendo fáciles de encontrar desde su página principal?
- Es algo irónico que Meta haya terminado siendo la organización de IA abierta más grande.
  Claro que no es “open source”, pero lo deja disponible para su uso y también publica investigación abiertamente.
Realmente genial.
Probar la primera demo es muy divertido; parece un juego en el que gana quien logre que el modelo haga moonwalk.
Mi mejor intento quizá fue algo como (body_speed_forward < -0.3) * (head_height > 1.0) * (stay_still > 0.2) * (body_speed_vertical < 0.1) * (stay_upright > 0.9).
https://i.imgur.com/O5hGMo5.gif
Y “Meta Explore Theory of Mind” es aún más interesante.
Hace más o menos un mes también hubo un hilo en el que se hablaba de conceptos como “creencias” y de actualizar el modelo del mundo en función de ellas.
https://news.ycombinator.com/item?id=42035985
Espero que al transformador latente dinámico a nivel de bytes le vaya bien.
Ojalá los tokenizadores desaparezcan de una vez.
También es interesante que sea una estructura jerárquica pero con solo dos niveles; apilar más niveles parece una dirección natural para trabajos futuros.
- Soy uno de los autores :)
  Creo que es una buena línea de investigación.
  Dicho eso, también es bastante para hacer de una sola vez, y hay que tener cuidado con cómo distribuir el presupuesto de FLOP en toda la jerarquía.
  Con dos niveles, uno puede hacerse eficiente en FLOP como codificador de bytes/local, y el otro puede usar muchos FLOP como codificador de parches/global.
  También hay que encontrar formas de agrupar los parches en unidades más grandes, pero hay muchas direcciones posibles a partir de aquí.
Si pensamos en el contexto de negocio por el que Meta hace esto, teniendo 70 mil millones de dólares en efectivo, pagarles cientos de millones a expertos en IA parece calderilla.
- Basta con imaginar que ocurre un cambio fundamental en el mundo de la investigación en IA.
  La IA podría aumentar de repente de forma importante la productividad de los programadores, volverse muy buena detectando vulnerabilidades, convertir los chats con IA en una nueva gran forma de entretenimiento, o hacer que las imágenes de IA se vuelvan contenido ampliamente compartido en Instagram.
  Si cualquiera de esas cosas pasa, Facebook podría querer acceso a modelos de punta para personalizarlos para desarrolladores o herramientas internas, o para integrarlos dentro de sus apps.
  Pero si la única forma de acceder a eso fuera firmar contratos de 7 a 9 cifras con vendedores de modelos como OpenAI, sería terrible.
  Peor aún, un competidor importante en publicidad podría empezar a ofrecer a los anunciantes potentes herramientas de IA para adaptar creatividades a varios formatos.
  Entonces Facebook quedaría muy rezagada y, aun pagando millones de dólares a empresas como OpenAI, podría perder trimestre a trimestre una cuota publicitaria valuada en miles de millones de dólares.
  Si llega ese peor escenario, Facebook se vería tonta; y si cualquiera de estas posibilidades existe, la inversión tiene sentido.
  El efecto de open source o de hacer de Meta un lugar atractivo para trabajar es un bono estratégico adicional.
- Conviene verlo como “comoditizar los complementos”.
  Si OpenAI tiene un éxito enorme y se vuelve la única opción, puede exigir una enorme renta monopólica a todos los que usen su servicio.
  Por eso, para otras empresas y para cualquiera que quiera usar IA, conviene que haya muchos competidores en el ecosistema de IA y que los precios se mantengan bajos.
- Para conseguir suficientes investigadores de primer nivel, no queda más que permitir la publicación de papers.
- Esos expertos en IA, para empezar, tuvieron un papel clave en que Meta generara 70 mil millones de dólares.
- Creo que todos los que respondieron hasta ahora están ingenuamente equivocados.
  Facebook vende espacios publicitarios en varias apps, y para que esos espacios sean valiosos la gente tiene que estar en las apps.
  Para que la gente esté en las apps, se necesita contenido que la atraiga.
  Así que es simple: hacer que cualquiera, ya sea una persona o una empresa, pueda crear contenido masivo a bajo costo y compartirlo en las apps.
Hace poco tuve la oportunidad de escuchar una presentación de Ross Taylor, ex-Meta, en el meetup AI Engineer London.
También está disponible el video completo de la presentación.
https://www.youtube.com/watch?v=S5l5OvJ01ws
No me había dado cuenta de cuánto trabajo ha hecho Meta en razonamiento y teoría de la mente.
- Buen video.
  Ayuda a poner o1 en contexto.
  Con OpenAI, Google y Meta publicando a este ritmo tan rápido, parece que ahora le toca a Anthropic.
Cada vez que tengo que limpiar texto, me pregunto por qué no entrenamos simplemente un autoencoder de eliminación de ruido a nivel de bytes para que se encargue de eso.
- Idea interesante.
  En visión captura de forma eficiente el contexto global y local, así que siempre me dio curiosidad probar U-Net o una hourglass net con datos de texto, aunque nunca lo hice personalmente.
¿Alguien puede explicar cómo ayuda a que la IA sea más segura el hecho de poner marcas de agua de forma voluntaria en videos generados por IA?
- Permite que quienes ofrecen servicios de generación de video con IA pongan marcas de agua en todos los videos que crean
  Así que la intención no es que sea voluntario, sino que se aplique a nivel del servicio
  Al final, podrían quedar solo los servicios que no sigan las reglas actuales de las Big Tech
  Por ejemplo, como cuando Grok/X.ai tenía peor calidad, pero la gente usaba Grok/X.ai para crear imágenes de apoyo a Trump
  https://arstechnica.com/information-technology/2024/08/musks...
- ¿Cuánto costará entrenar un modelo en este momento?
  Creo que en los próximos años estará al alcance de los principales países o de la mayoría de los oligarcas, y quizá ya lo esté
  Así que lo más realista parece ser que todos entiendan el marcado con marcas de agua como algo voluntario
  Hoy considero que las imágenes y los videos no valen ni lo que valen sus bits como prueba de algún hecho concreto
Son cosas ridículamente interesantes
Todos hablan de lo emocionantes que son, especialmente LCM y el tokenizador que no tokeniza, pero si alguien estuvo siguiendo el tema, quisiera preguntar:
¿por qué usan el término “advanced machine intelligence”?
Mi primer pensamiento fue que quizá era para calmar o distraer a los apocalípticos, aunque tal vez solo estoy siendo demasiado paranoico
- El término viene de un paper de Yann LeCun de 2022
  AMI era un término distinto de AGI
  Aunque en los últimos años la A ha ido cambiando, según el contexto, entre autonomous, advanced y augmented
  [1] https://openreview.net/pdf?id=BZ5a1r-kVsf
- Parece que a LeCun no le gusta el término AGI
- Estoy esperando el día en que a estas cosas las llamen Minds :)
- Parece una respuesta a un estudio de mercado reciente según el cual el público en general ve cualquier cosa etiquetada como “AI” como algo más bien fraudulento y poco confiable
Meta definitivamente mejoró en imagen y está ayudando a que la IA sea una tecnología sin foso defensivo
- Meta no vende IaaS ni PaaS, pero si la IA queda en manos de más actores y no solo de Google y OpenAI, aumenta el encaje de Meta
  Si conviertes la IA en algo de uso general, surgen diversos negocios, y esos negocios llegan a sus clientes a través de las plataformas de Meta
- Por muy buenas cosas que hagan con los LLM, siguen arruinando la sociedad con Facebook
- Si sigues cometiendo el pecado original, eso no es redención
Se siente como aprender unas 10 arquitecturas nuevas de golpe

Meta FAIR publica 9 nuevos estudios, modelos y datasets

Alcance de la publicación de Meta FAIR

Meta Motivo: modelo base de comportamiento para controlar acciones de humanoides virtuales

Meta Video Seal: watermarking de video de código abierto

Guía y base de código de Flow Matching

Explore Theory-of-Mind: generación de datos para razonamiento de teoría de la mente

Large Concept Model: predecir conceptos en lugar de tokens

Dynamic Byte Latent Transformer: modelo a nivel de bytes sin tokenizer

Meta Memory Layers: expansión de memoria dispersa para información factual

Image Diversity Modeling y EvalGIM

Meta CLIP 1.2: codificador visión-lenguaje y curación de datos

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News