- Presentan el modelo Video Joint Embedding Predictive Architecture (V-JEPA), un paso clave hacia la Inteligencia de Máquina Avanzada (AMI), para impulsar la inteligencia de máquina sobre una comprensión más realista del mundo.
- Un caso temprano de este modelo de mundo físico destaca por detectar y comprender interacciones detalladas entre objetos.
- Bajo el enfoque de ciencia abierta responsable, liberan este modelo con una licencia Creative Commons NonCommercial para que otros investigadores puedan explorarlo con más profundidad.
Video JEPA
- V-JEPA es un modelo no generativo que aprende prediciendo, en un espacio de representación abstracta, las partes faltantes u ocultas de un video.
- El modelo tiene la flexibilidad de descartar información impredecible, mejorando la eficiencia de entrenamiento y de muestras entre 1,5 y 6 veces.
- V-JEPA se preentrena solo con datos sin etiqueta; las etiquetas se usan únicamente al aplicar el modelo a una tarea concreta después del preentrenamiento.
Metodología de enmascarado
- V-JEPA no se entrena para entender solo un tipo de acción, sino que utiliza aprendizaje auto-supervisado sobre videos diversos para aprender varias facetas de cómo funciona el mundo.
- La estrategia de enmascaramiento no bloquea grandes áreas del video ni toma parches al azar por todo el contenido, sino que enmascara partes del video tanto en espacio como en tiempo para que el modelo entienda y aprenda las escenas.
Predicción eficiente
- Predecir en un espacio de representación abstracta permite que el modelo se concentre en la información conceptual de alta dimensionalidad del video, sin preocuparse por detalles que rara vez importan en tareas downstream.
- V-JEPA es el primer modelo de video que obtiene un rendimiento destacado en evaluación "congelada", entrenando de forma eficiente y rápida capas especializadas o redes pequeñas para aprender nuevas tareas sin volver a tocar el encoder y el predictor preentrenados con aprendizaje auto-supervisado.
Camino hacia futuras investigaciones
- La “V” significa video, pero el modelo V-JEPA actual solo contempla contenido visual.
- Como siguiente paso, se considera un enfoque más multimodal que integre también audio junto con contenido visual.
- V-JEPA destaca al distinguir interacciones finas entre objetos y al reconocer interacciones detalladas entre objetos que ocurren con el paso del tiempo.
Camino hacia AMI
- Hasta ahora, el trabajo relacionado con V-JEPA se ha centrado principalmente en la percepción: comprender el contenido de diversos flujos de video para obtener algo de contexto sobre el mundo que nos rodea.
- El siguiente paso es mostrar cómo usar estos predictores o modelos de mundo para planificación o toma de decisiones secuencial.
- V-JEPA es un modelo de investigación y se están explorando sus aplicaciones futuras. Por ejemplo, el contexto que aporta V-JEPA podría ser útil para construir asistentes de IA con contexto para tareas reales de IA y para futuras gafas AR.
- Con la convicción del valor de la ciencia abierta responsable, liberan el modelo V-JEPA con licencia CC BY-NC para que otros investigadores puedan ampliar este trabajo.
1 comentarios
Con OpenAI Sora y cosas así, la IA de video también está avanzando muchísimo de golpe.
Como con los modelos de lenguaje, que mejoraron hasta que de repente apareció ChatGPT,
sería interesante si llega un momento así también en la IA de video.