Meta presenta Segment Anything Model 2
(ai.meta.com)Introducción a Meta Segment Anything Model 2 (SAM 2)
Funciones principales
-
Segmentación de objetos en cualquier video e imagen
- SAM 2 es el primer modelo unificado para segmentar objetos en imágenes y videos
- Se pueden usar clics, cuadros y máscaras como entradas para seleccionar objetos en una imagen o en cuadros de video
-
Selección y ajuste de objetos entre cuadros de video
- Con SAM 2 se puede seleccionar uno o varios objetos en cuadros de video
- Se pueden usar prompts adicionales para ajustar con precisión las predicciones del modelo
-
Rendimiento sólido de segmentación incluso en videos desconocidos
- SAM 2 ofrece un sólido rendimiento zero-shot incluso con objetos, imágenes y videos que el modelo no vio durante el entrenamiento
- Puede usarse en diversas aplicaciones del mundo real
-
Interacción y resultados en tiempo real
- SAM 2 hace posibles aplicaciones interactivas en tiempo real mediante inferencia en streaming
-
Rendimiento de segmentación de objetos de última generación
- SAM 2 supera a los mejores modelos en segmentación de objetos tanto en video como en imagen
Aspectos destacados
- Mejor rendimiento en segmentación de imágenes que SAM
- Mejor rendimiento que los modelos existentes de segmentación de objetos en video, especialmente en seguimiento parcial
- Requiere menos tiempo de interacción que los métodos existentes de segmentación interactiva de video
Pruébalo directamente
- Se puede rastrear un objeto con un solo clic en un cuadro de video y crear efectos divertidos
- Probar demo
Arquitectura del modelo
- Diseño de Meta Segment Anything Model 2
- El modelo SAM 2 se amplió al dominio del video mediante la adición de un módulo de memoria por sesión
- Este módulo captura información sobre los objetos objetivo en el video, lo que permite rastrear objetos en todos los cuadros incluso cuando dejan de verse temporalmente
- También permite corregir las predicciones de máscaras con base en prompts adicionales
- La arquitectura en streaming de SAM 2 procesa los cuadros de video uno por uno, lo que le permite generalizarse de forma natural al dominio del video
Segment Anything Video Dataset
-
Dataset de segmentación de video grande y diverso
- SAM 2 fue entrenado con un conjunto grande y diverso de videos y masklets (máscaras de objetos a lo largo del tiempo)
- Los datos de entrenamiento incluyen el dataset público SA-V
-
Aspectos destacados
- Se recopilaron más de 600,000 masklets de alrededor de 51,000 videos
- Escenarios reales geográficamente diversos en 47 países
- Anotaciones que incluyen objetos completos, parciales y casos difíciles de oclusión
Publicación de la investigación
-
Innovación abierta
- Se publicaron los modelos preentrenados de Segment Anything 2, el dataset SA-V, demos y código para que la comunidad de investigación pueda construir sobre este trabajo
-
Aspectos destacados
- Transparencia sobre los datos de entrenamiento de SAM 2
- Prioridad a la diversidad geográfica del dataset SA-V para representar el mundo real
- Se realizó una evaluación de equidad de SAM 2
Posibles aplicaciones del modelo
-
Salidas escalables
- La salida de segmentación de objetos en video de SAM 2 puede usarse como entrada para otros sistemas de IA, como los modelos modernos de generación de video
-
Entradas escalables
- SAM 2 puede aceptar otros tipos de prompts de entrada, permitiendo formas creativas de interactuar con objetos en video en tiempo real o en video en vivo
Explora recursos adicionales
Resumen de GN⁺
- SAM 2 es un modelo unificado para segmentar objetos en imágenes y videos, con interacción en tiempo real y sólido rendimiento zero-shot
- Fue diseñado para usarse en diversos escenarios del mundo real e incluye un dataset y código publicados para la comunidad de investigación
- Supera a los modelos existentes en seguimiento y segmentación de objetos en video, y ofrece alta precisión con menos tiempo de interacción
- SAM 2 puede combinarse con otros sistemas de IA, como los modelos de generación de video, para habilitar nuevas experiencias
Aún no hay comentarios.