SAM 2: Segment Anything para imágenes y video

(github.com/facebookresearch)

5 puntos por GN⁺ 2024-07-30 | 2 comentarios | Compartir por WhatsApp

Segment Anything Model 2 es un modelo para resolver el problema de segmentación visual guiada por prompts en imágenes y video
- Amplía el modelo a video al considerar una imagen como un video de un solo fotograma
- Usa una arquitectura simple de transformer con memoria en streaming para procesamiento de video en tiempo real
- Se construyó un motor de datos para mejorar el modelo y los datos mediante la interacción del usuario, con el que se recopiló el dataset SA-V
Ofrece un rendimiento sólido en diversas tareas y dominios visuales
También se publicó el dataset Segment Anything Video (SA-V)
- Está compuesto por 50,583 videos diversos y 642,036 máscaras espaciotemporales de alta calidad (Masklet)
- Licencia CC by 4.0

2 comentarios

xguru 2024-07-31

Segment Anything Model (SAM): el modelo de IA de Meta que extrae cualquier objeto de una imagen
SAM.cpp - implementación en C/C++ puro de Segment Anything Model de Meta

GN⁺ 2024-07-30

Comentarios en Hacker News

Le interesa la mejora en mIoU y la velocidad de procesamiento de imágenes, 6 veces mayor
- La mejora de velocidad se debe principalmente a un codificador más eficiente
- Puede que haya menos ventaja en múltiples segmentaciones de la misma imagen
- Hace falta una comparación con el SAM original
El equipo de Segment Anything lanzó el modelo SAM 2
- Es el primer modelo unificado para segmentación de objetos en tiempo real
- Publicaron el código, los modelos, el conjunto de datos, el artículo de investigación y el demo
- Genera expectativa ver qué construirán los usuarios
Ya había trabajado con SAM 1
- Resumen del artículo de SAM 2:
  - Fue entrenado durante 108 horas con 256 GPU A100
  - El costo de entrenamiento es relativamente bajo, alrededor de $50k
  - El nuevo conjunto de datos SA-V está compuesto por 50k videos
  - Usa un método de bootstrap de anotación en 3 etapas
  - Se añadió una función de atención con memoria
Quiere entrenar un modelo para clasificar fotogramas de video y encontrar fotogramas específicos
- Se pregunta si puede usar SAM-2 como modelo base
Es muy fan de la función de pérdida de SAM
- Expresa su agradecimiento
El demo web está muy pulido
- Cuando selecciona cada zapato como objeto individual, el modelo los segmenta incluso cuando están superpuestos
El primer modelo de SAM fue el más útil
- Tiene ganas de probar SAM2
El demo de investigación no se puede usar en Illinois ni en Texas
- Se pregunta por qué
Hay preocupación por el uso militar
Es un logro sorprendente

SAM 2: Segment Anything para imágenes y video

Lecturas relacionadas

2 comentarios

Comentarios en Hacker News