- Segment Anything Model 2 es un modelo para resolver el problema de segmentación visual guiada por prompts en imágenes y video
- Amplía el modelo a video al considerar una imagen como un video de un solo fotograma
- Usa una arquitectura simple de transformer con memoria en streaming para procesamiento de video en tiempo real
- Se construyó un motor de datos para mejorar el modelo y los datos mediante la interacción del usuario, con el que se recopiló el dataset SA-V
- Ofrece un rendimiento sólido en diversas tareas y dominios visuales
- También se publicó el dataset Segment Anything Video (SA-V)
- Está compuesto por 50,583 videos diversos y 642,036 máscaras espaciotemporales de alta calidad (Masklet)
- Licencia CC by 4.0
2 comentarios
Segment Anything Model (SAM): el modelo de IA de Meta que extrae cualquier objeto de una imagen
SAM.cpp - implementación en C/C++ puro de Segment Anything Model de Meta
Comentarios en Hacker News
Le interesa la mejora en mIoU y la velocidad de procesamiento de imágenes, 6 veces mayor
El equipo de Segment Anything lanzó el modelo SAM 2
Ya había trabajado con SAM 1
Quiere entrenar un modelo para clasificar fotogramas de video y encontrar fotogramas específicos
Es muy fan de la función de pérdida de SAM
El demo web está muy pulido
El primer modelo de SAM fue el más útil
El demo de investigación no se puede usar en Illinois ni en Texas
Hay preocupación por el uso militar
Es un logro sorprendente