- Presentación de SAM 3, que encuentra, segmenta y rastrea los objetos deseados en imágenes y video usando texto, imágenes de ejemplo y prompts visuales
- Se ofrece un entorno para que cualquiera pueda experimentar fácilmente a través de Segment Anything Playground, junto con checkpoints del modelo, dataset de evaluación y código de fine-tuning
- Con la presentación del nuevo benchmark de segmentación conceptual a gran escala SA-Co y de SAM 3D, se expande el ecosistema de segmentación conceptual para abarcar 2D y 3D
- Se están aplicando nuevas funciones de generación y edición de medios basadas en segmentación de objetos en los servicios de Meta, incluidos Marketplace, Instagram Edits y Meta AI
- Como modelo que integra segmentación conceptual basada en texto y ejemplos, crece su potencial como herramienta de percepción de propósito general en investigación, industria, conservación y robótica
Resumen de SAM 3
- Es un modelo unificado que recibe distintos prompts como texto, ejemplos de imagen, máscaras, cajas y puntos para detectar, segmentar y rastrear conceptos en imágenes y video
- Soporta de forma nativa segmentación de vocabulario abierto basada en frases nominales cortas
- Prompts complejos como “people sitting down but not holding a gift box” pueden procesarse en combinación con un MLLM
- Supera la limitación del SAM original, que estaba atado a un conjunto fijo de etiquetas, y se amplía a la segmentación de conceptos arbitrarios (promptable concept)
- El nuevo benchmark SA-Co (Segment Anything with Concepts) mide el rendimiento de reconocimiento conceptual a gran escala en imágenes y video
Funciones principales
- Soporta detección conceptual basada en prompts de texto y segmentación de todas las instancias
- También maneja descripciones detalladas como “striped red umbrella”
- Permite definir conceptos del mundo real mediante ejemplos de imagen (exemplar)
- Mantiene los prompts de caja/punto/máscara ya disponibles en SAM 1 y 2
- Usa un MLLM como herramienta para realizar exploración iterativa ante consultas complejas (SAM 3 Agent)
Motor de datos
- Se construyó un pipeline híbrido de creación de datos que combina SAM 3 + personas + un anotador de IA (basado en Llama 3.2v)
- Captioning automático → generación de etiquetas de texto → creación de máscaras iniciales → validación por IA/personas
- Procesamiento 5 veces más rápido en prompts negativos (conceptos ausentes) y 36% de mejora en velocidad también en prompts positivos
- Se creó un conjunto de entrenamiento a gran escala con más de 4 millones de conceptos únicos
- Se amplió la cobertura de conceptos raros con una ontología de conceptos basada en wiki
Arquitectura del modelo
- Los codificadores de texto/imagen se basan en Meta Perception Encoder
- La detección de objetos usa DETR, y el rastreo aprovecha la configuración de memory bank + tracker de SAM 2
- La clave está en diseñar una receta de entrenamiento que evite conflictos para ejecutar múltiples tareas (detección, rastreo y segmentación) en un solo modelo
Rendimiento
- En imágenes y video, logra una mejora de 2 veces en cgF1 frente a modelos previos
- Obtiene mejores resultados que modelos especializados como Gemini 2.5 Pro, GLEE, OWLv2 y LLMDet
- En la evaluación de preferencia de usuarios, los resultados de SAM 3 fueron superiores por una proporción de 3:1
- 30 ms por imagen individual y procesamiento casi en tiempo real en video con 5 objetos
- También se confirmaron mejoras en zero-shot sobre LVIS y CountBench, entre otros
Casos científicos y de uso real
- SA-FARI: dataset público con más de 100 especies y más de 10 mil videos de cámaras trampa de vida silvestre
- FathomNet: nuevo benchmark para segmentación de instancias de vida marina
- Marketplace “View in Room”: visualización de iluminación, muebles y otras distribuciones interiores implementada con SAM 3 y SAM 3D
- Próximamente habrá funciones de aplicación de efectos de video basados en objetos en Instagram Edits, la app Meta AI y meta.ai
SAM 3D
- Se publican modelo, código y datos para la reconstrucción 3D de objetos y personas a partir de una sola imagen
- Ofrece grounded reconstruction teniendo en cuenta el contexto espacial real
Limitaciones y próximos retos
- La generalización zero-shot sigue siendo limitada para conceptos finos de dominios especializados (como platelet)
- Puede adaptarse rápidamente con fine-tuning usando poca cantidad de datos
- Se ofrece una receta de fine-tuning open source
- Las oraciones cortas se soportan de forma nativa, pero descripciones complejas como “top shelf second to last book” requieren combinación con un MLLM
- En video, el costo de procesamiento aumenta linealmente a medida que crece el número de objetos
- Compartir información relacional entre objetos es un punto de mejora futura
Segment Anything Playground
- Plataforma web para probar SAM 3 sin conocimientos técnicos
- Incluye plantillas para pixelar rostros/placas/píxeles de pantalla, spotlight, motion trail y ampliación de objetos específicos
- También puede usarse para anotación de datos y pruebas de estrés
- Ofrece segmentación y rastreo estables incluso en videos egocéntricos del wearable Aria Gen 2
- Puede aprovecharse en investigación de robótica y percepción basada en perspectiva humana
1 comentarios
Opiniones de Hacker News
Se agradece que Meta siga contribuyendo al código abierto y publicando modelos como este
Sé que hay una visión crítica sobre la empresa, pero este tipo de acciones benefician a todos
Ahora parece haber cambiado bastante hacia una dirección más centrada en la comunidad
Otros grandes laboratorios de investigación no publican modelos de esta manera
Mi primera impresión al usarlo es que este modelo es increíblemente bueno
La detección por texto “zero-shot” está muy por delante de la generación anterior de modelos o de VLM recientes como Gemini y Qwen
Con supervisión humana, parece que incluso podría usarse bien como modelo docente
Antes ajusté YOLO para detectar presas de escalada, y SAM3 logra como el 90% de ese resultado sin entrenamiento
Eso sí, falla con presas de madera de bajo contraste o apoyos pequeños para el pie
Ya no se trata de que la persona ayude al modelo, sino de que el modelo ayude a la persona
Se puede ver más en el blog de Roboflow
El generador de mallas 3D también está buenísimo
En la demo de SAM3D, maneja bien la separación de objetos ocluidos, como una persona sentada en una silla, y además es rápido
Yo solo pude descargar el video; me pregunto si hay que comprar tokens o algo así
Mi caso de uso es el seguimiento de patrones en placas de circuito, y el modelo sigue siendo débil en esa parte
Maneja bien imágenes como un caballo en la playa, pero encaja menos con datos industriales
Supongo que mejoraría con fine-tuning, pero todavía no lo he probado
Probé SAM3 para quitar el fondo de dibujos hechos por niños
(presentación del proyecto relacionado)
Pero BiRefNet v2 sigue funcionando con un poco más de precisión
SAM3 es algo impreciso al recortar siguiendo las líneas, y deja partes blancas del papel
Aun así, SAM3 va más allá de simplemente quitar el fondo: tiene la capacidad de reconocer el significado del dibujo
Incluso podría reconocer dibujos hechos por niños y conectarlos con acciones dentro de un juego
¿Crees que en este momento es el modelo con mejor rendimiento? También me da curiosidad qué otras alternativas hay
Me gusta ver que en la lista de autores del paper aparezcan indicaciones como “Core contributor (Alphabetical, Equal Contribution)”
La forma igualitaria de señalar las contribuciones llama la atención
En los últimos 5 años, la velocidad de avance en visión por computadora ha sido lenta
La comprensión del lenguaje se ha acercado al nivel humano gracias a los LLM, pero la visión sigue quedándose corta
La segmentación de objetos o la generalización en imágenes científicas siguen siendo difíciles, y da la impresión de que falta algo aun teniendo suficientes datos
Quizá haga falta agencia en entornos 3D o señales de aprendizaje más ricas
Los humanos no juzgamos solo por información visual; también completamos con contexto y experiencia
Por ejemplo, si en la noche ves una silueta oscura en el camino, puedes inferir por experiencias previas o por la información del entorno si es un caballo o una cerca
Ese tipo de razonamiento contextual falta en los modelos actuales
Mi campo es la segmentación de volúmenes 3D en imagen médica
Probé SAM2 usando un enfoque de slices 2D, pero no resultó competitivo frente a nnUNet, que sigue siendo el estándar actual
Pero creo que la combinación de LLM + VLM podría ser una nueva dirección
De hecho probé esta demo y funcionó bastante bien
SAM3 es un gran modelo
Ya puede usarse de una forma más interactiva en chat.vlm.run,
y también combinarse con SAM y otros modelos de visión sobre el nuevo modelo Orion de nuestro equipo
Pronto también se añadirá segmentación y seguimiento de video
Ejemplo del resultado
Creo que, por la latencia promedio de 4 segundos, todavía sería difícil usarlo en video en tiempo real
(la fuente se puede ver en una publicación relacionada de roboflow.com)
Según el blog, en una GPU H200 solo toma 30 ms procesar una sola imagen con más de 100 objetos