Meta presenta Segment Anything Model 3 (SAM 3)

(ai.meta.com)

7 puntos por GN⁺ 2025-11-20 | 1 comentarios | Compartir por WhatsApp

Presentación de SAM 3, que encuentra, segmenta y rastrea los objetos deseados en imágenes y video usando texto, imágenes de ejemplo y prompts visuales
Se ofrece un entorno para que cualquiera pueda experimentar fácilmente a través de Segment Anything Playground, junto con checkpoints del modelo, dataset de evaluación y código de fine-tuning
Con la presentación del nuevo benchmark de segmentación conceptual a gran escala SA-Co y de SAM 3D, se expande el ecosistema de segmentación conceptual para abarcar 2D y 3D
Se están aplicando nuevas funciones de generación y edición de medios basadas en segmentación de objetos en los servicios de Meta, incluidos Marketplace, Instagram Edits y Meta AI
Como modelo que integra segmentación conceptual basada en texto y ejemplos, crece su potencial como herramienta de percepción de propósito general en investigación, industria, conservación y robótica

Resumen de SAM 3

Es un modelo unificado que recibe distintos prompts como texto, ejemplos de imagen, máscaras, cajas y puntos para detectar, segmentar y rastrear conceptos en imágenes y video
- Soporta de forma nativa segmentación de vocabulario abierto basada en frases nominales cortas
- Prompts complejos como “people sitting down but not holding a gift box” pueden procesarse en combinación con un MLLM
Supera la limitación del SAM original, que estaba atado a un conjunto fijo de etiquetas, y se amplía a la segmentación de conceptos arbitrarios (promptable concept)
El nuevo benchmark SA-Co (Segment Anything with Concepts) mide el rendimiento de reconocimiento conceptual a gran escala en imágenes y video

Funciones principales

Soporta detección conceptual basada en prompts de texto y segmentación de todas las instancias
- También maneja descripciones detalladas como “striped red umbrella”
Permite definir conceptos del mundo real mediante ejemplos de imagen (exemplar)
Mantiene los prompts de caja/punto/máscara ya disponibles en SAM 1 y 2
Usa un MLLM como herramienta para realizar exploración iterativa ante consultas complejas (SAM 3 Agent)

Motor de datos

Se construyó un pipeline híbrido de creación de datos que combina SAM 3 + personas + un anotador de IA (basado en Llama 3.2v)
- Captioning automático → generación de etiquetas de texto → creación de máscaras iniciales → validación por IA/personas
- Procesamiento 5 veces más rápido en prompts negativos (conceptos ausentes) y 36% de mejora en velocidad también en prompts positivos
Se creó un conjunto de entrenamiento a gran escala con más de 4 millones de conceptos únicos
Se amplió la cobertura de conceptos raros con una ontología de conceptos basada en wiki

Arquitectura del modelo

Los codificadores de texto/imagen se basan en Meta Perception Encoder
La detección de objetos usa DETR, y el rastreo aprovecha la configuración de memory bank + tracker de SAM 2
La clave está en diseñar una receta de entrenamiento que evite conflictos para ejecutar múltiples tareas (detección, rastreo y segmentación) en un solo modelo

Rendimiento

En imágenes y video, logra una mejora de 2 veces en cgF1 frente a modelos previos
Obtiene mejores resultados que modelos especializados como Gemini 2.5 Pro, GLEE, OWLv2 y LLMDet
En la evaluación de preferencia de usuarios, los resultados de SAM 3 fueron superiores por una proporción de 3:1
30 ms por imagen individual y procesamiento casi en tiempo real en video con 5 objetos
También se confirmaron mejoras en zero-shot sobre LVIS y CountBench, entre otros

Casos científicos y de uso real

SA-FARI: dataset público con más de 100 especies y más de 10 mil videos de cámaras trampa de vida silvestre
FathomNet: nuevo benchmark para segmentación de instancias de vida marina
Marketplace “View in Room”: visualización de iluminación, muebles y otras distribuciones interiores implementada con SAM 3 y SAM 3D
Próximamente habrá funciones de aplicación de efectos de video basados en objetos en Instagram Edits, la app Meta AI y meta.ai

SAM 3D

Se publican modelo, código y datos para la reconstrucción 3D de objetos y personas a partir de una sola imagen
Ofrece grounded reconstruction teniendo en cuenta el contexto espacial real

Limitaciones y próximos retos

La generalización zero-shot sigue siendo limitada para conceptos finos de dominios especializados (como platelet)
- Puede adaptarse rápidamente con fine-tuning usando poca cantidad de datos
- Se ofrece una receta de fine-tuning open source
Las oraciones cortas se soportan de forma nativa, pero descripciones complejas como “top shelf second to last book” requieren combinación con un MLLM
En video, el costo de procesamiento aumenta linealmente a medida que crece el número de objetos
- Compartir información relacional entre objetos es un punto de mejora futura

Segment Anything Playground

Plataforma web para probar SAM 3 sin conocimientos técnicos
- Incluye plantillas para pixelar rostros/placas/píxeles de pantalla, spotlight, motion trail y ampliación de objetos específicos
- También puede usarse para anotación de datos y pruebas de estrés
Ofrece segmentación y rastreo estables incluso en videos egocéntricos del wearable Aria Gen 2
- Puede aprovecharse en investigación de robótica y percepción basada en perspectiva humana

1 comentarios

GN⁺ 2025-11-20

Opiniones de Hacker News

Se agradece que Meta siga contribuyendo al código abierto y publicando modelos como este
Sé que hay una visión crítica sobre la empresa, pero este tipo de acciones benefician a todos
- También estoy de acuerdo. Hace tiempo, por ahí de 2005, reporté una vulnerabilidad de seguridad, y en ese entonces la cultura de la empresa era distinta
  Ahora parece haber cambiado bastante hacia una dirección más centrada en la comunidad
- No me gusta mucho la parte de redes sociales, pero hay que reconocer la apertura de modelos de Meta
  Otros grandes laboratorios de investigación no publican modelos de esta manera
Mi primera impresión al usarlo es que este modelo es increíblemente bueno
La detección por texto “zero-shot” está muy por delante de la generación anterior de modelos o de VLM recientes como Gemini y Qwen
Con supervisión humana, parece que incluso podría usarse bien como modelo docente
Antes ajusté YOLO para detectar presas de escalada, y SAM3 logra como el 90% de ese resultado sin entrenamiento
Eso sí, falla con presas de madera de bajo contraste o apoyos pequeños para el pie
- ¿Has trabajado por casualidad en algo como la app Stokt? Esa app es bastante conocida ahora en el mundo de la escalada
- Trabajo en una plataforma que etiqueta mil millones de imágenes, y creo que SAM3 podría automatizar más del 90% de eso
  Ya no se trata de que la persona ayude al modelo, sino de que el modelo ayude a la persona
  Se puede ver más en el blog de Roboflow
El generador de mallas 3D también está buenísimo
En la demo de SAM3D, maneja bien la separación de objetos ocluidos, como una persona sentada en una silla, y además es rápido
- De verdad impresiona. Pero, ¿se puede exportar directamente la malla 3D?
  Yo solo pude descargar el video; me pregunto si hay que comprar tokens o algo así
Mi caso de uso es el seguimiento de patrones en placas de circuito, y el modelo sigue siendo débil en esa parte
Maneja bien imágenes como un caballo en la playa, pero encaja menos con datos industriales
Supongo que mejoraría con fine-tuning, pero todavía no lo he probado
- Es un caso interesante. ¿Podrías compartir algún enlace de ejemplo que sirva como referencia?
Probé SAM3 para quitar el fondo de dibujos hechos por niños
(presentación del proyecto relacionado)
Pero BiRefNet v2 sigue funcionando con un poco más de precisión
SAM3 es algo impreciso al recortar siguiendo las líneas, y deja partes blancas del papel
Aun así, SAM3 va más allá de simplemente quitar el fondo: tiene la capacidad de reconocer el significado del dibujo
Incluso podría reconocer dibujos hechos por niños y conectarlos con acciones dentro de un juego
- Me parece interesante que hayas probado BiRefNet para quitar fondos
  ¿Crees que en este momento es el modelo con mejor rendimiento? También me da curiosidad qué otras alternativas hay
Me gusta ver que en la lista de autores del paper aparezcan indicaciones como “Core contributor (Alphabetical, Equal Contribution)”
La forma igualitaria de señalar las contribuciones llama la atención
En los últimos 5 años, la velocidad de avance en visión por computadora ha sido lenta
La comprensión del lenguaje se ha acercado al nivel humano gracias a los LLM, pero la visión sigue quedándose corta
La segmentación de objetos o la generalización en imágenes científicas siguen siendo difíciles, y da la impresión de que falta algo aun teniendo suficientes datos
Quizá haga falta agencia en entornos 3D o señales de aprendizaje más ricas
- No soy experto, pero siento que falta un modelo del mundo (world model)
  Los humanos no juzgamos solo por información visual; también completamos con contexto y experiencia
  Por ejemplo, si en la noche ves una silueta oscura en el camino, puedes inferir por experiencias previas o por la información del entorno si es un caballo o una cerca
  Ese tipo de razonamiento contextual falta en los modelos actuales
- Sigue habiendo limitaciones en la idea de que “los LLM entienden texto a nivel humano”
Mi campo es la segmentación de volúmenes 3D en imagen médica
Probé SAM2 usando un enfoque de slices 2D, pero no resultó competitivo frente a nnUNet, que sigue siendo el estándar actual
- Unet ha sido el modelo más usado en imagen médica durante los últimos 10 años
  Pero creo que la combinación de LLM + VLM podría ser una nueva dirección
  De hecho probé esta demo y funcionó bastante bien
SAM3 es un gran modelo
Ya puede usarse de una forma más interactiva en chat.vlm.run,
y también combinarse con SAM y otros modelos de visión sobre el nuevo modelo Orion de nuestro equipo
Pronto también se añadirá segmentación y seguimiento de video
- Lo probé de verdad, y pude hacer segmentación de una persona y un perro dentro de la misma sesión de chat
  Ejemplo del resultado
Creo que, por la latencia promedio de 4 segundos, todavía sería difícil usarlo en video en tiempo real
(la fuente se puede ver en una publicación relacionada de roboflow.com)
- Ese valor probablemente sea un tema de recursos de cómputo
  Según el blog, en una GPU H200 solo toma 30 ms procesar una sola imagen con más de 100 objetos

Meta presenta Segment Anything Model 3 (SAM 3)

Resumen de SAM 3

Funciones principales

Motor de datos

Arquitectura del modelo

Rendimiento

Casos científicos y de uso real

SAM 3D

Limitaciones y próximos retos

Segment Anything Playground

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News