7 puntos por GN⁺ 2025-11-20 | 1 comentarios | Compartir por WhatsApp
  • Presentación de SAM 3, que encuentra, segmenta y rastrea los objetos deseados en imágenes y video usando texto, imágenes de ejemplo y prompts visuales
  • Se ofrece un entorno para que cualquiera pueda experimentar fácilmente a través de Segment Anything Playground, junto con checkpoints del modelo, dataset de evaluación y código de fine-tuning
  • Con la presentación del nuevo benchmark de segmentación conceptual a gran escala SA-Co y de SAM 3D, se expande el ecosistema de segmentación conceptual para abarcar 2D y 3D
  • Se están aplicando nuevas funciones de generación y edición de medios basadas en segmentación de objetos en los servicios de Meta, incluidos Marketplace, Instagram Edits y Meta AI
  • Como modelo que integra segmentación conceptual basada en texto y ejemplos, crece su potencial como herramienta de percepción de propósito general en investigación, industria, conservación y robótica

Resumen de SAM 3

  • Es un modelo unificado que recibe distintos prompts como texto, ejemplos de imagen, máscaras, cajas y puntos para detectar, segmentar y rastrear conceptos en imágenes y video
    • Soporta de forma nativa segmentación de vocabulario abierto basada en frases nominales cortas
    • Prompts complejos como “people sitting down but not holding a gift box” pueden procesarse en combinación con un MLLM
  • Supera la limitación del SAM original, que estaba atado a un conjunto fijo de etiquetas, y se amplía a la segmentación de conceptos arbitrarios (promptable concept)
  • El nuevo benchmark SA-Co (Segment Anything with Concepts) mide el rendimiento de reconocimiento conceptual a gran escala en imágenes y video

Funciones principales

  • Soporta detección conceptual basada en prompts de texto y segmentación de todas las instancias
    • También maneja descripciones detalladas como “striped red umbrella”
  • Permite definir conceptos del mundo real mediante ejemplos de imagen (exemplar)
  • Mantiene los prompts de caja/punto/máscara ya disponibles en SAM 1 y 2
  • Usa un MLLM como herramienta para realizar exploración iterativa ante consultas complejas (SAM 3 Agent)

Motor de datos

  • Se construyó un pipeline híbrido de creación de datos que combina SAM 3 + personas + un anotador de IA (basado en Llama 3.2v)
    • Captioning automático → generación de etiquetas de texto → creación de máscaras iniciales → validación por IA/personas
    • Procesamiento 5 veces más rápido en prompts negativos (conceptos ausentes) y 36% de mejora en velocidad también en prompts positivos
  • Se creó un conjunto de entrenamiento a gran escala con más de 4 millones de conceptos únicos
  • Se amplió la cobertura de conceptos raros con una ontología de conceptos basada en wiki

Arquitectura del modelo

  • Los codificadores de texto/imagen se basan en Meta Perception Encoder
  • La detección de objetos usa DETR, y el rastreo aprovecha la configuración de memory bank + tracker de SAM 2
  • La clave está en diseñar una receta de entrenamiento que evite conflictos para ejecutar múltiples tareas (detección, rastreo y segmentación) en un solo modelo

Rendimiento

  • En imágenes y video, logra una mejora de 2 veces en cgF1 frente a modelos previos
  • Obtiene mejores resultados que modelos especializados como Gemini 2.5 Pro, GLEE, OWLv2 y LLMDet
  • En la evaluación de preferencia de usuarios, los resultados de SAM 3 fueron superiores por una proporción de 3:1
  • 30 ms por imagen individual y procesamiento casi en tiempo real en video con 5 objetos
  • También se confirmaron mejoras en zero-shot sobre LVIS y CountBench, entre otros

Casos científicos y de uso real

  • SA-FARI: dataset público con más de 100 especies y más de 10 mil videos de cámaras trampa de vida silvestre
  • FathomNet: nuevo benchmark para segmentación de instancias de vida marina
  • Marketplace “View in Room”: visualización de iluminación, muebles y otras distribuciones interiores implementada con SAM 3 y SAM 3D
  • Próximamente habrá funciones de aplicación de efectos de video basados en objetos en Instagram Edits, la app Meta AI y meta.ai

SAM 3D

  • Se publican modelo, código y datos para la reconstrucción 3D de objetos y personas a partir de una sola imagen
  • Ofrece grounded reconstruction teniendo en cuenta el contexto espacial real

Limitaciones y próximos retos

  • La generalización zero-shot sigue siendo limitada para conceptos finos de dominios especializados (como platelet)
    • Puede adaptarse rápidamente con fine-tuning usando poca cantidad de datos
    • Se ofrece una receta de fine-tuning open source
  • Las oraciones cortas se soportan de forma nativa, pero descripciones complejas como “top shelf second to last book” requieren combinación con un MLLM
  • En video, el costo de procesamiento aumenta linealmente a medida que crece el número de objetos
    • Compartir información relacional entre objetos es un punto de mejora futura

Segment Anything Playground

  • Plataforma web para probar SAM 3 sin conocimientos técnicos
    • Incluye plantillas para pixelar rostros/placas/píxeles de pantalla, spotlight, motion trail y ampliación de objetos específicos
    • También puede usarse para anotación de datos y pruebas de estrés
  • Ofrece segmentación y rastreo estables incluso en videos egocéntricos del wearable Aria Gen 2
    • Puede aprovecharse en investigación de robótica y percepción basada en perspectiva humana

1 comentarios

 
GN⁺ 2025-11-20
Opiniones de Hacker News
  • Se agradece que Meta siga contribuyendo al código abierto y publicando modelos como este
    Sé que hay una visión crítica sobre la empresa, pero este tipo de acciones benefician a todos

    • También estoy de acuerdo. Hace tiempo, por ahí de 2005, reporté una vulnerabilidad de seguridad, y en ese entonces la cultura de la empresa era distinta
      Ahora parece haber cambiado bastante hacia una dirección más centrada en la comunidad
    • No me gusta mucho la parte de redes sociales, pero hay que reconocer la apertura de modelos de Meta
      Otros grandes laboratorios de investigación no publican modelos de esta manera
  • Mi primera impresión al usarlo es que este modelo es increíblemente bueno
    La detección por texto “zero-shot” está muy por delante de la generación anterior de modelos o de VLM recientes como Gemini y Qwen
    Con supervisión humana, parece que incluso podría usarse bien como modelo docente
    Antes ajusté YOLO para detectar presas de escalada, y SAM3 logra como el 90% de ese resultado sin entrenamiento
    Eso sí, falla con presas de madera de bajo contraste o apoyos pequeños para el pie

    • ¿Has trabajado por casualidad en algo como la app Stokt? Esa app es bastante conocida ahora en el mundo de la escalada
    • Trabajo en una plataforma que etiqueta mil millones de imágenes, y creo que SAM3 podría automatizar más del 90% de eso
      Ya no se trata de que la persona ayude al modelo, sino de que el modelo ayude a la persona
      Se puede ver más en el blog de Roboflow
  • El generador de mallas 3D también está buenísimo
    En la demo de SAM3D, maneja bien la separación de objetos ocluidos, como una persona sentada en una silla, y además es rápido

    • De verdad impresiona. Pero, ¿se puede exportar directamente la malla 3D?
      Yo solo pude descargar el video; me pregunto si hay que comprar tokens o algo así
  • Mi caso de uso es el seguimiento de patrones en placas de circuito, y el modelo sigue siendo débil en esa parte
    Maneja bien imágenes como un caballo en la playa, pero encaja menos con datos industriales
    Supongo que mejoraría con fine-tuning, pero todavía no lo he probado

    • Es un caso interesante. ¿Podrías compartir algún enlace de ejemplo que sirva como referencia?
  • Probé SAM3 para quitar el fondo de dibujos hechos por niños
    (presentación del proyecto relacionado)
    Pero BiRefNet v2 sigue funcionando con un poco más de precisión
    SAM3 es algo impreciso al recortar siguiendo las líneas, y deja partes blancas del papel
    Aun así, SAM3 va más allá de simplemente quitar el fondo: tiene la capacidad de reconocer el significado del dibujo
    Incluso podría reconocer dibujos hechos por niños y conectarlos con acciones dentro de un juego

    • Me parece interesante que hayas probado BiRefNet para quitar fondos
      ¿Crees que en este momento es el modelo con mejor rendimiento? También me da curiosidad qué otras alternativas hay
  • Me gusta ver que en la lista de autores del paper aparezcan indicaciones como “Core contributor (Alphabetical, Equal Contribution)
    La forma igualitaria de señalar las contribuciones llama la atención

  • En los últimos 5 años, la velocidad de avance en visión por computadora ha sido lenta
    La comprensión del lenguaje se ha acercado al nivel humano gracias a los LLM, pero la visión sigue quedándose corta
    La segmentación de objetos o la generalización en imágenes científicas siguen siendo difíciles, y da la impresión de que falta algo aun teniendo suficientes datos
    Quizá haga falta agencia en entornos 3D o señales de aprendizaje más ricas

    • No soy experto, pero siento que falta un modelo del mundo (world model)
      Los humanos no juzgamos solo por información visual; también completamos con contexto y experiencia
      Por ejemplo, si en la noche ves una silueta oscura en el camino, puedes inferir por experiencias previas o por la información del entorno si es un caballo o una cerca
      Ese tipo de razonamiento contextual falta en los modelos actuales
    • Sigue habiendo limitaciones en la idea de que “los LLM entienden texto a nivel humano”
  • Mi campo es la segmentación de volúmenes 3D en imagen médica
    Probé SAM2 usando un enfoque de slices 2D, pero no resultó competitivo frente a nnUNet, que sigue siendo el estándar actual

    • Unet ha sido el modelo más usado en imagen médica durante los últimos 10 años
      Pero creo que la combinación de LLM + VLM podría ser una nueva dirección
      De hecho probé esta demo y funcionó bastante bien
  • SAM3 es un gran modelo
    Ya puede usarse de una forma más interactiva en chat.vlm.run,
    y también combinarse con SAM y otros modelos de visión sobre el nuevo modelo Orion de nuestro equipo
    Pronto también se añadirá segmentación y seguimiento de video

    • Lo probé de verdad, y pude hacer segmentación de una persona y un perro dentro de la misma sesión de chat
      Ejemplo del resultado
  • Creo que, por la latencia promedio de 4 segundos, todavía sería difícil usarlo en video en tiempo real
    (la fuente se puede ver en una publicación relacionada de roboflow.com)

    • Ese valor probablemente sea un tema de recursos de cómputo
      Según el blog, en una GPU H200 solo toma 30 ms procesar una sola imagen con más de 100 objetos