2 puntos por GN⁺ 2024-08-02 | Aún no hay comentarios. | Compartir por WhatsApp

Introducción a Meta Segment Anything Model 2 (SAM 2)

Funciones principales

  • Segmentación de objetos en cualquier video e imagen

    • SAM 2 es el primer modelo unificado para segmentar objetos en imágenes y videos
    • Se pueden usar clics, cuadros y máscaras como entradas para seleccionar objetos en una imagen o en cuadros de video
  • Selección y ajuste de objetos entre cuadros de video

    • Con SAM 2 se puede seleccionar uno o varios objetos en cuadros de video
    • Se pueden usar prompts adicionales para ajustar con precisión las predicciones del modelo
  • Rendimiento sólido de segmentación incluso en videos desconocidos

    • SAM 2 ofrece un sólido rendimiento zero-shot incluso con objetos, imágenes y videos que el modelo no vio durante el entrenamiento
    • Puede usarse en diversas aplicaciones del mundo real
  • Interacción y resultados en tiempo real

    • SAM 2 hace posibles aplicaciones interactivas en tiempo real mediante inferencia en streaming
  • Rendimiento de segmentación de objetos de última generación

    • SAM 2 supera a los mejores modelos en segmentación de objetos tanto en video como en imagen

Aspectos destacados

  • Mejor rendimiento en segmentación de imágenes que SAM
  • Mejor rendimiento que los modelos existentes de segmentación de objetos en video, especialmente en seguimiento parcial
  • Requiere menos tiempo de interacción que los métodos existentes de segmentación interactiva de video

Pruébalo directamente

  • Se puede rastrear un objeto con un solo clic en un cuadro de video y crear efectos divertidos
  • Probar demo

Arquitectura del modelo

  • Diseño de Meta Segment Anything Model 2
    • El modelo SAM 2 se amplió al dominio del video mediante la adición de un módulo de memoria por sesión
    • Este módulo captura información sobre los objetos objetivo en el video, lo que permite rastrear objetos en todos los cuadros incluso cuando dejan de verse temporalmente
    • También permite corregir las predicciones de máscaras con base en prompts adicionales
    • La arquitectura en streaming de SAM 2 procesa los cuadros de video uno por uno, lo que le permite generalizarse de forma natural al dominio del video

Segment Anything Video Dataset

  • Dataset de segmentación de video grande y diverso

    • SAM 2 fue entrenado con un conjunto grande y diverso de videos y masklets (máscaras de objetos a lo largo del tiempo)
    • Los datos de entrenamiento incluyen el dataset público SA-V
  • Aspectos destacados

    • Se recopilaron más de 600,000 masklets de alrededor de 51,000 videos
    • Escenarios reales geográficamente diversos en 47 países
    • Anotaciones que incluyen objetos completos, parciales y casos difíciles de oclusión

Publicación de la investigación

  • Innovación abierta

    • Se publicaron los modelos preentrenados de Segment Anything 2, el dataset SA-V, demos y código para que la comunidad de investigación pueda construir sobre este trabajo
  • Aspectos destacados

    • Transparencia sobre los datos de entrenamiento de SAM 2
    • Prioridad a la diversidad geográfica del dataset SA-V para representar el mundo real
    • Se realizó una evaluación de equidad de SAM 2

Posibles aplicaciones del modelo

  • Salidas escalables

    • La salida de segmentación de objetos en video de SAM 2 puede usarse como entrada para otros sistemas de IA, como los modelos modernos de generación de video
  • Entradas escalables

    • SAM 2 puede aceptar otros tipos de prompts de entrada, permitiendo formas creativas de interactuar con objetos en video en tiempo real o en video en vivo

Explora recursos adicionales

Resumen de GN⁺

  • SAM 2 es un modelo unificado para segmentar objetos en imágenes y videos, con interacción en tiempo real y sólido rendimiento zero-shot
  • Fue diseñado para usarse en diversos escenarios del mundo real e incluye un dataset y código publicados para la comunidad de investigación
  • Supera a los modelos existentes en seguimiento y segmentación de objetos en video, y ofrece alta precisión con menos tiempo de interacción
  • SAM 2 puede combinarse con otros sistemas de IA, como los modelos de generación de video, para habilitar nuevas experiencias

Aún no hay comentarios.

Aún no hay comentarios.