5 puntos por GN⁺ 2024-07-30 | 2 comentarios | Compartir por WhatsApp
  • Segment Anything Model 2 es un modelo para resolver el problema de segmentación visual guiada por prompts en imágenes y video
    • Amplía el modelo a video al considerar una imagen como un video de un solo fotograma
    • Usa una arquitectura simple de transformer con memoria en streaming para procesamiento de video en tiempo real
    • Se construyó un motor de datos para mejorar el modelo y los datos mediante la interacción del usuario, con el que se recopiló el dataset SA-V
  • Ofrece un rendimiento sólido en diversas tareas y dominios visuales
  • También se publicó el dataset Segment Anything Video (SA-V)
    • Está compuesto por 50,583 videos diversos y 642,036 máscaras espaciotemporales de alta calidad (Masklet)
    • Licencia CC by 4.0

2 comentarios

 
GN⁺ 2024-07-30
Comentarios en Hacker News
  • Le interesa la mejora en mIoU y la velocidad de procesamiento de imágenes, 6 veces mayor

    • La mejora de velocidad se debe principalmente a un codificador más eficiente
    • Puede que haya menos ventaja en múltiples segmentaciones de la misma imagen
    • Hace falta una comparación con el SAM original
  • El equipo de Segment Anything lanzó el modelo SAM 2

    • Es el primer modelo unificado para segmentación de objetos en tiempo real
    • Publicaron el código, los modelos, el conjunto de datos, el artículo de investigación y el demo
    • Genera expectativa ver qué construirán los usuarios
  • Ya había trabajado con SAM 1

    • Resumen del artículo de SAM 2:
      • Fue entrenado durante 108 horas con 256 GPU A100
      • El costo de entrenamiento es relativamente bajo, alrededor de $50k
      • El nuevo conjunto de datos SA-V está compuesto por 50k videos
      • Usa un método de bootstrap de anotación en 3 etapas
      • Se añadió una función de atención con memoria
  • Quiere entrenar un modelo para clasificar fotogramas de video y encontrar fotogramas específicos

    • Se pregunta si puede usar SAM-2 como modelo base
  • Es muy fan de la función de pérdida de SAM

    • Expresa su agradecimiento
  • El demo web está muy pulido

    • Cuando selecciona cada zapato como objeto individual, el modelo los segmenta incluso cuando están superpuestos
  • El primer modelo de SAM fue el más útil

    • Tiene ganas de probar SAM2
  • El demo de investigación no se puede usar en Illinois ni en Texas

    • Se pregunta por qué
  • Hay preocupación por el uso militar

  • Es un logro sorprendente