Meta presenta Segment Anything Model 2

(ai.meta.com)

2 puntos por GN⁺ 2024-08-02 | 1 comentarios | Compartir por WhatsApp

Segment Anything Model 2 (SAM 2) de Meta FAIR es un modelo de segmentación unificado para seleccionar y segmentar objetos rápidamente en imágenes y videos
Los usuarios pueden indicar objetos usando clics, cuadros o máscaras como prompts, y refinar la predicción de máscaras con prompts adicionales
En video, un módulo de memoria por sesión conserva la información de los objetos de cuadros anteriores, para seguir rastreándolos a lo largo de todo el video incluso si quedan ocultos momentáneamente
SAM 2 mejora la segmentación de imágenes frente a SAM, y en segmentación de objetos en video destaca especialmente en rastreo parcial y tiempo de interacción
Meta publicó el modelo preentrenado, el código, el demo y el dataset SA-V, que incluye cerca de 51K videos y más de 600K masklets

Segmentación para imágenes y videos a la vez

SAM 2 es el primer modelo unificado para segmentar objetos tanto en imágenes como en videos
Los usuarios pueden seleccionar objetos introduciendo clics, cuadros o máscaras en una imagen o cuadro de video
En video se puede indicar uno o varios objetos, y en cualquier cuadro es posible ajustar las predicciones con prompts adicionales
Está diseñado para ofrecer un sólido rendimiento zero-shot incluso en objetos, imágenes y videos no vistos durante el entrenamiento, por lo que puede aplicarse a diversas aplicaciones reales
Procesa videos de forma eficiente mediante inferencia en streaming y admite aplicaciones en tiempo real e interactivas

Rendimiento y experiencia de uso interactiva

SAM 2 se presenta como un modelo con mejor rendimiento que los mejores modelos del área en segmentación de objetos tanto en video como en imagen
Puntos clave de rendimiento
- Mejora frente a SAM en segmentación de imágenes
- Supera a los modelos existentes de segmentación de objetos en video, especialmente en rastreo parcial
- Requiere menos tiempo de interacción que los métodos previos de segmentación interactiva de video
En el demo, basta con un solo clic en un cuadro para rastrear interactivamente un objeto a lo largo de todo el video y crear efectos
El demo está disponible en SAM 2 demo

Arquitectura del modelo para rastreo en video

Es una arquitectura que extiende al video la capacidad de selección basada en prompts de SAM
Añade un módulo de memoria por sesión para almacenar la información del objeto objetivo dentro del video
- Permite rastrear el objeto seleccionado a través de todos los cuadros del video
- Aprovecha el contexto de cuadros anteriores incluso si el objeto desaparece temporalmente de la vista
En cualquier cuadro se pueden agregar prompts adicionales para corregir la predicción de máscaras
La arquitectura en streaming procesa los cuadros de video uno por uno
Al aplicarse a imágenes, el módulo de memoria está vacío y el modelo funciona como SAM

Dataset SA-V

SAM 2 fue entrenado con videos y masklets a gran escala y de gran diversidad
- masklet se refiere a una máscara de objeto a lo largo del tiempo
- Los datos se generaron aplicando SAM 2 de forma interactiva en un motor de datos model-in-the-loop
Los datos de entrenamiento incluyen el dataset SA-V, publicado como open source
Cifras principales del dataset SA-V
- Más de 600K masklets recopilados a partir de unos 51K videos
- Incluye escenarios reales geográficamente diversos recopilados en 47 países
- Contiene anotaciones de objetos completos, partes de objetos y situaciones de oclusión difíciles
Para problemas o preguntas sobre el dataset SA-V, se puede escribir a support@segment-anything.com
El dataset puede consultarse en Explore the dataset

Recursos publicados y posibilidades de uso

Meta publicó el modelo preentrenado Segment Anything 2, el dataset SA-V, el demo y el código para que la comunidad de investigación pueda continuar con trabajo posterior
Junto con los recursos publicados, destacó lo siguiente
- Ofrecer transparencia sobre los datos de entrenamiento de SAM 2
- Priorizar la diversidad geográfica del dataset SA-V para representar el mundo real
- Realizar evaluaciones de equidad sobre SAM 2
El modelo y el código pueden descargarse en Download the model
El paper de investigación puede consultarse en Read the research paper
SAM 2 puede usarse por sí solo o como parte de un sistema más grande combinado con otros modelos en el futuro
- La salida de segmentación de objetos en video puede usarse como entrada para otros sistemas de IA, como modelos modernos de generación de video, habilitando funciones de edición precisas
- En el futuro podría ampliarse con otros tipos de prompts de entrada para apoyar formas creativas de interactuar con objetos en video en tiempo real o en vivo

1 comentarios

GN⁺ 2024-08-02

Opiniones de Hacker News

Meta lo está haciendo realmente bien. Google parece estar quedándose atrás en investigación de IA y en resultados útiles compartidos con la comunidad.
Estoy seguro de que Llama y otros proyectos impulsarán nuevas creaciones, empresas y avances. La forma en que comparten abiertamente el código y la investigación al final también volverá como valor para el negocio de Meta.
Aquí se nota la diferencia entre una empresa dirigida por su fundador y una empresa arrastrada por el mercado. Google parece preocuparse más por objetivos de corto plazo, como evitar un mal trimestre o evitar grandes gastos de capital en proyectos que no muestran ingresos inmediatos, como la VR.
En cuanto Meta encuentre la killer app de la VR, otras empresas podrían quedar tan atrás que terminen comprándole software a Meta o apenas consigan participación en ese nuevo mercado. Es parecido a cómo Nvidia se adelantó en chips de IA: era un área en la que nadie había invertido lo suficiente.
- Google sigue estando a la cabeza en investigación de IA. Es casi lo opuesto a moverse con visión de corto plazo, y quizá no lo parece porque mucho de ese trabajo es investigación básica, está relacionado con química o física, o no se publica como en Facebook.
  Lo que sí es cierto es que está atrasado a la hora de convertir investigación en productos. Hasta ahora parece hacer solo el mínimo esfuerzo para trasladar modelos entrenados a productos.
- No estoy seguro, pero creo que la diferencia podría ser esta: Meta puede probar de todo y encontrar una killer application más adelante.
  En cambio Google parece sentir, de manera existencial, que la búsqueda tiene que ser necesariamente la killer application, e intenta encajar todo a la fuerza ahí. Así termina poniendo el estándar de éxito demasiado alto e ignorando en qué punto está realmente la tecnología.
- No sé qué está haciendo tan bien Meta. Las integraciones de IA en WhatsApp o Instagram son casi inútiles, y parecen metidas ahí para engañar al mercado y hacer que Meta parezca una empresa de IA.
  Creo que Zuckerberg es de los CEO con menos imaginación. Meta tiene muy pocos productos originales, salvo el dispositivo Portal; la mayoría son productos adquiridos. Es una empresa muy floja en innovación.
  Parece que Zuckerberg lanzó una campaña de relaciones públicas para lavar su imagen, pero Facebook sigue siendo una empresa sospechosa dirigida por una persona sospechosa, y su núcleo podrido no ha cambiado. Esta misma semana le impusieron en Texas una multa de miles de millones de dólares.
  Meta está muy lejos de ser una “empresa guiada por su fundador”. Los fundadores de las apps que compraron se van pronto, y las terminan manejando perfiles tipo consultor de gestión como Adam Mosseri.
  Me da pena que todavía haya gente que crea en la apuesta del metaverso que Zuckerberg lanzó para que Meta pareciera una empresa innovadora en medio de la desaceleración del crecimiento de usuarios. Todavía no entiendo por qué esa estafa del metaverso no fue una infracción de la SEC.
- Se habla de “la diferencia entre una empresa guiada por su fundador y una empresa guiada por el mercado”, pero no sé si realmente son tan distintas.
  Facebook lanza cosas caras con una ruta de monetización poco clara, como Llama. Google también lanzó cosas caras con una ruta de monetización poco clara, como Waymo, Google Glass, Google Fiber, Stadia y las que aparecen en https://killedbygoogle.com.
  Facebook cambió de forma importante el rumbo de toda la empresa por la visión del metaverso y fracasó; Google cambió de forma importante el rumbo de toda la empresa por la visión de Google Plus y fracasó.
  Facebook cambió su nombre a Meta, y Google cambió su nombre a Alphabet.
  Facebook tiene una organización de investigación en IA fundada por un profesor francoestadounidense de ciencias de la computación y ganador del Premio Turing, y Google tiene una organización de investigación en IA fundada por un profesor británico-canadiense de ciencias de la computación y ganador del Premio Turing.
  Facebook lanzó PyTorch, una biblioteca open source de machine learning en Python, muy usada y con nombre en CamelCase; Google lanzó TensorFlow, una biblioteca open source de machine learning en Python, muy usada y con nombre en CamelCase.
  Tal vez ambos sigan el mismo manual, y últimamente la apuesta de Facebook simplemente tuvo suerte.
- No todos los fundadores son iguales. Algunos fundadores detestan mucho que caiga el precio de la acción, aunque no necesiten dinero de inmediato.
  Y los resultados son mixtos. Personalmente creo que Zuckerberg se equivocó con VR, pero acertó con IA.
Discusión anterior: https://news.ycombinator.com/item?id=41104523
- Me sorprende que una noticia grande desaparezca tan rápido de la portada. Hacker News parece estar optimizado para gente que revisa el sitio varias veces al día.
Si hace apenas 10 años alguien hubiera dicho que Facebook se convertiría en una de las empresas que innovan de forma más abierta y que Mark Zuckerberg sería uno de los multimillonarios relativamente más cuerdos, me habría reído muchísimo.
Pero ahora las cosas cambiaron. Por más éxito real que tengan sus intentos en VR e IA, parece que ya dejarán cierta huella en la historia.
- Para ser justos, Meta tiene una historia bastante larga de publicar software interno como open source y de que eso se convierta en estándar de la industria. Esto no es algo nuevo.
  En especial en tecnología de bases de datos: rocksdb, zstd compression, presto, Cassandra, Hive y Velox son todos proyectos creados por Meta.
  Esos son solo los populares; hay muchos más proyectos relacionados con bases de datos que publicaron pero que no se hicieron tan conocidos.
  Como empresa hay mucho de qué quejarse, pero siempre ha sido un gran contribuyente al ecosistema open source.
- Me gusta Oculus, pero la VR todavía no ha alcanzado una universalidad cultural.
Al ver cosas así siempre me viene a la mente la UI de mapa orbital holográfico de The Expanse.
Parece una especie de papel del futuro, conectado a todo lo que pensamos, y podría convertirse en una herramienta realmente poderosa para explorar el mundo.
Si esto hubiera existido cuando trabajaba en edición y motion graphics, lo habría querido con desesperación.
El Roto Brush de After Effects es parecido, pero la calidad siempre se quedaba corta y el tiempo de procesamiento era demasiado largo.
- El Roto Brush de After Effects es una herramienta salvavidas, pero tiene límites. SAM definitivamente cambia las reglas del juego.
Dicen que publicaron el código, pero no encuentro nada salvo el código de ejemplo. ¿También publicaron el código de entrenamiento?
- Cuando dicen “publicación de modelos Segment Anything 2 preentrenados y código”, parece que se refieren a este repositorio: https://github.com/facebookresearch/segment-anything-2
Los resultados son impresionantes. Es un video de prueba grabado dentro de Mercer Labs: https://youtu.be/W7kM0ISXkpQ?feature=shared
- No sé qué estoy viendo ni cómo se relaciona esto con SAM2.
Parece que Firefox no tiene soporte.
También habría que agradecer a los miles de trabajadores africanos que han hecho el trabajo tedioso y repetitivo con datasets.

Meta presenta Segment Anything Model 2

Segmentación para imágenes y videos a la vez

Rendimiento y experiencia de uso interactiva

Arquitectura del modelo para rastreo en video

Dataset SA-V

Recursos publicados y posibilidades de uso

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News