8 puntos por ysc7064 2023-08-07 | 3 comentarios | Compartir por WhatsApp

Hola
Soy un desarrollador que anteriormente desarrolló y operó una app de registro de ejercicio llamada Fleek,
y actualmente me interesa mucho encontrar la intersección entre LLM, multimodalidad, Langchain, especialmente los agentes LLM, y el video.

El proyecto que quiero presentar es un motor de búsqueda con el que puedes buscar dentro de videos subidos la escena o clip de video que quieras usando texto o imágenes.

Hoy en día la mayoría de los videos todavía los manejan las personas, pero empecé este proyecto pensando: si existiera una API para trabajar con video, ¿no podrían los agentes de IA editar o extraer videos directamente?

Para que puedan probarlo, subí videos aleatorios de YouTube al Playground.
Les agradecería muchísimo cualquier feedback sobre su uso.

P.D. Si quieren subir sus propios videos o necesitan resultados en formato API, no duden en contactarme.

3 comentarios

 
kuroneko 2023-08-08

Desde hace tiempo, entre los programas para gestionar videos caseros
había algunos que extraían varias escenas del video y, mediante una CNN tradicional (¿?), permitían clasificar y buscar escenas, pero...

Esto parece funcionar a un nivel completamente distinto comparado con esos métodos.

Después de probar varias búsquedas, diría que entre un 70% y 80% de los resultados sí eran de verdad las escenas que estaba buscando.
Por ejemplo, al buscar A scene where something explodes, encontró bastante bien escenas donde algo destella, sobre todo en películas de Spider-Man.

Claro, también identifica como explosión escenas que cambian muy rápido, pero... aun así es impresionantísimo.
Si subo una imagen con el logo de Netflix, encuentra todo lo que tenga algún logo de empresa visible, incluyendo Netflix.

(Aunque sí da un poco de pena que no funcione en coreano.)

 
kuroneko 2023-08-08

Parece que esta función también podría funcionar muy bien con imágenes; me hace pensar que no falta mucho para que llegue el día en que cada persona pueda buscar con IA en todo su álbum personal, incluyendo videos.

O quizá, al editar transmisiones en vivo o videos muy largos, sin tener que ver todo el material, se puedan encontrar y extraer con IA los momentos destacados o justo las partes necesarias...

Pensándolo desde el lado de las empresas, también podría incorporarse a YouTube una función de búsqueda con lenguaje natural + escenas.

En fin, gracias por compartir un proyecto tan genial.
Aunque parece ir en una dirección un poco distinta a la que están desarrollando ahora, ojalá que algún día un proyecto así se publique como open source y permita self-hosting.

 
ysc7064 2023-08-08

Hola, kuroneko. Muchas gracias; parece que se divirtió explorando el proyecto.

  1. "El día en que cada persona pueda buscar con IA en todo su propio álbum, incluidos los videos"
    -> Me hizo pensar de inmediato en mí mismo rebuscando en el álbum para encontrar una foto...

  2. "Editar videos muy largos y, mediante IA, encontrar y extraer los momentos destacados o las partes necesarias"
    -> Exactamente. Me interesa reducir el costo marginal de la producción de video usando IA.

Muchas gracias nuevamente por compartir una reseña de uso tan detallada.
La leeré con atención, extraeré las partes que puedan inspirar el proyecto y seguiré aplicándolas.