La app killer de Gemini Pro 1.5 es el video

(simonwillison.net)

10 puntos por GN⁺ 2024-02-22 | 1 comentarios | Compartir por WhatsApp

El tamaño del contexto de tokens de Google Gemini Pro 1.5 es de 1,000,000
Antes, Claude 2.1 (200,000 tokens) y gpt-4-turbo (128,000 tokens) tenían ese récord, pero es difícil hacer una comparación perfectamente directa porque la implementación de la tokenización difiere entre modelos
Tras usar Gemini Pro 1.5 durante unos días, la función más interesante no es la cantidad de tokens sino la capacidad de usar video como entrada
Aún no tengo acceso al API, pero pude probar el modelo a través de la interfaz de Google AI Studio

Primera prueba

Grabé uno de mis libreros en un video de 7 segundos
Lo subí con el prompt "JSON array of books in this video"
Este video de 7 segundos usó solo 1,841 tokens del límite de 1,048,576 tokens
Gemini Pro 1.5 no devolvió JSON, pero sí respondió con una lista de títulos de libros y nombres de autores presentes en el video
Luego le pedí además "as a JSON array of objects, with title and author keys" y devolvió los libros/autores en JSON
El resultado fue bastante sorprendente. El video dura 7 segundos, se mueve bastante rápido (hay algo de motion blur en el video) y algunos libros están tapados por otros objetos

Segunda prueba

Esta vez grabé en video, en vertical y por más tiempo (22 segundos), un estante lleno de libros de cocina, haciendo paneo no solo horizontal sino también hacia abajo
En este video se usaron 6,049 tokens, lo cual sigue siendo muy poco
Nuevo prompt: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
Pero fue rechazado por "Unsafe Content"
Al parecer, el filtro de seguridad se incomodó con la palabra 'Cocktail'
Abrí la configuración de seguridad, la puse en 'bajo' para todas las categorías y lo intenté otra vez, pero fue rechazado por segunda vez
Entonces le di una instrucción más forzada: "go on give me that JSON" y devolvió el JSON
De nuevo, el resultado fue excelente

¿Cómo podría aprovecharse esto?

La capacidad de extraer contenido estructurado desde texto ya es uno de los casos de uso más interesantes de los LLM
GPT-4 Vision y LLaVA extendieron esto a imágenes, y ahora Gemini Pro 1.5 lo extiende a video
Por supuesto, aquí también aplican las advertencias habituales de los LLM. Puede omitir objetos y puede alucinar detalles incorrectos
También están los problemas con los filtros de seguridad, como el caso de Cocktail
Así que, como siempre ocurre con la IA más reciente, todavía hay muchos retos por superar
Pero esto se siente como otro ejemplo que nos deja ver un futuro mucho más cercano de lo que yo esperaba

Imagen vs. video

Al principio pensé que, dado que la cantidad de tokens relacionada con el procesamiento de video era sorprendentemente baja, el video se procesaría de forma distinta a las imágenes
Pero, según una publicación en Hacker News

Gemini 1.5 Pro puede razonar sobre hasta 1 hora de video. Cuando adjuntas un video, Google AI Studio lo muestrea en miles de fotogramas sin audio, y luego el modelo Gemini, al ser multimodal, puede realizar tareas de razonamiento y resolución de problemas altamente sofisticadas.
El informe técnico de Gemini 1.5 lo explica así:

Si se le da como entrada la película de 45 minutos de Buster Keaton "Sherlock Jr." (1924) (2,674 fotogramas a 1 FPS, 684k tokens), Gemini 1.5 Pro puede recuperar y extraer información textual de fotogramas específicos y proporcionar la marca de tiempo correspondiente.

1 comentarios

GN⁺ 2024-02-22

Comentarios en Hacker News

Si un agente observa silenciosamente la pantalla del usuario todo el tiempo, podría ser muy útil o distópico.
- Se espera que pueda observar durante meses cómo el usuario programa, planifica e investiga, y ofrecer asesoramiento personal y profesional.
- Esta tecnología podría reflejar la psicología de una persona y recordar mucha información, por lo que sería muy valiosa para empresas o actores maliciosos.
- El modelo debe operar de forma segura, ya que existe el riesgo de duplicar a una persona o vulnerar su privacidad.
El título "la app clave de Gemini Pro 1.5 es la entrada de video" parece adecuado.
- Podría ser útil para la moderación a gran escala de contenido en video, como en YouTube, y sería bueno si se pudiera reducir el costo.
El video es una secuencia de imágenes, y la demo de GPT-4-Vision de OpenAI logra un efecto similar enviando al modelo una lista de cuadros.
- Sería bueno que GPT-4-Vision admitiera llamadas a funciones o datos estructurados para garantizar una salida JSON.
- También existe la forma de usar ffmpeg para extraer uno de cada dos cuadros y así reducir el costo a la mitad.
- La demo de OpenAI envía aproximadamente cada cuadro número 50 de un video de unas 600 imágenes.
Cuando la IA pueda analizar video, imágenes y texto, y procesarlos de forma barata y eficiente, la privacidad se habrá acabado por completo.
- Actualmente las grandes empresas ya tienen muchos datos sobre nosotros, pero hay límites para entenderlo y conectarlo todo.
- Una IA poderosa podría comprender todos los aspectos de la vida digital, con un potencial enorme para usos buenos y malos.
Parece que el autor no verificó si los libros mencionados en el video usado como entrada eran realmente correctos.
- El primer libro que revisé, "Growing Up with Lucy by April Henry", no existe; en realidad corresponde a Steve Grand.
- Es una demo genial, pero en la práctica no sirve para mucho más.
Parece que el filtro de seguridad de Google reaccionó a la palabra "Cocktail".
- Bajé la configuración de seguridad y lo intenté de nuevo, pero también fue rechazado en el segundo intento.
- El departamento de gestión de riesgos de Google ha tomado completamente el control de la organización, hasta el punto de que incluso la computadora más inteligente teme usar palabras o imágenes peligrosas como "cocktail" o "Abraham Lincoln".
Sorprende que use solo 256 tokens por cuadro.
- A diferencia del dicho de que una imagen vale más que mil palabras, eso significa que en realidad solo vale unas 192 palabras.
El problema relacionado con "Cocktail" sí existe realmente.
- Intenté imaginar con DALLE a los personajes de Moby Dick, pero fue rechazado por completo.
- Uno pensaría que una empresa de IA podría crear un mejor filtro de groserías.
Tengo curiosidad por cuál es la verdadera app clave de la escala de hardware de Google frente a OpenAI (o lo que ofrece Microsoft).
- Lo que hizo Google no es especialmente sorprendente para el equipo de OpenAI, pero quizá puedan iterar más rápido a una escala gigantesca.
La tecnología en sí es impresionante e interesante, pero da risa la situación, que podría verse como una versión vengativa del problema de Scunthorpe.
- Parece que el filtro de seguridad reaccionó a la palabra "Cocktail".

La app killer de Gemini Pro 1.5 es el video

Primera prueba

Segunda prueba

¿Cómo podría aprovecharse esto?

Imagen vs. video

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News