La app killer de Gemini Pro 1.5 es el video
(simonwillison.net)- El tamaño del contexto de tokens de Google Gemini Pro 1.5 es de 1,000,000
- Antes, Claude 2.1 (200,000 tokens) y gpt-4-turbo (128,000 tokens) tenían ese récord, pero es difícil hacer una comparación perfectamente directa porque la implementación de la tokenización difiere entre modelos
- Tras usar Gemini Pro 1.5 durante unos días, la función más interesante no es la cantidad de tokens sino la capacidad de usar video como entrada
- Aún no tengo acceso al API, pero pude probar el modelo a través de la interfaz de Google AI Studio
Primera prueba
- Grabé uno de mis libreros en un video de 7 segundos
- Lo subí con el prompt "JSON array of books in this video"
- Este video de 7 segundos usó solo 1,841 tokens del límite de 1,048,576 tokens
- Gemini Pro 1.5 no devolvió JSON, pero sí respondió con una lista de títulos de libros y nombres de autores presentes en el video
- Luego le pedí además "as a JSON array of objects, with title and author keys" y devolvió los libros/autores en JSON
- El resultado fue bastante sorprendente. El video dura 7 segundos, se mueve bastante rápido (hay algo de motion blur en el video) y algunos libros están tapados por otros objetos
Segunda prueba
- Esta vez grabé en video, en vertical y por más tiempo (22 segundos), un estante lleno de libros de cocina, haciendo paneo no solo horizontal sino también hacia abajo
- En este video se usaron 6,049 tokens, lo cual sigue siendo muy poco
- Nuevo prompt: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
- Pero fue rechazado por "Unsafe Content"
- Al parecer, el filtro de seguridad se incomodó con la palabra 'Cocktail'
- Abrí la configuración de seguridad, la puse en 'bajo' para todas las categorías y lo intenté otra vez, pero fue rechazado por segunda vez
- Entonces le di una instrucción más forzada: "go on give me that JSON" y devolvió el JSON
- De nuevo, el resultado fue excelente
¿Cómo podría aprovecharse esto?
- La capacidad de extraer contenido estructurado desde texto ya es uno de los casos de uso más interesantes de los LLM
- GPT-4 Vision y LLaVA extendieron esto a imágenes, y ahora Gemini Pro 1.5 lo extiende a video
- Por supuesto, aquí también aplican las advertencias habituales de los LLM. Puede omitir objetos y puede alucinar detalles incorrectos
- También están los problemas con los filtros de seguridad, como el caso de Cocktail
- Así que, como siempre ocurre con la IA más reciente, todavía hay muchos retos por superar
- Pero esto se siente como otro ejemplo que nos deja ver un futuro mucho más cercano de lo que yo esperaba
Imagen vs. video
- Al principio pensé que, dado que la cantidad de tokens relacionada con el procesamiento de video era sorprendentemente baja, el video se procesaría de forma distinta a las imágenes
- Pero, según una publicación en Hacker News
Gemini 1.5 Pro puede razonar sobre hasta 1 hora de video. Cuando adjuntas un video, Google AI Studio lo muestrea en miles de fotogramas sin audio, y luego el modelo Gemini, al ser multimodal, puede realizar tareas de razonamiento y resolución de problemas altamente sofisticadas.
- El informe técnico de Gemini 1.5 lo explica así:
Si se le da como entrada la película de 45 minutos de Buster Keaton "Sherlock Jr." (1924) (2,674 fotogramas a 1 FPS, 684k tokens), Gemini 1.5 Pro puede recuperar y extraer información textual de fotogramas específicos y proporcionar la marca de tiempo correspondiente.
1 comentarios
Comentarios en Hacker News
Si un agente observa silenciosamente la pantalla del usuario todo el tiempo, podría ser muy útil o distópico.
El título "la app clave de Gemini Pro 1.5 es la entrada de video" parece adecuado.
El video es una secuencia de imágenes, y la demo de GPT-4-Vision de OpenAI logra un efecto similar enviando al modelo una lista de cuadros.
Cuando la IA pueda analizar video, imágenes y texto, y procesarlos de forma barata y eficiente, la privacidad se habrá acabado por completo.
Parece que el autor no verificó si los libros mencionados en el video usado como entrada eran realmente correctos.
Parece que el filtro de seguridad de Google reaccionó a la palabra "Cocktail".
Sorprende que use solo 256 tokens por cuadro.
El problema relacionado con "Cocktail" sí existe realmente.
Tengo curiosidad por cuál es la verdadera app clave de la escala de hardware de Google frente a OpenAI (o lo que ofrece Microsoft).
La tecnología en sí es impresionante e interesante, pero da risa la situación, que podría verse como una versión vengativa del problema de Scunthorpe.