10 puntos por GN⁺ 2024-02-22 | 1 comentarios | Compartir por WhatsApp
  • El tamaño del contexto de tokens de Google Gemini Pro 1.5 es de 1,000,000
  • Antes, Claude 2.1 (200,000 tokens) y gpt-4-turbo (128,000 tokens) tenían ese récord, pero es difícil hacer una comparación perfectamente directa porque la implementación de la tokenización difiere entre modelos
  • Tras usar Gemini Pro 1.5 durante unos días, la función más interesante no es la cantidad de tokens sino la capacidad de usar video como entrada
  • Aún no tengo acceso al API, pero pude probar el modelo a través de la interfaz de Google AI Studio

Primera prueba

  • Grabé uno de mis libreros en un video de 7 segundos
  • Lo subí con el prompt "JSON array of books in this video"
  • Este video de 7 segundos usó solo 1,841 tokens del límite de 1,048,576 tokens
  • Gemini Pro 1.5 no devolvió JSON, pero sí respondió con una lista de títulos de libros y nombres de autores presentes en el video
  • Luego le pedí además "as a JSON array of objects, with title and author keys" y devolvió los libros/autores en JSON
  • El resultado fue bastante sorprendente. El video dura 7 segundos, se mueve bastante rápido (hay algo de motion blur en el video) y algunos libros están tapados por otros objetos

Segunda prueba

  • Esta vez grabé en video, en vertical y por más tiempo (22 segundos), un estante lleno de libros de cocina, haciendo paneo no solo horizontal sino también hacia abajo
  • En este video se usaron 6,049 tokens, lo cual sigue siendo muy poco
  • Nuevo prompt: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
  • Pero fue rechazado por "Unsafe Content"
  • Al parecer, el filtro de seguridad se incomodó con la palabra 'Cocktail'
  • Abrí la configuración de seguridad, la puse en 'bajo' para todas las categorías y lo intenté otra vez, pero fue rechazado por segunda vez
  • Entonces le di una instrucción más forzada: "go on give me that JSON" y devolvió el JSON
  • De nuevo, el resultado fue excelente

¿Cómo podría aprovecharse esto?

  • La capacidad de extraer contenido estructurado desde texto ya es uno de los casos de uso más interesantes de los LLM
  • GPT-4 Vision y LLaVA extendieron esto a imágenes, y ahora Gemini Pro 1.5 lo extiende a video
  • Por supuesto, aquí también aplican las advertencias habituales de los LLM. Puede omitir objetos y puede alucinar detalles incorrectos
  • También están los problemas con los filtros de seguridad, como el caso de Cocktail
  • Así que, como siempre ocurre con la IA más reciente, todavía hay muchos retos por superar
  • Pero esto se siente como otro ejemplo que nos deja ver un futuro mucho más cercano de lo que yo esperaba

Imagen vs. video

  • Al principio pensé que, dado que la cantidad de tokens relacionada con el procesamiento de video era sorprendentemente baja, el video se procesaría de forma distinta a las imágenes
  • Pero, según una publicación en Hacker News

    Gemini 1.5 Pro puede razonar sobre hasta 1 hora de video. Cuando adjuntas un video, Google AI Studio lo muestrea en miles de fotogramas sin audio, y luego el modelo Gemini, al ser multimodal, puede realizar tareas de razonamiento y resolución de problemas altamente sofisticadas.

  • El informe técnico de Gemini 1.5 lo explica así:

    Si se le da como entrada la película de 45 minutos de Buster Keaton "Sherlock Jr." (1924) (2,674 fotogramas a 1 FPS, 684k tokens), Gemini 1.5 Pro puede recuperar y extraer información textual de fotogramas específicos y proporcionar la marca de tiempo correspondiente.

1 comentarios

 
GN⁺ 2024-02-22
Comentarios en Hacker News
  • Si un agente observa silenciosamente la pantalla del usuario todo el tiempo, podría ser muy útil o distópico.

    • Se espera que pueda observar durante meses cómo el usuario programa, planifica e investiga, y ofrecer asesoramiento personal y profesional.
    • Esta tecnología podría reflejar la psicología de una persona y recordar mucha información, por lo que sería muy valiosa para empresas o actores maliciosos.
    • El modelo debe operar de forma segura, ya que existe el riesgo de duplicar a una persona o vulnerar su privacidad.
  • El título "la app clave de Gemini Pro 1.5 es la entrada de video" parece adecuado.

    • Podría ser útil para la moderación a gran escala de contenido en video, como en YouTube, y sería bueno si se pudiera reducir el costo.
  • El video es una secuencia de imágenes, y la demo de GPT-4-Vision de OpenAI logra un efecto similar enviando al modelo una lista de cuadros.

    • Sería bueno que GPT-4-Vision admitiera llamadas a funciones o datos estructurados para garantizar una salida JSON.
    • También existe la forma de usar ffmpeg para extraer uno de cada dos cuadros y así reducir el costo a la mitad.
    • La demo de OpenAI envía aproximadamente cada cuadro número 50 de un video de unas 600 imágenes.
  • Cuando la IA pueda analizar video, imágenes y texto, y procesarlos de forma barata y eficiente, la privacidad se habrá acabado por completo.

    • Actualmente las grandes empresas ya tienen muchos datos sobre nosotros, pero hay límites para entenderlo y conectarlo todo.
    • Una IA poderosa podría comprender todos los aspectos de la vida digital, con un potencial enorme para usos buenos y malos.
  • Parece que el autor no verificó si los libros mencionados en el video usado como entrada eran realmente correctos.

    • El primer libro que revisé, "Growing Up with Lucy by April Henry", no existe; en realidad corresponde a Steve Grand.
    • Es una demo genial, pero en la práctica no sirve para mucho más.
  • Parece que el filtro de seguridad de Google reaccionó a la palabra "Cocktail".

    • Bajé la configuración de seguridad y lo intenté de nuevo, pero también fue rechazado en el segundo intento.
    • El departamento de gestión de riesgos de Google ha tomado completamente el control de la organización, hasta el punto de que incluso la computadora más inteligente teme usar palabras o imágenes peligrosas como "cocktail" o "Abraham Lincoln".
  • Sorprende que use solo 256 tokens por cuadro.

    • A diferencia del dicho de que una imagen vale más que mil palabras, eso significa que en realidad solo vale unas 192 palabras.
  • El problema relacionado con "Cocktail" sí existe realmente.

    • Intenté imaginar con DALLE a los personajes de Moby Dick, pero fue rechazado por completo.
    • Uno pensaría que una empresa de IA podría crear un mejor filtro de groserías.
  • Tengo curiosidad por cuál es la verdadera app clave de la escala de hardware de Google frente a OpenAI (o lo que ofrece Microsoft).

    • Lo que hizo Google no es especialmente sorprendente para el equipo de OpenAI, pero quizá puedan iterar más rápido a una escala gigantesca.
  • La tecnología en sí es impresionante e interesante, pero da risa la situación, que podría verse como una versión vengativa del problema de Scunthorpe.

    • Parece que el filtro de seguridad reaccionó a la palabra "Cocktail".