2 puntos por GN⁺ 2023-12-12 | 1 comentarios | Compartir por WhatsApp

Remake de la demo falsa de Google Gemini con GPT-4, esta vez es real

  • Un proyecto que rehace la demo falsa de Google Gemini usando GPT-4.
  • Se ofrece una demo que realmente funciona, y el código relacionado puede consultarse en el repositorio de GitHub.
  • El proyecto fue creado por Greg Technology.

La opinión de GN⁺

  • El punto más importante de este artículo es la existencia de un proyecto que implementó de verdad una demo falsa del pasado usando GPT-4.
  • Resulta interesante como un caso que muestra el proceso mediante el cual el avance de la tecnología de inteligencia artificial produce resultados innovadores que realmente pueden usarse.

1 comentarios

 
GN⁺ 2023-12-12
Opinión de Hacker News
  • La "magia" de la demo falsa de Gemini consistía en que parecía que el LLM recibía continuamente entradas de audio y video, detectaba cuándo el usuario terminaba de hablar o de dibujar, y respondía en el momento adecuado.
  • Al revisar el código fuente, resultó que la demo capturaba capturas de pantalla del feed de video cada 800 ms y, después de esperar a que el usuario terminara el dibujo, enviaba las últimas tres capturas. Esto demuestra que interactuar con un LLM de esta manera se siente poco natural sin una entrada continua de audio y video.
  • No logro entender por qué las empresas mienten de esta forma. En realidad pueden perder mucho; este tipo de promoción exagerada quizá ayude a corto plazo, pero no sirve a largo plazo.
  • Estoy convencido de que Google DeepMind en realidad no tenía un LLM de vanguardia. Cuando salió ChatGPT, Google dijo que no publicaba un modelo mejor por motivos de seguridad en IA, pero en realidad no era así.
  • GPT-4V es muy impresionante, y recomiendo a cualquiera interesado en visión o multimodalidad que pruebe LLaVA. Personalmente probé la variante 7B q5_k y me pareció muy impresionante.
  • Pude crear una demo similar usando GPT-4V. Si Google hubiera hecho un marketing honesto, todos habrían quedado debidamente impresionados, pero en cambio hicieron un video de marketing engañoso para el público general y decepcionaron a los expertos técnicos.
  • Intenté usar de verdad la app de traducción conversacional de IA de Google, pero no sirve en absoluto para conversaciones reales. En la demo parecía natural, pero confirmé que en la práctica no funcionaba.
  • Me parece un desperdicio que las imágenes JPEG sean la única interfaz con GPT-4. El ojo humano percibe más las diferencias entre cuadros que los "cuadros" en sí. Un modelo cuyo estado interno funcione con cuadros clave y deltas, como un códec de video, podría ser el próximo gran paso en el procesamiento de video en tiempo real.
  • Estoy convencido de que Google DeepMind en realidad no tenía un modelo de lenguaje de vanguardia. Cuando salió ChatGPT, Google dijo que no publicaba un modelo mejor por motivos de seguridad en IA, pero en realidad no era así.
  • La latencia de esta demo puede perdonarse porque era a través de la API. La inferencia en infraestructura local es casi inmediata, así que esta demo superaría a todo lo demás si se tuviera acceso a esa infraestructura.
  • Es curioso haber elegido el nombre Sagittarius, porque está justo en la posición opuesta a Gemini en el zodiaco.