Show HN: Recrean la demo falsa de Google Gemini usando GPT-4, esta vez sí funciona

(sagittarius.greg.technology)

2 puntos por GN⁺ 2023-12-12 | 1 comentarios | Compartir por WhatsApp

Remake de la demo falsa de Google Gemini con GPT-4, esta vez es real

Un proyecto que rehace la demo falsa de Google Gemini usando GPT-4.
Se ofrece una demo que realmente funciona, y el código relacionado puede consultarse en el repositorio de GitHub.
El proyecto fue creado por Greg Technology.

La opinión de GN⁺

El punto más importante de este artículo es la existencia de un proyecto que implementó de verdad una demo falsa del pasado usando GPT-4.
Resulta interesante como un caso que muestra el proceso mediante el cual el avance de la tecnología de inteligencia artificial produce resultados innovadores que realmente pueden usarse.

1 comentarios

GN⁺ 2023-12-12

Opiniones de Hacker News

La parte que parecía mágica de la demo falsa de Gemini era que daba la impresión de que el LLM recibía entradas de audio y video de forma continua y sabía cuándo intervenir para responder.
Parecía esperar hasta que el usuario terminara de dibujar, o intervenir justo antes de que terminara, e incluso, en medio de una respuesta, cuando el usuario pintó el pato de azul, dijo que parecía un pato azul.
También parecía saber que no hacía falta responder cuando el usuario simplemente estaba de acuerdo.
Al revisar el código fuente, la demo toma capturas de pantalla cada 800 ms del feed de video, espera a que el usuario termine de hablar y luego envía las últimas 3 capturas.
La demo en sí es impresionante, pero también muestra lo poco natural que es interactuar así con un LLM cuando no hay entrada continua de audio y video.
Técnicamente, esto era posible desde hace un tiempo, pero hay una razón por la que nadie lo había presentado como un producto.
- Esta demo se hizo en 2 o 3 horas y usó la técnica de “esperar a que se confirme el resultado del dictado”.
  Ese enfoque es más seguro porque la transcripción del dictado es más estable, pero es lento.
  En otra demo, https://www.youtube.com/watch?v=fxS7OKh_4vc, se iban pasando continuamente a GPT los resultados de transcripción “en curso”, y era realmente rápida y excelente.
  Aun así, hace falta más trabajo para manejar varios aspectos de timing: el habla real de la persona, el tiempo de transcripción, el envío de la solicitud a GPT y la sincronización para que GPT responda de acuerdo con el punto en que están las palabras y el pensamiento del usuario.
  De todos modos, la conversación continua en tiempo real es claramente lo central, y me gustaría que GPT estuviera disponible por WebSocket.
- Como persona sorda, llevo 20 o 30 años viendo demos de reconocimiento de voz en tiempo real, y todas se ven bien en una demo.
  Pero al usarlas en la vida diaria, aunque se equivoquen solo 1 de cada 10 palabras, con el tiempo eso se acumula hasta volverse extremadamente irritante.
- También hablé con un amigo sobre LLM multimodales que reciban entrada como stream continuo.
  Por ejemplo, que escuchen una práctica de guitarra y, al llegar a cierto punto, digan: “Bien, volvamos a esa parte y practiquémosla de nuevo”.
  Cuando entra un stream continuo de tokens y la salida solo hace falta de vez en cuando, el enfoque típico de predicción del siguiente token no parece encajar bien.
  Me pregunto cómo se llama este tipo de entrada en la literatura y qué investigaciones existen al respecto.
- En estos casos, creo que la clave sería entrenar con algo como un token de pausa.
  Quizá ni siquiera sea estrictamente necesario.
  Si se le indicara a GPT-4 que emita algo como .... cada vez que considere que debe esperar antes de responder, ya no tendría que esperar a que el usuario termine y podría ser mucho más fluido.
- Quería conectar un chatbot con GPT-4 a un chat grupal para que reaccionara a lo que dice la gente, pero era demasiado difícil decidir cuándo debía hablar y cuándo debía dejar que las personas conversaran entre ellas, así que terminé abandonándolo.
No entiendo por qué las empresas mienten así.
No sé qué tan grande será lo que pueden ganar con eso, y más bien parece que tienen mucho que perder.
Lo más raro es que estas herramientas ya son increíblemente impresionantes incluso sin exagerarlas.
Como investigador de machine learning, creo que hay muchos logros geniales, pero casi todo, desde los papers hasta los productos, está excesivamente inflado.
Puede que a algunos les sirva en el corto plazo, pero parece haber creado una carrera hacia abajo que no le conviene a nadie.
En especial, que una empresa como Google juegue al corto plazo no parece una decisión inteligente; o quizá yo estoy entendiendo completamente mal el entorno en el que vivimos.
Al ver la discusión de este hilo[0], también parece que hay mucha gente tan deteriorada éticamente que ni siquiera sabe que lo que hace es engañoso, y ese es otro problema, mucho peor.
[0] https://news.ycombinator.com/item?id=38559582
- El mismo día que salió el video, el CEO me mandó un mensaje diciendo que la nueva tecnología de Google era mucho mejor que GPT-4 y que deberíamos usarla de inmediato.
  Le respondí que veía la demo con escepticismo, pero que, como con todos los avances de este campo, la probaría directamente cuando saliera.
- Lo de que “no es inteligente que una empresa como Google juegue al corto plazo” puede ser un problema principal-agente.
  Los agentes, es decir, empleados y directivos, optimizan sus beneficios profesionales de corto plazo y no son leales a los accionistas de Google.
  Como pueden irse de la empresa en 3 años, el daño a la reputación de Google puede no importarles tanto.
  En cambio, los accionistas quieren optimizar factores de largo plazo como la reputación.
  Se intenta alinear eso con buen gobierno corporativo y compensación con vesting ligada al precio de la acción, pero siempre queda cierto desajuste.
  En ese punto, una cultura de alineación casi de culto alrededor de la misión puede aportar valor.
  Si convences a los empleados de que realmente crean en la misión, o contratas a personas que ya creen en ella, la alineación llega sola.
- Si se preguntan por qué las empresas hacen eso, basta con ver el titular de Business Today:
  “Google Gemini Outperforms Most Human Experts & GPT-4 I Artificial intelligence I Google’s DeepMind”
  Todo es marketing.
  Es la misma razón por la que Satya publicó públicamente que, si lo de OpenAI no salía bien, sama y otras personas se unirían a un nuevo equipo de MSFT y seguirían adelante.
- Después de la demo, las acciones de Google no se movieron de inmediato, pero subieron alrededor de 5%, y tras conocerse la manipulación devolvieron cerca de 1%.
- Este episodio reforzó más que nunca la sensación de que Google ahora está dirigida por gente de negocios no técnica, no por personas que entienden la tecnología.
  Quienes sepan aunque sea un poco cómo funciona esta tecnología —es decir, las personas que probablemente participen en decidir si usar esta tecnología y otros productos de Google— pueden detectar la manipulación de inmediato.
  Muchas de esas personas también suelen ser del tipo que reacciona muy negativamente ante este tipo de conducta engañosa.
Esto era exactamente lo que quería decir cuando salió Gemini
Todo ese escándalo era innecesario
GPT-4V es realmente potente, y si a alguien le interesa la visión o lo multimodal, le recomiendo seriamente probar LLaVA también (https://github.com/haotian-liu/LLaVA)
En los últimos días probé la variante 7B q5_k y me pareció bastante impresionante; lo suficientemente buena como para armar una app demo para la empresa o incluso una prueba de concepto
Aunque primero habría que revisar la licencia; si no, pienso usarla solo como demo interna para transmitir la idea
- Estoy usando llava con https://github.com/Mozilla-Ocho/llamafile, y corre en cualquier equipo moderno
- Para quienes se pregunten si LLaVA se puede usar comercialmente, actualizo: tiene licencia Apache 2.0, así que se puede usar con fines comerciales siempre que se dé atribución: https://github.com/haotian-liu/LLaVA/blob/main/LICENSE
Era algo totalmente posible con GPT-4V
Literalmente basta con tomar capturas de pantalla y pasar la imagen y el texto en formato de chat, es decir, de forma intercalada
Hice algo parecido en un hackatón reciente (https://x.com/swyx/status/1722662234680340823)
Lo raro es que Google también podría haberlo hecho así, y entonces todos se habrían impresionado como corresponde; en cambio, hicieron un video de marketing engañoso para el público general
Gracias a eso, el resto de nosotros, nerds frustrados, tuvimos que encargarnos del trabajo sucio de explicar que “la tecnología todavía no funciona como lo viste en la tele”, y encima parece que fuera culpa nuestra
También me da curiosidad cuánto cuesta correr algo así
- Durante el desarrollo y la demo de esto hice 77 solicitudes a la API de GPT-vision, y el cargo fue de 0.47 dólares
  Bastante razonable
Ahora estoy convencido de que Google DeepMind en realidad no tenía nada en cuanto a LLM de última generación y que solo estaba fanfarroneando
Recuerdo que cuando salió ChatGPT, Google decía que tenía modelos mucho mejores que no publicaba por seguridad de la IA
Después lanzó PaLM y PaLM 2, diciendo que ya era momento de publicarlos para ganarle a ChatGPT, pero no eran buenos modelos
Luego infló muchísimo Gemini, y si Gemini Ultra es lo mejor que tienen, cuesta creer que tengan un modelo mejor
Hace un año pensaba que Google tenía el mejor modelo pero simplemente no lo había publicado; después pasé a esperar que, como tenían infraestructura, datos y talento, podrían crear el mejor modelo
Pero resulta que en realidad no tenían nada
Hace poco intenté usar de verdad una app de traducción conversacional con IA que Google había presentado hace tiempo y que desde entonces tuvo varias actualizaciones e iteraciones
Es completamente inutilizable para una conversación real
Tenía expectativas porque estaba en una situación en la que realmente podía ayudar, y recordaba que en la demo antigua se veía muy natural, aunque nunca la había probado personalmente
Ahora, después de usarla y volver a ver la demo original, estoy 100% convencido de que fue manipulada total o parcialmente
No hay forma de que eso haya funcionado de verdad
Si ni siquiera pueden hacer bien una traducción conversacional en tiempo real, que sería mucho más útil que dibujar un pato, entonces esta nueva IA me parece muy sospechosa
Se ve exactamente como la misma situación, y no entiendo qué tan descarado hay que ser para falsificar algo entero así
- ¿Cómo se llamaba esa app?
Un poco al margen de esta demo genial, se siente como un desperdicio que la interfaz solo permita pasar imágenes JPEG a GPT-4
El ojo humano procesa las diferencias entre cuadros más que la imagen en sí
Me da la impresión de que el próximo gran paso para hacer posible el procesamiento de video en tiempo real de alta resolución podría ser que el estado interno del modelo maneje fotogramas clave y deltas, como un códec de video tipo MPEG
- Cuando Google habla de lo multimodal de Gemini, incluye “video” en la lista de modos
  Es muy posible que no se refiera realmente a video, sino a cuadros, como en esta demo
  Hasta donde vi, no lo explicaron en detalle en ningún lado
Me da risa que hayan elegido el nombre Sagittarius
Está exactamente del lado opuesto de Gemini en el zodiaco
- Había una teoría de que Facebook le puso así a su criptomoneda inexistente Libra, luego “Diem”, como una pulla a sus viejos rivales, los gemelos Winklevoss, que habían creado un exchange de criptomonedas llamado Gemini
  No sé qué tan ingenioso sea eso desde el punto de vista astrológico
Por el código, parece que la conversión de voz a texto y la conversión de texto a voz usan funciones integradas del navegador
Siempre se me olvida que esas funciones existen
Como esto pasa por una API, la latencia es comprensible
Si la inferencia se hiciera en infraestructura local, sería casi instantánea, así que si esta persona hubiera tenido acceso, esta demo habría aplastado a las demás

Show HN: Recrean la demo falsa de Google Gemini usando GPT-4, esta vez sí funciona

Remake de la demo falsa de Google Gemini con GPT-4, esta vez es real

La opinión de GN⁺

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News