- Generación bajo demanda en tiempo real para crear cada página como una imagen, y al hacer clic en un objeto dentro de la imagen se genera una nueva pantalla para explorar más a fondo
- La pantalla no tiene HTML ni campos de entrada y funciona como una interfaz centrada en píxeles, donde incluso el texto es renderizado directamente en píxeles por el modelo de imágenes
- La información de la página se crea usando en conjunto agentic web search y el conocimiento del mundo del modelo de imágenes, y se indica que la precisión es similar a la que se esperaría de ChatGPT, Gemini o Claude
- La función de live video stream anima las imágenes de exploración y suaviza las transiciones, pero por ahora está oculta detrás de un toggle porque su comportamiento es difícil de predecir y consume muchos recursos
- Por ahora se parece más a una herramienta experimental de exploración y aprendizaje, pero a medida que mejoren la precisión y el rendimiento de los modelos de imagen y video, podría expandirse a un entorno que incluya más datos reales, interacción, ejecución de tareas y almacenamiento de datos
Descripción general
- Es un navegador visual infinito que funciona con generación bajo demanda en tiempo real y compone como imágenes todas las páginas a las que llega el usuario
- En la pantalla no hay HTML, código, enlaces específicos ni campos de entrada, y al hacer clic en un objeto dentro de la imagen se genera una nueva imagen para explorar ese objeto con más profundidad
- Replantea la web no como un conjunto de documentos y elementos de UI, sino como una interfaz centrada en píxeles generada en pantalla
Cómo funciona y hacia dónde puede expandirse
- Todo el texto en pantalla también es renderizado directamente en píxeles por el modelo de imágenes, sin superponer una capa de texto separada sobre la imagen
- Como resultado, a veces el texto puede verse incompleto o aparecer en una posición incorrecta, y se indica que esto podría mejorar a medida que el modelo avance
- La información dentro de la imagen se crea usando en conjunto agentic web search y el conocimiento propio del mundo del modelo de imágenes
- Aunque a veces puede ser inexacta, se presenta como un punto de partida útil generalmente basado en datos reales en línea
- Se indica que la precisión factual es parecida al nivel que puede esperarse al usar ChatGPT, Gemini o Claude
- En lugar de una pantalla basada principalmente en texto y rectángulos de colores, apunta a una experiencia de cómputo que transmita información mediante una expresión visual rica
- Parte de la idea de que solo con código y reglas fijas es difícil transmitir ideas complejas y detalladas, y enfatiza una dirección en la que según el contexto se elige la forma de expresión más efectiva, ya sea una palabra, una ilustración o un renderizado realista
- live video stream es una función experimental que convierte imágenes estáticas en un flujo de video más continuo, animando cada imagen de exploración y haciendo más suaves las transiciones entre ellas
- Por ahora su comportamiento es algo impredecible y también consume muchos recursos, por eso está detrás de un toggle que puede activarse o desactivarse
- Actualmente usa en conjunto un modelo personalizado de generación de video altamente optimizado y dos sistemas de generación de imágenes, y se indica que en el futuro planean integrarlo todo en un solo sistema
- Aunque hoy está diseñado como una herramienta experimental de exploración y aprendizaje, si la precisión y el rendimiento de los modelos de imagen y video mejoran, podría expandirse a páginas que incluyan más datos reales, permitan interacción, ejecuten tareas directamente y almacenen sus propios datos
- Como ejemplo, se menciona que podría pasar de investigar el próximo viaje y luego hacer la reserva en otro sitio, a completar todo el proceso dentro de Flipbook
- Se indica que tareas que hoy requieren apps y sitios web separados podrían resolverse cada vez más dentro de un entorno que se vea y funcione como Flipbook
- No se reproducirá en navegadores que no admitan video embebido
- La demostración usa un video pregrabado y está editada por motivos de velocidad
3 comentarios
Solo con verlo y con el video de presentación dan ganas de probarlo una vez... pero dicen que hay que esperar 3 horas. Parece que está entrando muchísima gente.
https://x.com/DongwooKim/status/2047499005580738657
Probé rotar la Torre Namsan de Seúl y quedó muy bonito, con mucho encanto.
Comentarios en Hacker News
Esto sí que es sorprendente. Subí un diagrama de un sistema hidropónico que encontré por ahí
y me generó diagramas separados y de alta calidad para partes detalladas como tuberías, suministro de nutrientes y cableado eléctrico
No era totalmente exacto, pero me gusta mucho el concepto en sí
Le pedí que hiciera un diagrama de especificaciones de torque de la suspensión de un auto, y como es un tema que conozco, lo revisé:
dibujó casi todo correctamente y los valores de torque también estaban bien
Podías hacer clic en piezas individuales para ampliar más y ver especificaciones adicionales
Fue de las demos más impresionantes que he visto en mucho tiempo, y se podía usar como un manual de reparación Haynes vivo
Acertó en que se necesitan paneles solares, controlador de carga, batería y cargas, pero el cableado no tenía sentido
En cuanto entrabas en detalles como la configuración del controlador de carga, se derrumbaba por completo
No serviría jamás como información en la que realmente puedas confiar, pero como curiosidad es entretenido y la implementación impresiona
El resultado fue básicamente un cobertizo común con una upcycled door pegada
Ni se veía dónde entrarían las bicicletas, y solo proponía una estructura que ni siquiera se parecía a la forma final real
Igual que otras demos de IA, por fuera se ve convincente, pero el sistema en el fondo no entiende lo que está haciendo
Le pedí que etiquetara los componentes del compartimento del motor de un Jeep Wrangler JK y al principio salió un diagrama bastante convincente
Pero el depósito de líquido de frenos estaba del lado opuesto, y en ese lugar había una etiqueta del tanque de rebose del refrigerante; el tanque de rebose real sí estaba dibujado, pero sin etiqueta
La ubicación de la batería también estaba mal, la parte superior de la parrilla delantera decía que era la tapa del filtro de aceite, y la posición del tapón de aceite también era incorrecta
La mitad de la batería estaba etiquetada como caja de fusibles, mientras que la caja de fusibles real estaba bien dibujada del otro lado pero sin etiqueta
El depósito del limpiaparabrisas también aparecía como dos tanques pegados entre sí
Al hacer clic en el tanque de refrigerante mal etiquetado, me llevó a otra página donde esta vez la posición sí era correcta, pero el tanque se veía totalmente distinto, y además habían puesto la tapa del radiador encima del tanque
En realidad debería estar sobre el radiador
Alguien que sepa del tema puede encontrar fallas en todas partes, pero a ojos de quien no sabe se ve bastante creíble; esa es exactamente la historia de los LLM
A simple vista se parecía a un MacPro, pero todos los elementos visuales estaban mal
El texto también solo parecía correcto en una mirada rápida, y al hacer clic casi todo lo de dentro estaba mal
Se veía genial, pero ver a una IA equivocarse de forma tan constante así se siente como algo que no veía desde 2023
"your mom"y me devolvió una línea de tiempo social histórica de la maternidad con una placenta superpuestaEsto sí lo apruebo
Es un proyecto genial, pero siempre me pregunto de dónde salen los recursos y el dinero para construir algo así y mantenerlo como servicio público
Supongo que tendrán GPUs propias o usarán la API de GPT/Gemini con inferencia subsidiada a nivel empresa
Pero desde la perspectiva de alguien que ha vivido con austeridad, todavía me cuesta imaginarlo
Para nada esperaba que explotara de esta manera
Hay gente que gasta en videojuegos, arte o carpintería
y otros usan el presupuesto libre que les queda de un salario nivel FAANG en un proyecto de arte GenAI en vez de alcohol o deportes
Puede no ser de tu gusto, pero en el presupuesto de cualquiera suele haber al menos un gasto que desde fuera parece un lujo
Aquí a eso le llaman immigrant mentality, no como insulto, sino más bien como la austeridad propia de quien tuvo que reconstruir su vida desde cero
Además era lentísimo, así que al final no esperé
No culpo a quien lo hizo, simplemente era demasiado lento
Al principio pensé que esto no generaba diagramas, sino que creaba la página web en tiempo real
Siempre me ha parecido interesante la idea de un futuro donde las aplicaciones se construyen al momento según las necesidades del usuario
Me pregunto si existe algún caso real en que hayan hecho algo así
Me salió un Mac Neo, con 2 chips cuánticos M4, solid state battery y graphene connector
https://flipbook.page/n/942776fea47c4274a9a4589134924ef5
Sale Sneed's Feed and Seed. También aparece como Formerly Chuck's
https://flipbook.page/n/4a5e1797903b478c876a35e64c6c57fe
Si eso lo hubiera acertado bien, de verdad me habría impresionado
Parece que no está dentro de sus datos de entrenamiento
https://flipbook.page/n/d739a0bbc3664ba2aad331c90fef7406
La idea es interesante, pero por ahora casi todo está fallando
Probablemente por el abrazo de la muerte de HN
Aparece 429 RESOURCE_EXHAUSTED junto con
Gemini generateContent request failed,y dice que se superó la cuota actual y que revises el plan y la información de facturación
También muestra un enlace con información detallada sobre los límites
La demo de la página principal muestra Paris Travel Overview / Visiting Notre Dame,
así que lo probé con algunas ciudades y lugares a los que sí he ido
A veces sí identifica correctamente los puntos de interés, pero las relaciones espaciales entre ellos estaban completamente mal
Ni siquiera se acercaba a la realidad
Esto parece un producto bastante caro como para recibir el abrazo de la muerte de HN
Los videos de muestra que subieron a Twitter se veían realmente geniales
Pero por ahora no funciona bien, así que voy a esperar a que baje un poco el tráfico y volveré a probarlo en unos días