13 puntos por spilist2 2025-04-18 | Aún no hay comentarios. | Compartir por WhatsApp

(El artículo original incluye prompts de sistema, fragmentos de código y gifs)

  • Con la actualización de Google AI Studio, se añadió un espacio para jugar con varias miniapps (Starter Apps) que aprovechan Gemini
  • Se pueden ejecutar más de 10 demos modificando el código. Como usan una Gemini API Key integrada, es gratis
    • Pero si se usa demasiado, aparece un error 400. Me imagino que debe haber algo como un límite diario de llamadas.
    • Con otra cuenta sí se puede ejecutar

Tratando de adivinar: ¿por qué Google publicó estas demos?

  • Últimamente Gemini está llamando la atención por sus capacidades multimodales (multi-modal), que van más allá del texto para entender y generar imágenes o video, además de su gran capacidad para programar.
  • Sin embargo, la mayoría de las veces se usa solo dentro de chatbots LLM, y no era tan común que la gente en general lo aprovechara a nivel de API
  • ¿Será que Google presentó estas demos esperando que estas funciones también se usen mucho vía API y así generar ingresos?
    • Porque todas las demos son una vitrina que muestra, a nivel de código y combinándolas con otras APIs de Google, cómo implementar las capacidades de Gemini en una web app

Análisis de prompts y código de las demos

Revisé dos de las más complejas

Video Toys: entender y explicar video + ejemplo de vibe coding

  • Es una demo que analiza videos de YouTube con Gemini 2.5 y luego hace vibe coding para crear una app sencilla de material educativo interactivo
    • Hace que analice el video como si fuera un "pedagogo con experiencia en crear experiencias educativas en web apps interactivas, y además diseñador de producto", luego genera la especificación de esa web app y la implementa
  • En el video de muestra el contenido ya está analizado, así que se puede probar de inmediato la app de material educativo
  • A diferencia de otras apps demo compuestas por unos pocos archivos, esta está hecha con React
  • El usuario puede modificar tanto la especificación para vibe coding generada por Gemini como el código resultante
  • Recomendado para quienes quieran crear servicios basados en video o servicios que generen código

Maps Planner: ejemplo de multimodalidad + uso de funciones + salida estructurada + API de mapas

  • Es una demo que, si le das un nombre de lugar, lo describe y, si activas Day Planner Mode, arma un plan de viaje para un día. También estima el tiempo de traslado
  • Soporta dos modos, General Explorer Mode y Day Planner Mode, con un solo prompt de sistema
    • Me pareció interesante cómo ajusta sutilmente el prompt de sistema según el modo que elija el usuario
  • Define funciones para recibir y devolver datos de mapas con precisión y para dibujar correctamente una línea entre dos ubicaciones, y hace que Gemini las invoque
    • Ese tipo de extensibilidad probablemente es lo que se busca lograr con MCP
  • El prompt está bien, pero también muestra muy bien cómo manejar la API de mapas y los datos de ubicación. Recomendado para quienes quieran crear servicios relacionados con mapas

Probar a crear algo uno mismo

  • Se puede copiar una app demo y personalizarla. También hay muchas plantillas para quienes quieran empezar desde cero
  • Probé copiar una demo de generación de imágenes llamada Explain Things with Lots of Tiny Cats para hacer la mía
    • Es una demo que, si le pides explicar un concepto, crea una especie de webcómic usando metáforas con muchos gatos
    • Me impresionaron tanto el prompt que hace que siga generando imágenes (No commentary, just begin your explanation. Keep going until you're done.) como el código que va mostrando esas imágenes una por una en streaming
  • La cambié a una versión en coreano + hipopótamos e hice Los hipopótamos lo saben todo
    • Tomé una fuente adecuada para coreano desde Google Fonts y ajusté un poco el código HTML y el prompt
  • Hay una función para compartir tu app, pero no funciona muy bien
    • Como todos los archivos relacionados se guardan en Google Drive, basta con ir a Google Drive y compartirlos como cualquier otro archivo

Gemini Cookbook

  • Mientras que las Starter Apps eran ejemplos divertidos de web apps, aquí hay varios ejemplos en Python
    • Incluso hay ejemplos de Gemini 2.5 Flash publicados hace apenas unas horas
  • Es una buena referencia para quienes quieran crear servicios de IA generativa

Aún no hay comentarios.

Aún no hay comentarios.