21 puntos por GN⁺ 2025-04-24 | 2 comentarios | Compartir por WhatsApp
  • Crear software con IA es divertido y productivo, pero la mayoría de las apps de IA son ineficientes, como una “carreta sin caballos” (horseless carriage) que imita la forma anterior
  • El asistente de email con IA de Gmail produce resultados excesivamente formales y no ofrece una experiencia personalizada para el usuario
  • Las apps de IA realmente útiles deberían permitir que el usuario edite el System Prompt para poder crear agentes personalizados
  • La app ideal en la era de la IA no debería imitar programas existentes, sino ser software nativo de IA que reduzca las tareas repetitivas del usuario y mejore de verdad la productividad mediante automatización
  • El verdadero potencial de la IA está en automatizar el trabajo cotidiano para ayudar a que las personas se concentren en tareas importantes y creativas

Por qué es más divertido crear software con IA que usar apps hechas con IA

  • Últimamente me di cuenta de algo interesante: usar IA para crear software directamente es más disfrutable y productivo que usar la mayoría de las apps basadas en IA
  • Cuando usas IA como herramienta de desarrollo, casi sientes que puedes construir rápidamente cualquier cosa que imagines
  • En cambio, muchas apps de IA solo tienen funciones de IA “encima”, pero en la práctica sirven poco o incluso resultan incómodas

La “carreta sin caballos” de la era de la IA

  • Muchas apps de IA actuales esencialmente siguen el mismo diseño de software de antes
  • Eso termina creando una estructura donde modelos potentes como los LLM quedan limitados de forma innecesaria
  • A esto lo llama las “carretas sin caballos” (horseless carriages) de la era de la IA
    • Similar a cómo los primeros automóviles copiaban la forma de los carruajes y por eso eran ineficientes

Un ejemplo de una app de IA mal diseñada: el asistente de IA de Gmail

  • Gmail lanzó recientemente una función que genera borradores de correo usando el modelo Gemini
  • En el ejemplo, el usuario (el autor) le pide que redacte un email para su jefe

Prompt: pedir un borrador de email para el jefe

  • El borrador generado por Gemini es gramaticalmente perfecto, pero no se parece en nada al estilo real con el que escribiría el autor
    • El estilo real del autor: "hey garry, my daughter woke up with the flu so I won't make it in today"
    • El resultado de Gemini es demasiado formal y poco natural
  • Al final, toma más tiempo que escribir el email uno mismo
  • El autor describe esta función como “sentir que estás gestionando a un empleado de bajo rendimiento”
  • Es probable que millones de usuarios de Gmail hayan tenido una experiencia parecida, y por eso pueden malinterpretar que la IA todavía no sabe escribir correos bien
  • Pero el problema no es el modelo Gemini en sí, sino la forma en que el equipo de Gmail diseñó la app

Un ejemplo de un mejor asistente de email

  • Si Gmail hubiera construido su asistente de email de la siguiente manera, habría sido mucho más útil

Ejemplo de un agente que “lee” el correo

  • Esta demo no escribe correos, sino que funciona leyéndolos y procesándolos

  • Herramientas usadas:

    • labelEmail(label, color, priority) : asigna una etiqueta al correo
    • archiveEmail() : archiva el correo
    • draftReply(body) : redacta un borrador de respuesta
  • Los correos en la bandeja de entrada están ordenados así:

    • TechCrunch Weekly
    • Gustaf Alströmer - founder intro?
    • HackerNews Digest
    • The Verge Updates
    • Garry Tan - reschedule
    • y 12 en total
  • Cada correo se clasifica y prioriza automáticamente, y algunos reciben borradores de respuesta automáticos o se archivan automáticamente

  • Cada email se procesa de forma individual según el System Prompt definido por el usuario

  • El usuario puede editar directamente el System Prompt para reflejar su propia lógica de etiquetado

Este enfoque es mucho más poderoso, intuitivo y productivo, así que ¿por qué el equipo de Gmail no lo diseñó así?

  • El núcleo del problema: un tono típico y uniforme
    • Uno de los mayores problemas del diseño de Gmail es precisamente ese estilo genérico y sin personalidad

AI Slop: salidas formales y torpes

  • Los borradores de email generados por Gemini en Gmail son demasiado largos, formales y completamente distintos al estilo del autor
  • Ese tipo de resultado incluso puede parecer un email de phishing
  • La mayoría de los usuarios de LLM han pasado por esto, y para evitarlo terminan usando de manera natural una estrategia de prompt hacking
    • Prompt de ejemplo:

      "let my boss garry know that my daughter woke up with the flu and that I won't be able to come in to the office today. Use no more than one line for the entire email body. Make it friendly but really concise. Don't worry about punctuation or capitalization. Sign off with “Pete” or “pete” and not “Best Regards, Pete” and certainly not “Love, Pete”"

  • La calidad del resultado mejora, pero el prompt se vuelve demasiado largo y tener que repetir este proceso cada vez es ineficiente
  • La solución simple a este problema: darle al usuario permiso para modificar el System Prompt

La diferencia entre System Prompt y User Prompt

  • Un LLM es, en esencia, un sistema que predice la siguiente palabra a partir de las palabras de entrada (prompt)
  • Todas las entradas y salidas están compuestas por texto
    • En el texto se simplifica el tema hablando solo de interfaces centradas en texto, aunque en la práctica también puede haber entrada/salida por voz o video
  • OpenAI, Anthropic y otras empresas adoptaron una estructura que separa el prompt entre System Prompt y User Prompt para simplificar esto
    • System Prompt: define la personalidad y la forma de actuar del agente (equivale a la función)
    • User Prompt: la petición o pregunta concreta del usuario (equivale al valor de entrada)
    • Respuesta del modelo: el valor de salida

Ejemplo:

  • User Prompt: "Let my boss Garry know that my daughter woke up with the flu this morning and that I won't be able to come in to the office today."
  • System Prompt estimado de Gmail:
    • "You are a helpful email-writing assistant responsible for writing emails on behalf of a Gmail user. Follow the user’s instructions and use a formal, businessy tone and correct punctuation so that it’s obvious the user is smart and serious."
  • El problema es que Gmail no muestra ese System Prompt ni le da al usuario la posibilidad de modificarlo

El System Prompt personalizado de Pete

  • Si Gmail, en vez de un System Prompt uniforme, le diera al usuario la posibilidad de escribir el suyo, podría verse así:

    You're Pete, a 43 year old husband, father, programmer, and YC Partner.
    You're very busy and so is everyone you correspond with, so you do your best to keep your emails as short as possible and to the point. You avoid all unnecessary words and you often omit punctuation or leave misspellings unaddressed because it's not a big deal and you'd rather save the time. You prefer one-line emails.
    Do your best to be kind, and don't be so informal that it comes across as rude.

  • Si se le pide a GPT que genere un email sobre esa base, el resultado puede ser algo así:

    Garry, my daughter has the flu. I can't come in today.

  • Ese resultado es breve, personal y acorde con el estilo real del usuario

  • La mayor ventaja es que ese System Prompt se puede reutilizar, así que el mismo estilo se aplica a todos los correos futuros

Lo divertido y prometedor de escribir prompts de usuario

  • La experiencia de enseñarle a un LLM a pensar como tú y ver de inmediato el resultado es muy intuitiva y disfrutable
  • Recomienda que cada usuario intente escribir su propio System Prompt para definir su estilo personal
    • Ejemplos de User Prompt:

      "Let my wife know I'll be home from work late and will miss dinner"
      "Write an email to comcast customer service explaining that they accidentally double billed you last month."

  • Si sale un buen resultado, significa que la explicación fue suficiente; si no, se ajusta el contenido y se repite
  • En cierto sentido, esto puede ser incluso más fácil que enseñarle a una persona, gracias a un bucle de retroalimentación más rápido y honesto

¿Por qué la mayoría de las apps de IA no exponen el System Prompt?

  • A abril de 2025, la mayoría de las apps de IA ocultan deliberadamente el System Prompt
  • El autor lo ve como quitarle al usuario control y personalidad, y sostiene que el System Prompt debe abrirse necesariamente al usuario para lograr mejores resultados y una mejor experiencia

Horseless Carriages: aplicar tecnología nueva con mentalidad vieja

  • Cuando aparece una nueva tecnología, las primeras herramientas suelen fracasar porque copian sin cambios el marco de la forma anterior
  • “Horseless Carriage” se refiere a los primeros automóviles que seguían el diseño de los carruajes tirados por caballos
    • Ejemplo: el diseño del carruaje a vapor de Trevithick en 1803
    • En su momento parecía innovador, pero hoy se ve claramente que su estructura básica no era adecuada para un automóvil
  • En esa época, alguien podía subirse a uno de esos vehículos y pensar “los caballos son mejores que el motor” → y, antes de que existieran los autos modernos, era una conclusión razonable
  • El autor sostiene que hoy las apps de IA están en una situación parecida
    • Ejemplo: funciones como Gemini en Gmail, donde se le agrega IA a una UX anticuada
  • La forma de pensar tradicional se quedó en el nivel de “reemplacemos el caballo por un motor”
    • Hoy muchas apps de IA hacen algo similar: solo le agregan funciones de IA a apps existentes

Old World Thinking: los límites del diseño de software tradicional

  • Antes, para aprovechar una computadora solo había dos caminos:
    1. Programar directamente
    2. Usar un programa hecho por otra persona
  • Como programar es difícil, la mayoría elegía la segunda opción
  • Por eso la industria del software creció separando claramente el rol del desarrollador y el del usuario
    • Desarrollador: decide el comportamiento general del software
    • Usuario: aporta entradas concretas
  • La separación entre System Prompt y User Prompt en los LLM refleja exactamente esa estructura
    • System Prompt = parte del desarrollador
    • User Prompt = parte del usuario
  • Pero el email es un terreno profundamente personal, y si una IA va a escribir en nombre del usuario, debería reflejar su estilo personal
  • En la estructura antigua, la personalización es difícil a menos que el usuario escriba el programa por sí mismo
  • Pero en la era de los LLM, el usuario puede escribir directamente el System Prompt
    • Es decir, ya estamos en una era donde se puede diseñar el comportamiento de una IA sin programar

Devolvámosle al usuario lo que es del usuario

  • La postura del autor: si un LLM va a actuar en mi nombre, yo debería enseñarle directamente cómo hacerlo (System Prompt)
  • Claro, no todos los usuarios quieren escribir prompts desde cero
    • Gmail podría generar un System Prompt base a partir del historial de correos del usuario
    • Lo importante es mostrarle ese Prompt al usuario y permitirle editarlo
  • “¿Y qué pasa con quien no sabe escribir prompts?” → al principio puede costar, pero la mayoría aprende rápido
    • El éxito de ChatGPT lo demuestra
  • ¿Y qué pasa en dominios como contabilidad o derecho, que no son agentes personales?
    • Tiene sentido que el System Prompt lo escriba un experto del área, pero ese experto también va a querer ajustarlo a su propio contexto
  • Ejemplo: el equipo de contabilidad de YC usa una combinación de reglas, procesos y software específica para YC
    • Un agente de IA genérico para contabilidad no serviría de nada en YC
  • Casi todos los equipos contables tienen su propia manera de trabajar, y por eso prefieren herramientas generales como Excel
  • Conclusión: en la mayoría de las apps de IA, el System Prompt debería ser escrito y mantenido por el propio usuario

Las apps de IA no deberían ser agentes terminados, sino herramientas para que el usuario construya su propio agente (agent builder)

Devolvámosle al desarrollador lo que es del desarrollador

  • Entonces, ¿qué deberían hacer los desarrolladores?
    • Diseñar una UI de constructor de agentes especializada en un dominio concreto (por ejemplo, email o contabilidad)
    • Proveer plantillas y asistentes para generar prompts para que los usuarios no tengan que escribir todo desde cero
    • Ofrecer una interfaz de bucle de retroalimentación para que el usuario revise y corrija los resultados del agente
  • Los desarrolladores también deben ofrecer herramientas del agente (agent tools)
    • Envío de borradores de email, envío automático, búsqueda de correos, conexión con APIs externas, etc.
  • Estas herramientas sirven para controlar el alcance de acción y la seguridad del agente
    • Limitar el comportamiento mediante herramientas escritas en código es mucho más seguro y claro que intentar restringirlo con prompts de texto

En el futuro, preocuparse por el “prompt injection” podría volverse motivo de risa
→ crear fronteras dentro de una estructura textual es señal de una abstracción débil
→ hay que entender todo el sistema como espacio del usuario y controlarlo con herramientas y UI robustas

El verdadero valor de un agente que “lee” el email

  • Como se dijo antes, incluso un mejor System Prompt no ahorra tanto tiempo si el trabajo es redactar correos desde cero
  • La razón es que los emails del autor ya son muy cortos y directos
    • Es decir, la longitud del prompt del usuario ≒ la longitud del cuerpo del email
  • El autor experimentó muchas veces y llegó a sentir que la IA generativa es mucho mejor transformando texto que generándolo
  • Por eso, el verdadero objetivo al usar LLM aquí no es “escribir” correos, sino “leerlos y procesarlos”

Demo de un agente que lee email (basado en gpt-4o-mini)

  • Herramientas disponibles:
    • labelEmail(label, color, priority) : asigna etiquetas al correo
    • archiveEmail() : archiva correos automáticamente
    • draftReply(body) : crea automáticamente borradores de respuesta
  • Este agente lee cada email y:
    • filtra bien el spam
    • lo etiqueta según su importancia
    • lo resume o redacta un borrador de respuesta
    • y archiva automáticamente lo innecesario
  • Incluso, si se le agregan unas cuantas herramientas más, podría:
    • cancelar suscripciones
    • agendar eventos
    • pagar facturas automáticamente
  • Eso es justamente lo que debería hacer un cliente de correo nativo de IA:
    automatizar las tareas repetitivas y aburridas para ahorrar tiempo al usuario
    • Algunos clientes como Superhuman y Zero ya se están desarrollando en esa dirección

Qué significa realmente software nativo de IA

  • La verdadera killer app de la IA es hacer que la computadora haga por ti las cosas que no quieres hacer
  • Si el autor incluyó demos en este texto, fue para mostrar que los LLM ya pueden hacer bastante bien este tipo de tareas en la práctica
  • El problema no es el desempeño de la IA, sino el diseño de las apps

Lo que hizo el equipo de Gmail fue una “app de email con IA encima”
→ no una herramienta de automatización para el usuario, sino una interfaz centrada en humanos a la que se le forzó la IA

  • En cambio, una app nativa de IA debería ser así:
    • maximizar el apalancamiento del usuario en un dominio específico
    • ejemplo: un cliente de correo con IA debería minimizar el tiempo dedicado al email
    • ejemplo: un software contable con IA debería minimizar el tiempo dedicado a la contabilidad

Expectativas sobre la era de la IA

  • Los agentes se encargarán de todo el trabajo repetitivo y aburrido
  • Los usuarios podrán concentrarse en lo importante
  • Podremos dedicar más tiempo a lo que hacemos bien y a lo que nos gusta

Esa es justamente la razón por la que el autor se entusiasma con el futuro de la IA
mejores herramientas, mejor uso del tiempo, mayor productividad

2 comentarios

 
crawler 2025-04-24

Las aplicaciones de IA realmente útiles deberían permitir que el usuario modifique el System Prompt para poder crear agentes personalizados.

Obviamente, los desarrolladores que crean funciones también lo saben, pero mientras existan los jailbreaks, no es algo fácil.
Aunque bloquees el cambio del system prompt, igual puede haber jailbreak; por eso, abrir la posibilidad de modificar el system prompt es prácticamente imposible.
Además, quién sabe si podrían usarlo a bajo costo para fines distintos a los de la función original.

 
GN⁺ 2025-04-24
Opiniones en Hacker News
  • Se aborda con cautela el uso de modelos de lenguaje para redactar mensajes personales. Carecen de la especificidad de la experiencia o el conocimiento individual

    • Sería más fácil aceptarlo si modelos como Gemini pudieran entender explicaciones técnicas previas o detalles concretos del trabajo de una persona
    • Pero en la mayoría de los casos, no es muy distinto de un correo que podría haber escrito una secretaria en los años 70
    • Al redactar mensajes personales, resumir es innecesario, y expandir mensajes cortos solo genera ruido sin sentido
    • Usar IA para redactar mensajes difumina los límites de la transmisión de información
  • Se siente que el 90% de las funciones de IA son inútiles y caras

    • Fuera de las funciones de IA para programar, es difícil encontrar funciones de IA realmente útiles
    • El autocompletado de Gmail o iMessage ya existía antes de los LLM
    • Nunca se ha usado una función de Gmail para hacer que un correo suene más profesional
  • Gemini actúa como un asistente personal y envía correos en nombre del usuario

    • Redactar mensajes personales con IA puede incomodar a la otra persona
  • Resulta molesto comunicarse con personas que no cuidan la gramática ni la ortografía

    • No se critica a quienes escriben mal, pero no prestar atención pese a tener la capacidad muestra desinterés por la otra persona
  • Fue divertido el widget interactivo conectado con un LLM

    • El botón de "resumir correo" de Gmail se siente innecesario
  • Mucha gente cree que la IA escribe con un estilo predecible, pero en realidad no es así

    • Esto puede aplicarse no solo al texto, sino también a la generación de imágenes
    • Cuando la gente se da cuenta de que la IA puede hablar como una persona real, puede sentirse incómoda
  • Gustó que la demo interactiva se desarrollara en tiempo real

    • Puede analizar el estilo de los correos y redactar un borrador
    • Podría evolucionar hacia un sistema en el que la IA redacte correos automáticamente y el usuario solo los apruebe
  • La IA no puede saber lo que el usuario quiere, y expresar con claridad los objetivos es difícil

    • Si la IA se encarga de todo, el usuario deja de pensar a fondo y eso limita la pericia y la capacidad de resolver problemas
  • Las funciones de IA más útiles no llaman la atención

    • Un asistente para etiquetar correos es un buen ejemplo
    • Es útil una función que interprete automáticamente correos de "reprogramación" y proponga cambios de agenda
  • No se entiende que la IA redacte mensajes en lugar de la persona

    • En el caso de mensajes importantes, escribirlos uno mismo tiene sentido, y es una expresión de una interacción viva