Actualmente desarrollé una función que ofrece, mediante MCP (Model Context Protocol), servicios de recopilación de noticias/información de 32 países y snapshots diarios de los principales países (Estados Unidos, Japón, Reino Unido, Corea) y de los mercados de criptomonedas/futuros. En este momento, con base en eso, estoy desarrollando un programa de inversión con capacidad de operar libremente, similar a OpenClaw.
Hay dos puntos en los que estoy reflexionando.
-
La coexistencia entre la "libertad" de la IA y la UI de frontend
Estoy implementando un sistema que, al igual que el software tradicional, ofrece por defecto una UI y funciones definidas, pero al mismo tiempo convierte cada función en una API para que un IDE o una IA puedan comprenderla y controlarla perfectamente. Al final, creo que el desarrollo de software del futuro se centrará en qué tan libremente la IA puede ampliar y ejecutar funciones, es decir, en la "libertad de la IA". Me gustaría conocer su opinión al respecto. -
El cambio en la experiencia de usuario: la era de "haz esto"
En el futuro, los usuarios querrán obtener el resultado que desean con una instrucción tan simple como "haz esto". Incluso si se trata de una función que el desarrollador no definió de antemano, considero que la IA debería poder satisfacer la necesidad del usuario buscando directamente en internet o escribiendo código. (Por ejemplo, incluso en un programa jurídico, si el usuario lo quiere, hasta el punto de ayudarle a reservar un vuelo)
Si la tecnología debe ofrecer al usuario una comodidad extrema, ¿hasta qué punto deberíamos nosotros, los desarrolladores, pensar en una "extensibilidad abierta" en lugar de "funciones cerradas"? Últimamente esta pregunta me pesa más con la aparición de agentes como OpenClaw.
5 comentarios
Estoy probando el caso 1
Como se fueron acumulando experiencias de fracaso, empezó a imponerse restricciones por sí solo.
Como referencia, estoy en la etapa de aprovechar las alucinaciones como un motor de exploración de canales de paso.
(b) ampliar funciones combinando APIs de varios servicios que antes hacía una "persona"
En (a), todavía no me da confianza dejar que la IA amplíe funciones libremente a su antojo.
En (b), como está más controlado, eso ya se ve un poco mejor.
Sin embargo, no creo en absoluto que un "programa legal" vaya a hacer reservas de avión. Entonces ya no sería un programa legal. Sería un Her OS de propósito general. Así como hay razones por las que en las organizaciones humanas se reparten funciones y responsabilidades, creo que en programación/arquitectura también hay razones para haberlas separado de esa manera. Eso de hacer que conozca de verdad lo que quiero para que procese todas esas cosas exactamente a mi gusto se parece bastante a la idea de un clon digital.
"Haz esto" sería algo como un asistente personal que me conoce desde hace mucho tiempo, de modo que no tenga que explicarle todo de forma concreta y detallada (como lo que hoy se menciona mucho con spec-driven), pero aunque pase por el proceso de escanear todo sobre mí para acumular conocimiento y memoria, al final igual se producen errores (en Her también hay una escena al inicio donde revisa el correo del usuario y todos sus datos durante la configuración inicial) -- lo importante sería qué tan bien puede detectar y filtrar esos errores, o si sabe corregirlos, y todavía estamos lejos de eso. Si alguna vez han puesto a trabajar a personas, lo sabrán: incluso quienes han trabajado conmigo 10 o 20 años no entienden con precisión mi intención; o hay personas con poco tino que siguen sin entender y siguen cometiendo errores... Si con las personas pasa eso, creo que primero hay que llevar a una IA como momento, y además sin responsabilidad, al menos a ese nivel humano.
Ojalá se avance hacia esa extensibilidad abierta que menciona, pero para eso tendría que ser una IA de asistente personal verdaderamente general (como escribió otra persona arriba, que una tostadora no se ponga a hacer otras cosas), y tendría que seguir aprendiendo del usuario mediante la interacción continua. No espero que un automóvil redacte una declaración de impuestos. Con las personas pasa igual: si a un empleado le das una tarea específica y hace además otra distinta, al empleador puede parecerle bien, pero creo que en la mayoría de los casos le preocuparía.
La documentación clara y una accesibilidad bien diseñada al final terminan ganando. Sin necesidad de centrarse demasiado en el grado de libertad de la IA, una accesibilidad bien diseñada es fácil de entender tanto para las personas como para la IA.
No, el principio de privilegio mínimo debe respetarse sí o sí. Yo quiero que mi tostadora solo tueste pan; no quiero que se conecte a internet para resumir noticias y ejecutar Doom.
Filosóficamente, les recomiendo la teoría de la mente extendida de Andy Clark. Les dará una comprensión profunda de cómo los LLM, cuyo fuerte es sobre todo la apariencia de plausibilidad, expanden su cognición mediante herramientas.
En la práctica, OpenCode les será de ayuda, ya que tiene abiertas todas las partes de la composición de agentes.
El punto 2 ya es una realidad. Una de las primeras herramientas que se les dio fue justamente el intérprete de código. Por eso, mi opinión sobre los agentes de dominio específico es que al final son una pelea de corto plazo destinada a desaparecer.
En el caso del dominio en el que están trabajando ahora, me da la impresión de que sería mejor ofrecer el ML tradicional mediante MCP. Los modelos de lenguaje no tienen ninguna ventaja para el análisis de patrones ni para la predicción lineal.
No parece necesario diseñar la simetría de las herramientas basándose a la fuerza en la UI humana. De todos modos, webMCP o el MCP automatizado basado en GDI, donde el propio agente interpreta y controla directamente la UI, llegarán muy pronto. Habrá que aprovechar innumerables sistemas legacy pensados para humanos. Si se trata de un agente basado en LLM con multimodalidad nativa, el desarrollador no tendría por qué tomarse el trabajo de traducir la GUI a MCP. iOS, que tiene un alto control sobre la GUI a nivel de plataforma, quizá empiece con eso de inmediato en la próxima versión.
Cuando eso pase, bastará con instalar cualquier app de bolsa y podrán delegarle las inversiones al agente.