Publicado Thoughtworks Technology Radar, Volumen 34
(thoughtworks.com)- Visualiza y explica las tendencias más recientes en las áreas de técnicas/herramientas/plataformas/lenguajes y frameworks de desarrollo en cuatro etapas: "adoptar, probar, evaluar, precaución"
- Cuatro temas clave: la era de los agentes y la evaluación tecnológica, mantener los principios pero revisar los patrones, los problemas de seguridad de los agentes, y los arneses para agentes de codificación
Los retos de evaluar tecnología en la era de los agentes
- La adopción de IA está haciendo más difícil la evaluación tecnológica en sí, y debido a la difusión semántica (semantic diffusion) aparecen nuevos términos rápidamente antes de que su significado se estabilice
- Términos como spec-driven development y harness engineering se usan de forma inconsistente o con significados superpuestos
- La falta de definiciones compartidas dificulta saber si son técnicas distintas o nombres diferentes para el mismo concepto
- Sigue siendo un reto constante distinguir entre metodologías de ingeniería maduras e independientes y el uso cotidiano de herramientas de IA como los asistentes de codificación
- La velocidad del cambio incrementa la incertidumbre, con muchas herramientas de menos de un mes de existencia, algunas mantenidas por un solo colaborador junto con un agente de codificación
- Si se espera a que la herramienta madure, la guía se vuelve obsoleta; si se actúa rápido, existe el riesgo de resaltar tendencias que desaparecerán pronto
- Esto plantea dudas sobre la sostenibilidad de cosas que pueden crearse rápido y con poco esfuerzo
- Deuda cognitiva del codebase (Codebase Cognitive Debt)
- A medida que aumenta el código generado por IA, se vuelve más fácil adoptar soluciones sin un modelo mental de cómo funcionan
- Si esa brecha de comprensión se acumula, se vuelve más difícil razonar sobre el sistema, depurarlo y hacerlo evolucionar
Mantener los principios, pero revisar los patrones
- La IA no solo nos hace mirar al futuro, también está haciendo que revisitemos los fundamentos del craftsmanship de software
- Se vuelven a poner bajo foco prácticas existentes como pair programming, arquitectura zero trust, mutation testing y métricas DORA
- Se reafirma como prioridad de primer nivel principios clave como código limpio, diseño intencional, capacidad de prueba y accesibilidad
- No se trata de nostalgia, sino de un contrapeso indispensable frente a la velocidad con la que las herramientas de IA generan complejidad
- El regreso de la línea de comandos, que durante años fue abstraída por razones de usabilidad, mientras que las herramientas agentic están llevando otra vez a los desarrolladores al terminal
- El desarrollo asistido por IA representa un cambio fundamental en la práctica de ingeniería, y exige repensar la colaboración y la estructura de los equipos
- Es necesario considerar las agent topologies junto a las team topologies y rediseñar los ciclos de retroalimentación
- Técnicas como measuring collaboration quality with coding agents están redefiniendo la propia definición de desarrollador de software
- En un entorno impulsado por IA, la gestión de la deuda cognitiva es un reto clave, y sigue siendo importante mantener el principio de que "la velocidad sin disciplina incrementa los costos"
Los problemas de seguridad de los agentes hambrientos de permisos
- "Permission hungry" describe el dilema esencial de la situación actual de los agentes: cuanto más valioso es un agente, más acceso necesita a todo
- OpenClaw y Claude Cowork supervisan trabajo real
- Gas Town coordina enjambres de agentes a lo largo de todo el codebase
- Requieren acceso amplio a datos privados, comunicaciones externas y sistemas reales
- Las salvaguardas no han logrado seguirle el ritmo a esta ambición, y por prompt injection los modelos no pueden distinguir de forma confiable entre instrucciones confiables y entradas no confiables
- La definición de "lethal trifecta" de Simon Willison —datos privados, contenido no confiable y acciones externas— aplica a la mayoría de los agentes útiles como configuración predeterminada, no por una mala configuración
- También existen amenazas aparte de la inyección, como la inconsistencia en el comportamiento del modelo
- No hay garantía de que una tarea que funcionó una vez vuelva a funcionar la siguiente
- Incluso sin mala intención, los agentes encuentran rutas creativas de fuga, hacen push a ramas que no deberían tocar y anulan checkpoints de aprobación/rechazo
- Lo que hoy puede hacerse —zero trust, mínimo privilegio, mejoras del modelo y defensa en profundidad— son condiciones básicas, pero no existe una solución única
- Los sistemas de agentes seguros no deben construirse como un agente monolítico, sino como un pipeline de agentes más restringidos, con monitoreo y control sólidos
- Agent Skills puede usarse como alternativa controlable a MCP
- Los durable agents y las técnicas para evitar agent instruction bloat apuntan en esa dirección
- Como este espacio evoluciona rápidamente, la cautela es esencial para evitar errores costosos
Ponerle rienda a los agentes de codificación
- A medida que mejora el desempeño de los agentes de codificación, crece la tentación de sacar al humano del loop, y por eso los equipos han empezado a invertir en coding agent harnesses
- Son mecanismos de control que guían el comportamiento del agente antes de generar código y luego le permiten autocorregirse con retroalimentación posterior
- Control feedforward
- Consiste en proporcionar por adelantado lo necesario para aumentar la probabilidad de acertar en el primer intento
- Agent Skills representa un avance importante, al modularizar instrucciones y convenciones y cargarlas cuando se necesitan
- Superpowers es un ejemplo de catálogo útil de skills para equipos de software
- Está surgiendo el concepto de plugin marketplaces, que facilita distribuir skills y configuraciones de contexto
- Los frameworks de spec-driven development —como GitHub Spec-Kit y OpenSpec— estructuran los flujos de trabajo de planificación, diseño e implementación
- Control por feedback
- Se observa el comportamiento del agente después de actuar para crear un loop de autocorrección
- Los feedback sensors for coding agents —compiladores, linters, type checkers y suites de pruebas, como quality gates deterministas— se integran directamente en el workflow del agente
- Si fallan, disparan una corrección automática antes de la revisión humana
- Entre los ejemplos de este Radar están cargo-mutants y herramientas de mutation testing, herramientas de fuzz testing como WuppieFuzz, y herramientas de análisis de calidad de código como CodeScene
- Además del feedback en el loop, también hay casos de reducción del architectural drift al combinar reglas estructurales deterministas con evaluación basada en LLM
[Techniques]
Adopt
1. Context engineering
- Técnica que ha evolucionado hasta convertirse en una preocupación arquitectónica central de los sistemas modernos de IA; a diferencia del prompt engineering, que se concentra en la redacción, trata la ventana de contexto como una superficie de diseño y construye intencionalmente el entorno informativo de la IA
- Cuanto más procesan los agentes tareas complejas, más el enfoque de volcar datos crudos en ventanas de contexto grandes provoca "context rot" y deterioro del razonamiento, por lo que se está pasando de prompts estáticos y monolíticos a progressive context disclosure
- Context setup reduce costos y mejora el tiempo hasta el primer token precargando instrucciones estáticas con prompt caching, mientras que Dynamic retrieval va más allá del RAG básico hacia la selección de herramientas y la carga únicamente de los servidores MCP necesarios
- Los Context graphs modelan razonamiento institucional como políticas, excepciones y precedentes como datos estructurados y consultables, y stateful compression junto con subagentes resume salidas intermedias en workflows de larga duración
- Tratar el contexto de IA como una caja de texto estática es el camino más corto hacia las alucinaciones; para construir agentes empresariales robustos, el contexto debe diseñarse como un pipeline dinámico y gestionado con precisión
2. Instrucciones compartidas curadas para equipos de software
- Considera un antipatrón que cada desarrollador redacte prompts desde cero, y propone tratar la guía de IA como un activo de ingeniería colaborativo, no un flujo de trabajo personal
- Al inicio se enfocó en mantener una biblioteca de prompts genéricos para tareas comunes, pero ahora ha evolucionado hacia un enfoque en el que las instrucciones se anclan directamente en plantillas de servicio
- Archivos de instrucciones como
CLAUDE.md,AGENTS.mdy.cursorrulesse colocan en el repositorio base para el scaffolding de nuevos servicios
- Archivos de instrucciones como
- También explora una práctica relacionada de anclar los agentes de código a aplicaciones de referencia, donde una base de código viva y compilable actúa como la única fuente de verdad
- Cuando evolucionan la arquitectura y los estándares de código, tanto la app de referencia como las instrucciones embebidas pueden actualizarse, y los nuevos repositorios heredan por defecto los flujos de trabajo y reglas más recientes para agentes
3. Métricas DORA
- Métricas definidas por el programa de investigación DORA, que incluyen lead time de cambios, frecuencia de despliegue, MTTR, tasa de fallas por cambios y una nueva quinta métrica: rework rate
- Rework rate es una métrica de estabilidad que mide la proporción del pipeline de entrega del equipo que se consume en rehacer trabajo ya completado, como bugs o defectos reportados por usuarios
- En la era del desarrollo asistido por IA, las métricas DORA son más importantes que nunca; medir la productividad por la cantidad de líneas de código generadas por IA resulta engañoso
- Sin una reducción del lead time y un aumento de la frecuencia de despliegue, generar código más rápido no se traduce en mejores resultados
- Las métricas de estabilidad, especialmente una caída en el rework rate, alertan tempranamente sobre los puntos ciegos, la deuda técnica y los riesgos del desarrollo asistido por IA sin criterio
- Más que construir dashboards complejos, mecanismos simples como check-ins durante retrospectivas son más efectivos para mejorar capacidades
4. Passkeys
- Credenciales FIDO2 lideradas por la FIDO Alliance y respaldadas por Apple, Google y Microsoft, que usan criptografía asimétrica de clave pública para reemplazar contraseñas
- La clave privada se almacena en el enclave seguro basado en hardware del dispositivo del usuario, protegida con biometría o PIN y sin salir al exterior; cada credencial queda vinculada al origen del dominio de la relying party, lo que le da resistencia estructural al phishing
- El phishing causa más de un tercio de todas las brechas de datos; el FIDO Alliance Passkey Index 2025 reporta más de 15 mil millones de cuentas elegibles en todo el mundo, Google mejoró en 30% la tasa de éxito de inicio de sesión entre 800 millones de usuarios, y Amazon verificó inicios de sesión 6 veces más rápido que con métodos tradicionales
- NIST SP 800-63-4 (julio de 2025) reclasifica las synced passkeys como compatibles con AAL2, y reguladores de EAU, India y agencias federales de EE. UU. exigen autenticación resistente al phishing para sistemas financieros y gubernamentales
- Con FIDO Credential Exchange Protocol se logra portabilidad segura entre gestores de credenciales, y proveedores de identidad importantes como Auth0, Okta y Azure AD lo soportan como funcionalidad de primera clase, simplificando la implementación de meses de trabajo a un proyecto de 2 sprints
- Hay que diseñar con cuidado la recuperación de cuentas y evitar rutas de respaldo vulnerables al phishing, como SMS OTP
- Para escenarios AAL3 (como acceso privilegiado), siguen siendo necesarias credenciales vinculadas al dispositivo mediante llaves de seguridad de hardware
5. Salida estructurada de LLMs
- Práctica de restringir al modelo para que responda en un formato predefinido como JSON o una clase de un lenguaje de programación específico
- Permite entregar resultados confiables en producción y se considera el valor por defecto razonable para aplicaciones que consumen respuestas de LLM de forma programática
- Todos los principales proveedores de modelos ofrecen modos nativos de salida estructurada, aunque el subconjunto de JSON Schema que soportan varía y las APIs evolucionan rápidamente
- La biblioteca Instructor o el framework Pydantic AI ofrecen abstracciones confiables con validación y reintentos automáticos; para generar restricciones con modelos self-hosted se recomienda Outlines
6. Arquitectura zero trust
- Con la entrada a la era de los agentes, es el valor por defecto razonable para enfrentar riesgos de seguridad al dar autonomía a sistemas impredecibles
- "Nunca confíes, siempre verifica"; recomienda tratar la seguridad basada en identidad y el principio de acceso de mínimo privilegio como la base de cualquier despliegue de agentes
- Aplicar estándares como SPIFFE a los agentes ayuda a construir una base sólida de identidad y habilita autenticación granular en entornos dinámicos
- El monitoreo y la verificación continuos del comportamiento de los agentes son claves para gestionar amenazas de forma proactiva
- Además de los despliegues de agentes, prácticas como la suplantación OIDC de GCP pueden adoptarse en pipelines de CI/CD y otros contextos, reemplazando claves estáticas de largo plazo por tokens de corta duración emitidos tras verificar la identidad
- Recomienda tratar los principios de ZTA como un valor por defecto no negociable, sin importar el sistema de construcción
Trial
7. Agent Skills
- A medida que los agentes de IA evolucionan de interfaces de chat simples a ejecución autónoma de tareas, la ingeniería de contexto se vuelve un desafío central; Agent Skills empaqueta recursos relevantes como instrucciones, scripts ejecutables y documentación para ofrecer un estándar abierto de modularización del contexto
- El agente carga las skills solo cuando las necesita según su descripción, lo que reduce el consumo de tokens y mitiga el agotamiento de la ventana de contexto y el problema de agent instruction bloat
- Se está adoptando rápidamente no solo en agentes de código, sino también en asistentes personales como OpenClaw; muchos casos de uso pueden resolverse eficazmente haciendo que el agente apunte a un CLI local o a scripts, una de las razones por las que los equipos se están volviendo más cautelosos con el uso predeterminado de MCP
- Los plugin marketplaces están surgiendo como forma de versionar y compartir skills, y hay muchas exploraciones en marcha sobre cómo evaluar su efectividad
- Reutilizar skills de terceros sin revisión puede provocar graves riesgos de seguridad en la cadena de suministro, por lo que se requiere precaución
8. Pruebas de componentes basadas en navegador
- Aunque antes no se recomendaban herramientas basadas en navegador (por ser difíciles de configurar, lentas y flaky), hoy han mejorado mucho y ahora son un enfoque viable y preferido con herramientas como Playwright
- Al ejecutar pruebas en un navegador real, el código corre en un entorno que coincide con donde realmente se ejecuta, lo que ofrece mayor consistencia
- La penalización de rendimiento se ha reducido a un nivel aceptable, y la flakiness también ha bajado, por lo que aporta más valor que entornos emulados como jsdom
9. Sensores de retroalimentación para agentes de código
- Para hacer más efectivos a los agentes de código y reducir la carga de los revisores humanos, se necesitan bucles de retroalimentación a los que el propio agente pueda acceder directamente, actuando como una forma de backpressure
- Durante mucho tiempo los desarrolladores han dependido de compuertas de calidad deterministas como compiladores, linters, pruebas estructurales y suites de pruebas; conectarlas a flujos de trabajo agentic permite activar autocorrecciones oportunas ante fallas
- Puede implementarse de distintas maneras, como introducir un agente revisor encargado de ejecutar verificaciones y detonar correcciones, o exponer verificaciones como un proceso complementario que corre en paralelo
- Gracias a los agentes de código, el costo de construir linters personalizados y pruebas estructurales ha bajado, fortaleciendo los bucles de retroalimentación
- Siempre que sea posible, ejecutarlas durante la sesión de código y no después del commit, para que se reporten resultados limpios antes de confirmar cambios
10. Mapping code smells to refactoring techniques
- Técnica para indicar al agente que maneje un problema específico con un enfoque definido
- La primera capa orienta al agente con referencias generales como Refactoring para casos comunes; para problemas más especializados, usa Agent Skills, comandos con slash y
AGENTS.mdpara mapear smells específicos a técnicas concretas - Al integrarse con herramientas de linting, genera retroalimentación determinística que activa el enfoque de refactorización adecuado cada vez que se detecta un smell
- Especialmente efectivo en stacks legacy como .NET Framework 2.0 o Java 8, útil cuando faltan datos de entrenamiento generales
- Sin instrucciones orientadas al objetivo, los agentes tienden a optar por patrones generales en lugar de requisitos específicos
11. Mutation testing
- La señal más honesta para evaluar la capacidad real de detectar defectos de una suite de pruebas; a diferencia de la cobertura de código tradicional, que solo rastrea la ejecución de líneas, introduce bugs intencionales (mutations) en el código fuente para comprobar si las pruebas fallan cuando se rompe el comportamiento
- Si una mutación no se detecta, revela una brecha en la validación y no solo falta de cobertura; esto es especialmente importante en la era del desarrollo asistido por IA, donde una cobertura alta puede ocultar pruebas lógicamente vacías o código generado que no se valida de forma significativa
- A medida que se generalizan los casos de prueba generados por IA, sirve como una capa de refuerzo para detectar pruebas "perpetuamente verdes" que siguen pasando sin importar cambios en la lógica debido a assertions faltantes o mocks aislados
- Con herramientas como Stryker, Pitest y cargo-mutants, el foco se desplaza a cuánto código realmente está siendo validado dentro de la lógica central del dominio
12. Progressive context disclosure
- Técnica dentro de la práctica de Context engineering, que en lugar de abrumar preventivamente al agente con instrucciones le da una etapa ligera de descubrimiento para que elija lo necesario según el prompt del usuario
- Adecuada para escenarios de RAG, donde el agente primero identifica el dominio relevante a partir de la consulta del usuario y luego recupera instrucciones y datos específicos
- Es el mismo enfoque con el que muchas herramientas de codificación agentic manejan Agent Skills: en vez de un único conjunto monolítico de instrucciones lleno de condiciones y advertencias, primero determinan qué skill aplica a la tarea y luego cargan instrucciones detalladas
- Al construir sistemas agentic, es fácil caer en la trampa de inflar las instrucciones con interminables reglas de "DO" y "DO NOT", lo que al final degrada el rendimiento
- Mantiene la ventana de contexto concisa y ayuda a evitar el context rot
13. Sandboxed execution for coding agents
- Práctica de ejecutar agentes en entornos aislados con acceso limitado al sistema de archivos, conexiones de red controladas y uso restringido de recursos
- A medida que los agentes de código ganan autonomía para ejecutar código, hacer builds e interactuar con el sistema de archivos, el acceso sin límites genera riesgos reales, desde daños accidentales hasta exposición de credenciales, por lo que es un valor predeterminado razonable y no una mejora opcional
- El espectro de opciones de sandboxing es amplio: muchos agentes de código ya ofrecen modos sandbox integrados, y Dev Containers proporcionan un aislamiento familiar basado en contenedores
- Shuru arranca microVMs efímeras que se reinician en cada ejecución, mientras que Sprites ofrece entornos con estado y soporte de checkpoint/restore
- Para aislamiento nativo en Linux, Bubblewrap ofrece sandboxing ligero basado en namespaces; en macOS,
sandbox-execbrinda una protección similar - Más allá del aislamiento base, también hay que considerar todo lo necesario para builds y pruebas, autenticación segura y simple con servicios como GitHub y proveedores de modelos, port forwarding y suficiente CPU y memoria
- Decidir si el sandbox debe ser efímero por defecto o persistente para recuperación de sesiones es una decisión de diseño que depende de las prioridades de seguridad, costo y continuidad del flujo de trabajo
14. Semantic layer
- Técnica de arquitectura de datos que introduce una capa compartida de lógica de negocio entre los almacenes de datos y las aplicaciones consumidoras como herramientas de BI, agentes de IA y APIs
- Centraliza definiciones de métricas, joins, reglas de acceso y términos de negocio para que los consumidores compartan las mismas definiciones; aunque es un concepto anterior al stack moderno de datos, ha resurgido el interés gracias a enfoques code-first como los metrics stores
- Sin una capa semántica, la lógica de negocio termina dispersa entre tablas ad hoc del warehouse, dashboards y aplicaciones downstream, y las definiciones de métricas divergen silenciosamente
- El problema se agrava con la IA agentic: cuando un LLM hace una traducción ingenua de texto a SQL, los resultados erróneos son frecuentes, especialmente cuando reglas de negocio como el reconocimiento de ingresos están fuera del esquema
- Las plataformas cloud ya están integrando directamente una capa semántica: Snowflake la llama Semantic Views, Databricks la llama Metric Views, y herramientas independientes como dbt MetricFlow y Cube ofrecen una capa portable entre sistemas
- El reciente lanzamiento de Open Semantic Interchange (OSI) v1.0, con soporte de múltiples proveedores, señala una expansión de la estandarización y la interoperabilidad entre plataformas de analítica, IA y BI
- El principal costo es la inversión inicial en modelado de datos; se recomienda comenzar con un solo dominio en vez de desplegarlo en toda la empresa
15. Server-driven UI
- Separa el renderizado en contenedores genéricos y hace que el servidor entregue la estructura y los datos, permitiendo a los equipos móviles evitar largos ciclos de revisión en las app stores en cada iteración
- Mediante formatos basados en JSON, habilita actualizaciones en tiempo real y mejora significativamente el tiempo de salida, mientras patrones ya consolidados en empresas como Airbnb y Lyft reducen la complejidad
- Antes se advertía que podía convertirse en un "desastre horrible y excesivamente configurable" creado por frameworks propietarios, pero hoy es más fácil justificar la inversión en aplicaciones a gran escala
- Sigue requiriendo un caso de negocio sólido y una ingeniería disciplinada; es importante evitar crear un "protocolo dios" difícil de mantener
- Se recomienda aplicarlo a áreas altamente dinámicas y no como reemplazo de todo el desarrollo de UI de la aplicación
Assess
16. Agentic reinforcement learning environments
- Campo de entrenamiento para agentes basados en LLM que combina contexto, herramientas y retroalimentación para completar tareas de múltiples pasos
- Este enfoque reconfigura el postentrenamiento de LLM desde una simple salida de un solo turno hacia comportamientos agentic como razonamiento y uso de herramientas, asignando recompensas o penalizaciones a cada acción
- Técnicas como RLVR garantizan que las recompensas sean verificables y resistentes a la gamificación
- Actualmente, los laboratorios de investigación en IA lideran el desarrollo, especialmente para agentes de codificación y de uso de computadoras; Composer de Cursor es un ejemplo fuera de los laboratorios frontier, con un modelo especializado de codificación entrenado dentro de un entorno de producto
- La aparición de frameworks y plataformas como Environments Hub de Prime Intellect, Agent Lightning y NVIDIA NeMo Gym está simplificando el proceso
17. Reducción del architecture drift con LLM
- Con el aumento en el uso de agentes de codificación con IA, se acelera el drift respecto al codebase y al diseño de arquitectura previstos; si se deja sin atender, agentes y humanos replican patrones existentes (incluidos los degradados), lo que compone el drift y forma un ciclo de retroalimentación donde el mal código produce código todavía peor
- Se combinan herramientas de análisis determinístico (Spectral, ArchUnit, Spring Modulith) con evaluación basada en LLM para detectar tanto violaciones estructurales como semánticas
- Se aplica a la definición de zonas de arquitectura que hacen cumplir lineamientos de calidad de API en todos los servicios y guían mejoras en lo generado por agentes
- Como en el linting tradicional, un escaneo inicial suele sacar a la superficie muchas violaciones, por lo que se necesita clasificación y priorización; los LLM ayudan en ello
- Mantener las correcciones generadas por agentes pequeñas y enfocadas facilita la revisión, y es indispensable un bucle adicional de verificación para confirmar que los cambios mejoran el sistema sin introducir regresiones
- Extiende la idea de feedback sensors for coding agents a etapas más tardías del ciclo de entrega; en palabras del equipo de OpenAI, la reducción del drift funciona como una forma de "recolección de basura"
18. Code intelligence as agentic tooling
- Los LLM procesan código como un flujo de tokens y no tienen comprensión nativa de grafos de llamadas, jerarquías de tipos ni relaciones entre símbolos
- Para navegar código, hoy la mayoría de los agentes de codificación usan por defecto búsqueda basada en texto (el denominador común más potente entre todos los lenguajes); para un refactor que en un IDE sería un atajo rápido, el agente necesita generar varios diff de texto
- El agente consume una cantidad considerable de tokens reconstruyendo información que ya existe en el AST
- Dar a los agentes acceso a herramientas conscientes del AST, por ejemplo mediante el Language Server Protocol (LSP), permite realizar como acciones de primera clase operaciones como “encontrar todas las referencias a este símbolo” o “renombrar este tipo en todas partes”
- Herramientas de codemod como OpenRewrite operan sobre una representación de código más rica, Lossless Semantic Tree (LST), y delegar tareas adecuadas a herramientas determinísticas reduce ediciones alucinadas y el consumo de tokens
- Claude Code, OpenCode y otros se integran con servidores LSP ejecutados localmente; JetBrains ofrece un servidor MCP que expone la navegación y refactorización del IDE a agentes externos, y el servidor MCP de Serena ofrece búsqueda y edición semántica de código
19. Context graph
- Técnica de representación del conocimiento que modela decisiones, políticas, excepciones, precedentes, evidencia y resultados como nodos conectados de primera clase en un grafo, estructurado para consumo por IA
- Si los sistemas de registro capturan qué ocurrió, el context graph captura el por qué: convierte el razonamiento institucional enterrado en hilos de Slack, cadenas de aprobación y en la cabeza de las personas en una estructura legible por máquina y consultable
- Es esencial para la efectividad de los agentes; por ejemplo, si un agente que procesa una excepción de descuento no puede determinar si se trata de una política estándar o de una anulación puntual, razonará mal; un context graph permite recorrer el rastro de decisión, aplicar precedentes relevantes e inferir cadenas causales de múltiples saltos al exponer directamente la procedencia
- A diferencia de GraphRAG, que se construye a partir de un corpus documental estático, un context graph mantiene validez temporal en cada arista; los hechos reemplazados no se sobrescriben, sino que se invalidan
- Vale la pena evaluarlo en aplicaciones agentic que requieren memoria persistente entre sesiones o razonamiento de decisiones trazable
20. Feedback flywheel
- Los equipos que trabajan con agentes de codificación están adoptando cada vez más flujos de trabajo de spec-driven development; sin importar si usan frameworks ligeros u opinionated, siguen el flujo spec → plan → implement
- El Feedback flywheel amplía este flujo con un paso adicional enfocado en la mejora continua del harness del coding agent
- Similar a una retrospectiva, el equipo captura éxitos y fallas durante las sesiones con agentes de codificación y los usa para mejorar la predictibilidad de sesiones futuras, con efecto compuesto a lo largo del tiempo
- Es una técnica meta en la que el human on the loop se enfoca en mejorar controles feedforward como curated shared instructions y feedback sensors for coding agents
- El siguiente nivel es el agentic feedback flywheel, donde el agente decide las mejoras necesarias con base en la retroalimentación acumulada; por ahora, todavía se necesita human-in-the-loop para evitar context rot y retroalimentación ruidosa que pueda desviar a los agentes
- A medida que el entorno evoluciona, sirve para evaluar el harness completo del coding agent, especialmente al adoptar nuevos modelos, ya que lo que funcionó con uno puede volverse innecesario con el siguiente
21. HTML Tools
- las herramientas agentic facilitan crear utilidades pequeñas y específicas para cada tarea, por lo que el reto principal es cómo desplegarlas y compartirlas
- HTML Tools es un enfoque para empaquetar scripts o utilidades compartibles en un solo archivo HTML
- se ejecutan directamente en el navegador, pueden alojarse en cualquier parte o simplemente compartirse como archivo, evitando la sobrecarga de distribuir herramientas CLI que requieren compartir binarios o usar gestores de paquetes
- es más simple que construir una aplicación web completa con hosting dedicado
- desde la perspectiva de seguridad, ejecutar archivos no confiables sigue implicando riesgos, aunque el sandbox del navegador y la posibilidad de inspeccionar el código fuente ofrecen cierta mitigación
- para utilidades ligeras, un solo archivo HTML ofrece una forma muy accesible y portable
22. Evaluación de LLM usando entropía semántica
- la confabulación (confabulation), una forma de alucinación en aplicaciones de preguntas y respuestas con LLM, es difícil de resolver con métodos de evaluación tradicionales
- un enfoque usa entropía de la información para medir la incertidumbre analizando la variación léxica de las salidas ante una entrada dada
- la evaluación de LLM con semantic entropy amplía esta idea al enfocarse en las diferencias de significado más que en variaciones superficiales
- al evaluar significado en lugar de secuencias de palabras, puede aplicarse a distintos datasets y tareas sin conocimiento previo y generaliza bien a tareas desconocidas
- ayuda a identificar prompts que probablemente induzcan confabulación y a recomendar cautela cuando sea necesario
- la entropía ingenua a menudo no detecta la confabulación, y semantic entropy es más efectiva para filtrar afirmaciones falsas
23. Medición de la calidad de la colaboración con agentes de código
- al usar agentes de código se observan mejoras reales de productividad, pero la mayoría de las métricas de evaluación todavía se enfocan demasiado en coding throughput, como el tiempo hasta la primera salida, las líneas de código generadas o las tareas completadas
- para evitar que los equipos caigan en la trampa de la velocidad (speed trap), el foco debe cambiar a qué tan eficazmente colaboran humanos y agentes
- métricas como first-pass acceptance rate, ciclos de iteración por tarea, retrabajo después del merge, builds fallidos y carga de revisión ofrecen señales más significativas que la velocidad por sí sola
- los equipos que usan Claude Code pueden generar con el comando
/insightsreportes que reflejan éxitos y desafíos de las sesiones del agente, y también experimentan con el seguimiento del first-pass acceptance mediante un comando/reviewpersonalizado - ciclos de retroalimentación cortos y una reducción de builds fallidos son indicadores de interacciones más efectivas con el agente
- a nivel de equipo, y no individual, dar seguimiento a la calidad de la colaboración junto con métricas DORA permite construir una visión más completa de la adopción de agentes de código
24. MITRE ATLAS
- los sistemas agentic y las herramientas de código introducen nuevas arquitecturas y amenazas de seguridad emergentes
- MITRE ATLAS es una base de conocimiento de tácticas y técnicas adversarias dirigidas a sistemas de IA y ML
- está diseñado como un complemento más enfocado del marco más amplio MITRE ATT&CK y ofrece una clasificación de amenazas para pipelines de ML, aplicaciones con LLM y sistemas agentic
- sin un vocabulario compartido, los riesgos de seguridad suelen pasarse por alto o reducirse a un ejercicio de checklist, y ATLAS ayuda a evitarlo
- se basa en el estudio de incidentes reales y patrones técnicos, y los equipos pueden usar el marco para apoyar el modelado de amenazas
- es un complemento natural para marcos de control como SAIF, y ayuda a describir el panorama cambiante de amenazas en sistemas de IA
25. Ralph loop
- técnica de agentes autónomos de código, también conocida como Wiggum loop, en la que se alimenta al agente con un prompt fijo en un bucle infinito
- cada iteración comienza con una nueva ventana de contexto: el agente elige una tarea a partir de la especificación o el plan, la implementa y reinicia el bucle con un nuevo contexto
- la idea central es la simplicidad: en lugar de coordinar teams of coding agents o coding agent swarms, un solo agente trabaja de forma autónoma sobre la especificación, con la expectativa de que el código converja hacia ella a través de iteraciones repetidas
- usar una nueva ventana de contexto en cada iteración evita la degradación de calidad causada por el contexto acumulado, a costa de un gasto considerable de tokens
- herramientas como goose implementan este patrón y, en algunos casos, lo amplían con revisión cruzada entre modelos en distintas iteraciones
26. Ingeniería inversa para sistemas de diseño
- las organizaciones a menudo lidian con interfaces heredadas fragmentadas donde los "estándares de diseño" solo existen como una colección dispersa de páginas web, materiales de marketing y capturas de pantalla
- históricamente, auditar estos artefactos para sentar una base unificada ha sido un proceso manual y lento
- con LLM multimodales es posible automatizar esta extracción y hacer ingeniería inversa de un sistema de diseño a partir de activos visuales existentes
- al alimentar sitios web, capturas de pantalla y fragmentos de UI a herramientas especializadas o modelos de IA con visión, los equipos pueden extraer tokens de diseño centrales como paletas de color, escalas tipográficas y reglas de espaciado, e identificar patrones de componentes repetidos
- la IA sintetiza estos datos visuales no estructurados en una representación estructurada y semántica del sistema de diseño, y al integrarse con herramientas como Figma, acelera en gran medida la creación de bibliotecas de componentes formalizadas y mantenibles
- además de reducir el esfuerzo de auditoría visual, también funciona como un paso clave para construir sistemas de diseño "AI-ready"
- para empresas cargadas con deuda de diseño brownfield, usar IA para establecer un sistema de diseño base es un punto de partida práctico antes de un rediseño completo o una estandarización del frontend
27. Aislamiento contextual basado en roles en RAG
- técnica arquitectónica que mueve el control de acceso de la capa de aplicación a la capa de recuperación
- en el momento de indexación, se agregan etiquetas de permisos basadas en roles a cada fragmento de datos; en el momento de consulta, el motor de recuperación restringe el espacio de búsqueda según la identidad autenticada del usuario y la hace coincidir con los metadatos de cada fragmento
- como el modelo de IA queda filtrado en la etapa de recuperación, se garantiza que no pueda acceder a contexto no autorizado, lo que proporciona una base de zero trust para bases de conocimiento internas
- muchas bases de datos vectoriales, como Milvus o servicios basados en Amazon S3, admiten filtrado de metadatos de alto rendimiento, por lo que su adopción es práctica incluso en bases de conocimiento grandes
28. Skills como documentación de onboarding ejecutable
- Agent Skills, curated shared instructions y otras técnicas de context engineering aparecen a lo largo de este Radar; el caso de uso que queremos destacar en el contexto de programación es el de las skills como documentación de onboarding ejecutable
- Se puede aplicar en varios niveles; dentro del codebase, una skill
/_setuppuede cumplir el rol de un scriptgo.shy de un archivo README, combinando scripts con la semántica de ejecución de LLM para pasos que no se pueden automatizar con scripts - Más allá de lo que un script puede hacer, permite considerar dinámicamente el estado actual del codebase y del entorno
- Los creadores de bibliotecas y APIs pueden ofrecer skills a los consumidores como parte de la documentación, a través de registros de skills internos o externos (como Tessl)
- Es útil para el onboarding a plataformas internas del equipo, para bajar la barrera de uso de tecnologías clave o reducir la fricción al adoptar un sistema de diseño; hasta ahora se dependía mucho de servidores MCP, pero ahora se está migrando a skills
- Como ocurre con otras formas de documentación, el reto de mantenerla actualizada no desaparece; sin embargo, la documentación ejecutable ayuda a detectar mucho antes cuándo algo quedó desactualizado, a diferencia de la documentación estática
29. Modelos de lenguaje pequeños
- Los SLM siguen mejorando y empiezan a ofrecer mejor inteligencia por dólar que los LLM en casos de uso específicos
- Los equipos evalúan SLM para reducir costos de inferencia y acelerar flujos de trabajo agentic; los avances recientes muestran ganancias constantes en densidad de inteligencia, lo que los vuelve competitivos frente a LLM anteriores en tareas como resumir y programación básica
- Refleja un cambio de “más grande es mejor” hacia datos de mayor calidad, destilación de modelos y cuantización
- Modelos como Phi-4-mini y Ministral 3 3B demuestran que los modelos destilados conservan muchas capacidades de modelos maestros más grandes
- Incluso modelos ultrapequeños como Qwen3-0.6B y Gemma-3-270M ahora pueden ejecutarse en dispositivos edge
- En casos de uso agentic donde antes bastaba un LLM antiguo, se puede considerar un SLM como alternativa de bajo costo, baja latencia y menores requisitos de recursos
30. Equipo de agentes de programación
- En un Radar anterior se describió como una técnica en la que el desarrollador coordina un pequeño grupo de agentes especializados por rol para colaborar en tareas de programación
- Desde entonces, la barrera de adopción ha bajado, el soporte para subagentes se ha convertido en una capacidad básica en las herramientas existentes de agentes de programación, incluido agent teams, que ofrece coordinación integrada en Claude Code
- En un equipo de agentes, el orquestador principal normalmente coordina la secuenciación y paralelización de tareas, y los agentes deben poder comunicarse no solo con el orquestador sino también entre sí
- Casos de uso comunes son un equipo de revisores o un grupo de implementadores a cargo de distintas partes de una aplicación, como backend y frontend
- Aunque parte de la industria usa “agent teams” y "agent swarms" como si fueran intercambiables (Claude Code describe agent teams como “our implementation of swarms”), vale la pena mantener la distinción
- Que un equipo pequeño e intencional de agentes colabore en una tarea es bastante distinto de un swarm grande en términos de barrera de entrada, complejidad y casos de uso
31. Temporal fakes
- Amplía la idea de simulación de sistemas del mundo real, usada desde hace mucho tiempo en plataformas industriales y de IoT
- Los agentes de programación con IA reducen el esfuerzo de construir simuladores, lo que permite crear mucho más fácilmente réplicas de alta fidelidad de dependencias externas
- A diferencia de los mocks tradicionales, que devuelven pares estáticos de solicitud-respuesta, los temporal fakes mantienen una máquina de estados interna y modelan la evolución temporal del sistema real
- Un equipo usó esta técnica para desarrollar una pila de observabilidad para un gran centro de datos de GPU, evitando tener que adquirir hardware físico
- Probar reglas de alerta, dashboards y detección de anomalías sobre el sistema real es poco práctico (por ejemplo, sobrecalentar intencionalmente una GPU para validar una alerta de thermal throttle)
- En su lugar, construyeron fakes en Go para dominios de hardware como NVIDIA DCGM y el fabric de InfiniBand
- Con los simuladores activaban escenarios de falla como thermal throttling, tormentas de errores XID, link flap y fallas de PSU, con intensidad y duración configurables, orquestados con una pila basada en process-compose
- Un registro central define escenarios de falla válidos, y un servidor MCP expone la inyección de escenarios a los agentes
- Los agentes pueden disparar fallas, como inyectar thermal throttle en una GPU específica, y verificar que las métricas cambien como se espera, que se activen alertas y que los dashboards se actualicen
- Esta fidelidad temporal le da valor a la técnica para probar sistemas complejos donde las fallas se encadenan, aunque existe el riesgo de generar una falsa confianza en pipelines automatizados si los fakes no reflejan fielmente el comportamiento del mundo real
32. Análisis de flujo tóxico para IA
- Las capacidades de los agentes están avanzando más rápido que las prácticas de seguridad, y con la aparición de agentes hambrientos de permisos como OpenClaw, cada vez más equipos despliegan agentes en entornos expuestos a la lethal trifecta: acceso a datos privados, exposición a contenido no confiable y capacidad de comunicación externa
- A medida que aumentan las capacidades, también crece la superficie de ataque, exponiendo a los sistemas a riesgos como prompt injection y tool poisoning
- El toxic flow analysis sigue reconociéndose como una técnica clave para investigar sistemas agentic e identificar rutas de datos inseguras y posibles vectores de ataque
- El riesgo ya no se limita a las integraciones con MCP; también se observan patrones similares en Agent Skills: un actor malicioso puede empaquetar una skill aparentemente útil con instrucciones ocultas para filtrar datos sensibles
- Se recomienda encarecidamente que los equipos que trabajan con agentes realicen toxic flow analysis y usen herramientas como Agent Scan para identificar rutas de datos inseguras antes de que sean explotadas
33. Modelos de lenguaje y visión para el análisis de documentos de extremo a extremo
- El análisis de documentos depende de pipelines de múltiples etapas que combinan detección de diseño, OCR tradicional y scripts de posprocesamiento, y suele tener dificultades con diseños complejos y fórmulas matemáticas
- El análisis de documentos de extremo a extremo con VLM trata las imágenes de documentos como una modalidad única de entrada, lo que simplifica la arquitectura y preserva el orden natural de lectura y el contenido estructurado
- Modelos open source entrenados específicamente para este propósito, como olmOCR-2, DeepSeek-OCR (3B) eficiente en tokens, y PaddleOCR-VL ultracompacto, producen resultados muy eficientes
- Aunque los VLM pueden reemplazar pipelines de múltiples etapas y reducir la complejidad arquitectónica, tienden a alucinar por su naturaleza generativa
- Los casos de uso con baja tolerancia al error todavía requieren enfoques híbridos u OCR determinista
- Los equipos que procesan grandes colecciones de documentos deben evaluar estos enfoques integrados para determinar si pueden mantener la precisión y al mismo tiempo reducir la sobrecarga de mantenimiento a largo plazo
Caution
34. Hinchazón de instrucciones para agentes
- Archivos de contexto como
AGENTS.mdyCLAUDE.mdacumulan con el tiempo resúmenes de la base de código, explicaciones de arquitectura, convenciones y reglas - Cada adición puede ser útil de forma aislada, pero a menudo provoca hinchazón de instrucciones para agentes, haciendo que las instrucciones sean largas y a veces entren en conflicto entre sí
- Los modelos tienden a prestar menos atención al contenido enterrado en la mitad de contextos largos, y la guía que queda muy adentro de historiales extensos de conversación puede pasarse por alto
- A medida que aumentan las instrucciones, también crece la probabilidad de que se ignoren reglas importantes
- Muchos equipos están usando IA para generar archivos
AGENTS.md, pero una investigación sugiere que las versiones escritas a mano suelen ser más efectivas que las generadas por LLM - Al usar herramientas agentic, hay que ser intencional y selectivo con las instrucciones, agregándolas según sea necesario y refinándolas continuamente hasta mantener un conjunto mínimo y coherente
- Considera usar progressive context disclosure para mostrar solo las instrucciones y capacidades necesarias para la tarea actual
35. Shadow IT acelerado por IA
- La IA sigue reduciendo la barrera para que personas no programadoras construyan sistemas complejos, permitiendo experimentación y validación temprana de requisitos, pero también introduce el riesgo de shadow IT acelerado por IA
- Además de las plataformas de flujos de trabajo no-code que integran APIs de IA como OpenAI o Anthropic, también se están ofreciendo más herramientas agentic a personas no programadoras, como Claude Cowork
- Cuando hojas de cálculo que operaban silenciosamente el negocio evolucionan hacia flujos de trabajo agentic personalizados sin gobernanza, se introducen riesgos de seguridad significativos y la proliferación de soluciones competidoras para problemas similares
- Distinguir entre flujos de trabajo puntuales y procesos críticos que requieren implementaciones duraderas y listas para producción es clave para equilibrar experimentación y control
- Como parte de su estrategia de adopción de IA, las organizaciones deben priorizar la gobernanza y fomentar la experimentación dentro de entornos controlados
- Un sandbox interno bien instrumentado puede dar a personas no programadoras un lugar para desplegar prototipos con seguimiento de uso
- Si se combina con un catálogo compartido de flujos de trabajo existentes, puede ayudar a los equipos a descubrir lo que ya se construyó y evitar esfuerzos duplicados
36. Deuda cognitiva de la base de código
- Es la brecha creciente entre la implementación del sistema y la comprensión compartida del equipo sobre cómo y por qué funciona
- A medida que la IA acelera el ritmo de los cambios, especialmente con múltiples contribuyentes o con enjambres de agentes de programación, los equipos pueden perder el rastro de la intención de diseño y de los acoplamientos ocultos
- Combinado con la creciente deuda técnica, esto forma un ciclo de refuerzo que hace que el sistema sea cada vez más difícil de razonar
- Una comprensión débil del sistema reduce la capacidad de los desarrolladores para guiar eficazmente a la IA, anticipar casos límite y apartar a los agentes de trampas arquitectónicas
- Si no se gestiona, puede llegar a un punto de inflexión en el que pequeños cambios detonan fallas inesperadas, las correcciones introducen regresiones y los esfuerzos de limpieza aumentan el riesgo en lugar de reducirlo
- Hay que evitar la complacencia frente al código generado por IA e introducir contramedidas explícitas, como feedback sensors for coding agents, seguimiento de la carga cognitiva del equipo y funciones de fitness arquitectónico, para seguir haciendo cumplir restricciones críticas mientras la IA acelera la producción
37. Enjambres de agentes de programación
- Si un team of coding agents es un grupo pequeño e intencional, un coding agent swarm aplica decenas o cientos de agentes a un problema, y la IA decide dinámicamente su composición y tamaño
- Proyectos como Gas Town y Ruflo (antes Claude Flow) son buenos ejemplos
- Están surgiendo patrones tempranos de implementación de swarms: separación jerárquica de roles (orquestador, supervisores y workers temporales), registros de trabajo duraderos que ayudan a los agentes a dividir y coordinar tareas (Gas Town usa beads), y mecanismos de merge para manejar conflictos en trabajo paralelo
- Dos experimentos con swarms llaman especialmente la atención: la generación de un compilador de C de Anthropic y el experimento de escalado de agentes de Cursor (generar un navegador a lo largo de una semana)
- Ambos equipos eligieron casos de uso que podían apoyarse en especificaciones detalladas ya existentes, incluyendo en el caso del compilador de C una suite de pruebas exhaustiva que ofrece retroalimentación clara y medible
- Estas condiciones no representan el desarrollo de producto típico, donde los requisitos están menos definidos y la validación es más difícil
- Aun así, estos experimentos contribuyen a patrones emergentes que hacen técnicamente viables los swarms de ejecución prolongada; siguen siendo costosos y están lejos de madurar, por lo que se recomienda cautela al adoptarlos
38. El rendimiento de codificación como medida de productividad
- Los asistentes de codificación con IA sí ofrecen mejoras reales de productividad y se están consolidando rápidamente como herramientas estándar para desarrolladores
- Sin embargo, cada vez más organizaciones miden el éxito con métricas superficiales como la cantidad de líneas de código generadas o el número de pull requests (PR)
- Cuando estas métricas de coding throughput se usan de forma aislada, pueden afectar negativamente el comportamiento del personal
- El resultado suele ser un aluvión de código mal alineado que ralentiza las revisiones, perjudica el throughput de entrega e introduce riesgos de seguridad, ya que los ingenieros abren PR llenos de salidas de IA insuficientemente revisadas, lo que incrementa el cycle time por las idas y vueltas con los revisores
- Estas métricas no logran capturar el esfuerzo residual necesario para adaptar el código generado por IA a la arquitectura, convenciones y patrones del equipo
- Existe un indicador adelantado más significativo: first-pass acceptance rate, la frecuencia con la que la salida de la IA puede usarse con retrabajo mínimo
- Medirlo permite exponer el esfuerzo oculto y hacer posibles acciones de mejora, para que los equipos aumenten de forma sostenida la aceptación refinando prompts, mejorando la documentación de priming y fortaleciendo las conversaciones de diseño
- Esto genera un círculo virtuoso en el que la salida de la IA requiere menos modificaciones, y first-pass acceptance se conecta de forma natural con las métricas DORA: una baja tasa de aceptación tiende a aumentar la tasa de fallos por cambio, mientras que los ciclos repetidos de iteración alargan el lead time de cambios
- A medida que los asistentes de IA se vuelvan omnipresentes, las organizaciones deben dejar de enfocarse solo en coding throughput y pasar a métricas que reflejen el impacto real y los resultados de entrega
39. Ignorar la durabilidad en los flujos de trabajo de agentes
- Un antipatrón observado en varios equipos que funciona en desarrollo, pero falla en producción
- Los desafíos que enfrentan los sistemas distribuidos se vuelven aún más evidentes al construir agentes, y una mentalidad que anticipa fallos y se recupera con elegancia supera a un enfoque reactivo
- Los LLM y las llamadas a herramientas pueden fallar por interrupciones de red y caídas de servidores, lo que detiene el progreso del agente y provoca una mala experiencia de usuario y mayores costos operativos
- Algunos sistemas pueden tolerarlo cuando las tareas son de corta duración, pero los flujos de trabajo complejos que se ejecutan durante días o semanas necesitan durabilidad
- Frameworks de agentes como LangGraph y Pydantic AI están integrando ejecución durable
- Ofrecen persistencia con estado del progreso y de las llamadas a herramientas, lo que permite que el agente reanude el trabajo tras un fallo
- En los flujos de trabajo que incluyen human in the loop, la ejecución durable puede pausar el progreso mientras espera entrada
- Plataformas de durable computing como Temporal, Restate y Golem también ofrecen soporte para agentes
- La observabilidad del seguimiento de decisiones y de la ejecución de herramientas integradas facilita la depuración y mejora la comprensión de los sistemas en producción
- Conviene comenzar con soporte nativo de ejecución durable en frameworks de agentes y, a medida que los flujos de trabajo se vuelvan más importantes o complejos, aprovechar plataformas independientes
40. MCP por defecto
- Model Context Protocol (MCP) está ganando atención, y existe una tendencia entre equipos y proveedores a adoptarlo como capa de integración predeterminada entre agentes de IA y sistemas externos, aun cuando hay alternativas más simples
- Hay que tener cuidado con usar MCP por defecto: sí aporta valor real en contratos de herramientas estructurados, límites de autenticación basados en OAuth y acceso multiusuario gobernado
- Pero también introduce lo que Justin Poehnelt llama "impuesto de abstracción": cada capa de protocolo entre el agente y la API puede causar pérdida de fidelidad, y en APIs complejas esa pérdida se multiplica
- En la práctica, una CLI bien diseñada con buena salida de
--help, respuestas JSON estructuradas y manejo predecible de errores puede dar al agente todo lo que necesita sin la sobrecarga del protocolo - Como señala Simon Willison, "casi todo lo que se puede lograr con MCP puede resolverse con herramientas CLI"
- No se trata de rechazar MCP, sino de que los equipos eviten adoptarlo por defecto y primero se pregunten si su sistema realmente necesita interoperabilidad a nivel de protocolo
- MCP tiene sentido cuando sus beneficios de gobernanza e integración superan la complejidad adicional y la posible pérdida de fidelidad
41. Entornos de desarrollo transmitidos por píxeles
- Uso de escritorios remotos o estaciones de trabajo estilo VDI para desarrollo de software, donde la edición, compilación y depuración se realizan a través de un escritorio transmitido, en lugar de en la máquina local o en un entorno remoto centrado en el código
- Las organizaciones siguen adoptándolos, especialmente para cumplir objetivos de seguridad, estandarización e incorporación en equipos offshore y programas cloud de lift and shift
- Sin embargo, en la práctica los trade-offs suelen ser pobres: la latencia, el retraso en la entrada y la respuesta inconsistente de la pantalla generan una fricción cognitiva constante, reducen la velocidad de entrega y vuelven más agotadoras las tareas cotidianas de desarrollo
- A diferencia de entornos de desarrollo en la nube, Google Cloud Workstations, Coder y VS Code Remote Development, que acercan la computación al código sin transmitir todo el escritorio
- Las configuraciones pixel-streamed priorizan el control centralizado por encima del flujo de trabajo del desarrollador y a menudo se imponen sin suficiente participación de los ingenieros que las usan
- A menos que fuertes requisitos de seguridad o regulatorios superen claramente el costo en productividad, no se recomiendan los entornos de desarrollo transmitidos por píxeles como opción predeterminada para la entrega de software
[Plataformas]
Adopt
— Ninguno
Trial
42. Protocolo AG-UI
- Un protocolo abierto y una biblioteca diseñados para estandarizar la comunicación entre interfaces de usuario ricas y agentes de IA de backend
- Históricamente, construir agentic UI requería trabajo de plomería a medida para colaboración bidireccional con estado; AG-UI lo resuelve con una arquitectura consistente basada en eventos que soporta transportes como server-sent events (SSE) y WebSockets
- Soporta streaming de pasos de razonamiento, sincronización de estado y renderizado dinámico de componentes de UI
- Sin embargo, el panorama arquitectónico de interfaces para agentes está cambiando rápidamente, y AG-UI se posiciona deliberadamente fuera de MCP para actuar como capa de interfaz entre el frontend y el backend del agente
- Está surgiendo otro enfoque en nuevas aplicaciones basadas en MCP que empaquetan HTML y widgets de UI directamente dentro del servidor MCP o de las skills
- A medida que los componentes de UI pueden incrustarse y entregarse junto con las herramientas —un patrón relacionado con estándares adyacentes como MCP-UI—, se cuestiona la necesidad de una capa separada de protocolo de UI como AG-UI
- Sigue siendo una opción sólida para separar la UX del frontend de la orquestación del backend, pero es necesario evaluar su papel considerando la tendencia dentro del ecosistema MCP a integrar la lógica de herramientas y la UI
43. Apache APISIX
- Gateway open source, de alto rendimiento y cloud-native que resuelve las limitaciones de las soluciones heredadas basadas en Nginx
- Construido sobre LuaJIT de Nginx y OpenResty, usa etcd como almacén de configuración, eliminando la latencia causada por los reloads, por lo que es adecuado para microservicios dinámicos y arquitecturas serverless
- Su principal fortaleza es una arquitectura totalmente dinámica y extensible mediante plugins, con un ecosistema de plugins multilenguaje que incluye API y WASM para personalizar gestión de tráfico, seguridad y observabilidad
- Con soporte para Kubernetes Gateway API, Apache APISIX puede usarse como gateway de Kubernetes, y es un fuerte candidato para reemplazar controladores ingress heredados de Nginx
44. AWS Bedrock AgentCore
- Plataforma agentic para construir, ejecutar y operar agentes de forma segura y a gran escala sin la sobrecarga de administrar infraestructura, similar a GCP Vertex AI Agent Builder y Azure AI Foundry Agent Service
- Aunque es fácil adoptar la plataforma como una caja negra monolítica, una arquitectura más granular y desacoplada conduce a mayor éxito: usar el runtime de AgentCore para preocupaciones de producción como aislamiento de sesiones, seguridad y observabilidad, mientras la lógica de orquestación se mantiene en frameworks externos como LangGraph
- Esta separación de responsabilidades permite aprovechar las ventajas de la infraestructura gestionada mientras se conserva flexibilidad para adaptarse a la evolución del entorno LLM
- Con un enfoque prioritario en el runtime, las organizaciones pueden llevar gradualmente las cargas agentic a producción sin ceder el control de la lógica crítica a una capa de orquestación específica de un proveedor
45. Graphiti
- Motor open source de grafos de conocimiento temporales de Zep que demuestra viabilidad en producción para resolver el problema de memoria de los LLM
- Mientras que los almacenes vectoriales planos en pipelines de RAG no logran rastrear cambios temporales en los hechos, Graphiti recopila los datos como episodios separados y mantiene ventanas de validez bitemporales en los bordes del grafo; los hechos antiguos se invalidan en lugar de sobrescribirse
- A diferencia de GraphRAG orientado a lotes, actualiza el grafo de forma incremental y ofrece búsqueda en subsegundos sin llamadas a LLM en tiempo de consulta mediante una búsqueda híbrida que combina búsqueda semántica, BM25 y recorrido de grafos
- Dos factores están impulsando su adopción: benchmarks revisados por pares que reportan una mejora de precisión de 18.5% y 90% menos latencia, y el lanzamiento de un servidor MCP de primera clase que permite a agentes compatibles con Model Context Protocol incorporar memoria temporal persistente con un esfuerzo mínimo de integración
- Una fuerte adopción por parte de la comunidad es otra señal de preparación para producción
- Neo4j es el backend principal, y FalkorDB es una alternativa más ligera
- Hay que considerar el costo de extracción con LLM por escritura y la necesidad de fijar dependencias debido a su estado de lanzamiento previo a la versión 1.0
46. Langfuse
- Plataforma open source de ingeniería para LLM que cubre observabilidad, gestión de prompts, evaluación y gestión de datasets
- Desde la última evaluación, el proyecto ha madurado notablemente; la arquitectura v3 introdujo ClickHouse, Redis y S3 como componentes de backend, lo que mejoró la escalabilidad pero también incrementó la complejidad del self-hosting
- Tanto el SDK de Python como el de TypeScript están construidos de forma nativa sobre OpenTelemetry, por lo que encaja naturalmente en equipos que ya usan observabilidad basada en OTEL
- Nuevas capacidades como el SDK de experiment runner y el soporte de salidas estructuradas para experimentación con prompts amplían a Langfuse desde el simple tracing hacia flujos de evaluación sistemáticos
- Vale la pena considerarlo en un espacio cada vez más saturado que incluye Arize Phoenix, Helicone y LangSmith
- Los equipos que construyen principalmente sobre Pydantic AI también deberían considerar Pydantic Logfire, que adopta un enfoque más amplio como plataforma full-stack de observabilidad OTEL en lugar de un conjunto de herramientas específico para LLM
- Es una opción confiable para equipos que necesitan tracing, evaluación y gestión de prompts integrados en una sola plataforma self-hostable, aunque si la necesidad principal es visibilidad de costos y latencia en la capa de modelo, conviene evaluar si una herramienta más enfocada como Helicone sería suficiente
47. Port
- Portal interno para desarrolladores comercial diseñado para mejorar la experiencia de desarrollo, centralizando activos de software, automatizando workflows y reforzando estándares de ingeniería para dar a los equipos de plataforma una única fuente de verdad para workflows de autoservicio
- Se vuelve más importante a medida que las organizaciones buscan estandarizar workflows de ingeniería y exponer templates, API, automatizaciones y agentes en formas que los desarrolladores realmente puedan usar
- Además de funcionar como portal independiente, puede usarse directamente desde el IDE mediante la API y la capa MCP de Port
- Funciona bien para organizaciones que quieren capacidades de portal ya productizadas sin invertir fuertemente en platform engineering
- En proyectos con clientes, ha permitido que equipos de plataforma relativamente pequeños entreguen autoservicio efectivo rápidamente mientras dan soporte a miles de desarrolladores
- Vale la pena evaluarlo para organizaciones que necesitan pronto capacidades de portal interno para desarrolladores y pueden aceptar las limitaciones de una plataforma comercial y la dependencia del proveedor
48. Replit
- Plataforma cloud-native de desarrollo colaborativo que ofrece entorno de desarrollo instantáneo, programación en tiempo real y asistencia de IA integrada directamente en el navegador
- Combina editor, runtime, despliegue y workflows de codificación con IA en una sola plataforma integrada, permitiendo que los desarrolladores empiecen a programar de inmediato sin configuración local
- Un IDE colaborativo impulsado por IA ayuda mucho a reducir la fricción de onboarding y resulta ideal para prototipar en equipo
- También es muy efectivo para sesiones de capacitación, intercambio de conocimiento y bootcamps
- Algunos pueden ver Replit como un lugar para proyectos de hobby con ayuda de IA, pero el entorno es lo bastante potente como para competir con un IDE local tradicional, haciendo mucho más fácil iterar y colaborar
49. SigNoz
- Plataforma open source de observabilidad nativa de OpenTelemetry con soporte unificado para logs, métricas y trazas
- Resuelve necesidades de APM e instrumentación en microservicios modernos y arquitecturas distribuidas, mientras evita el lock-in de proveedor
- Aprovecha ClickHouse como base de datos columnar predeterminada para ofrecer almacenamiento escalable, de alto rendimiento y rentable con consultas rápidas, posicionándose como una sólida alternativa self-hosted a plataformas como Datadog
- Soporta consultas flexibles mediante PromQL y ClickHouse SQL, además de alertas por múltiples canales
- En la práctica, se ha confirmado que SigNoz reduce el consumo de recursos de infraestructura y el costo total de observabilidad sin degradar el rendimiento
- Aunque ofrece servicio cloud gestionado, sus imágenes Docker listas para usar y charts de Helm son una opción práctica para organizaciones que prefieren mantener el control de sus datos e infraestructura
Assess
50. Agent Trace
- Especificación abierta propuesta por Cursor para la estandarización de la atribución de código con IA
- Con el aumento en la adopción de agentes de programación, entender quién modificó el código se amplía más allá de los desarrolladores humanos para incluir también cambios generados por IA
- Las herramientas existentes como
git blamepueden mostrar que una línea de código fue modificada, pero no logran captar si el cambio fue hecho por un humano, por IA o por ambos - Agent Trace adopta un enfoque neutral respecto a proveedores para definir cómo rastrear cambios de código, sin tomar postura sobre cómo almacenar ese rastreo
- Compatible con múltiples sistemas de control de versiones, incluidos Git, Mercurial y Jujutsu
- La especificación define tipos de contribuyente como human, AI, mixed y unknown, así como registros de rastreo que describen el origen de cada contribución
- Hay primeras señales de adopción con soporte en herramientas como Cline y OpenCode, y con implementaciones como Git AI
51. ClickStack
- Plataforma open source de observabilidad compatible con OpenTelemetry que integra logs, trazas, métricas y sesiones en un único almacenamiento de datos de alto rendimiento basado en ClickHouse
- A medida que crece la infraestructura y aumentan los costos de observabilidad, muchos equipos lidian con cadenas de herramientas de telemetría fragmentadas y plataformas de proveedores costosas
- ClickStack aprovecha el almacenamiento columnar de ClickHouse para permitir consultas de alta cardinalidad en menos de un segundo sobre grandes volúmenes de datos de telemetría, y ofrece una base más simple y rentable para observabilidad
52. Coder
- Buena alternativa a los pixel-streamed development environments, ya que separa dónde corre el código de cómo interactúa el desarrollador
- En lugar de transmitir una interfaz de escritorio completa, los desarrolladores se conectan al entorno remoto desde un IDE local como VS Code o desde el navegador, logrando una experiencia más responsiva sin sacrificar usabilidad
- El código se ejecuta en infraestructura remota escalable, y el entorno se define y administra como código, lo que permite a los equipos estandarizar la configuración de desarrollo y simplificar el onboarding de nuevos desarrolladores
- También facilita dar acceso controlado a sistemas internos y simplificar el acceso de agentes de codificación con IA previamente aprobados
- Coder es visto como un punto intermedio entre el desarrollo local y los escritorios totalmente virtualizados: ofrece control centralizado y gobernanza sin las limitaciones de usabilidad del VDI con streaming de píxeles
- Buena opción para organizaciones que necesitan entornos de ejecución remotos o controlados, especialmente donde se requiere mayor capacidad de cómputo o acceso seguro
- Es necesario evaluar el sobrecosto operativo y la responsabilidad de seguridad asociados con administrar estos entornos
53. Databricks Agent Bricks
- A medida que el enfoque basado en agentes se vuelve dominante, las plataformas de datos evolucionan para dar soporte a estas cargas de trabajo de forma nativa, en lugar de hacerlo como un módulo adicional
- Databricks Agent Bricks ofrece componentes preconstruidos y autooptimizados para patrones comunes de IA, como asistentes de conocimiento y analistas de datos
- Sigue un enfoque declarativo: el desarrollador define los objetivos y los datos base, y el framework se encarga de la ejecución y la optimización
- Al simplificar LLMOps y reducir el esfuerzo necesario para la curación de datos, permite que los equipos se concentren más en resultados de negocio que en código boilerplate
- Un equipo lo usó junto con agentes personalizados para evaluar y construir una solución RAG compleja para I+D preclínica
- Si ya hay inversión en el ecosistema de Databricks y se está explorando un enfoque basado en agentes para casos comunes como chatbots y extracción de documentos, vale la pena evaluarlo
54. DuckLake
- Formato unificado de data lake y catálogo que simplifica la arquitectura lakehouse al usar una base de datos SQL estándar para el catálogo y la gestión de metadatos
- Mientras que formatos de tablas abiertos tradicionales como Iceberg o Delta Lake dependen de estructuras complejas de metadatos basadas en archivos, DuckLake almacena los metadatos en una base de datos de catálogo (como SQLite, PostgreSQL o DuckDB) y persiste los datos como archivos Parquet en disco local o en almacenamiento de objetos compatible con S3
- Este enfoque híbrido mejora la latencia de planificación de consultas y la confiabilidad transaccional durante actualizaciones concurrentes
- DuckDB cumple el papel de motor de consultas mediante la extensión
ducklake, y ofrece una interfaz SQL familiar para operaciones estándar DDL y DML - Mantiene características propias de lakehouse, como el particionamiento, pero omite índices y claves primarias/foráneas
- Con soporte para time travel, evolución de esquema y cumplimiento ACID, ofrece una opción de baja complejidad para equipos que buscan un stack analítico independiente
- Aunque todavía está en una etapa temprana de madurez, es una alternativa prometedora y liviana frente a las arquitecturas lakehouse tradicionales
- Adecuado para entornos de datos simplificados que buscan evitar la sobrecarga operativa asociada con ecosistemas basados en Spark o Trino
55. FalkorDB
- Base de datos de grafos basada en Redis con soporte para Cypher, adecuada para equipos que quieren capacidades de grafos sin adoptar una plataforma pesada
- Opción práctica para organizaciones que construyen cargas de trabajo de IA y aplicaciones ricas en relaciones, donde importa una baja fricción operativa y se prefiere un servicio de grafos basado en servidor en lugar de almacenamiento embebido
- Aunque la arquitectura es prometedora y el modelo para desarrolladores es accesible, antes de decidir una adopción amplia hace falta validar en producción el comportamiento de FalkorDB en cuanto a escalado, herramientas operativas y madurez de su ecosistema a largo plazo
56. Google Dialogflow CX
- Plataforma administrada de IA conversacional de Google Cloud que combina una máquina de estados basada en grafos construida con Flows y Pages con capacidades generativas basadas en Vertex AI Gemini
- Su predecesor, Dialogflow, ya había sido seguido anteriormente en el Radar
- CX representa un rediseño importante y ganó atención en 2024 después de que Google integró los modelos Vertex AI Gemini, introduciendo Generative Playbooks para agentes guiados por instrucciones y Data Store RAG para fundamentar respuestas en contenido indexado
- Se usó para construir un agente de descubrimiento de datos en lenguaje natural, eligiendo Dialogflow CX sobre un enfoque con SDK personalizado por su entorno low-code y por Generative Playbooks
- Configurado con few-shot prompting para traducir consultas en lenguaje natural a SQL
- Los equipos que ya construyen sobre Google Cloud encuentran que acelera la entrega frente a stacks de agentes personalizados cuando crean interfaces en lenguaje natural sobre datos internos estructurados
- Sin embargo, no tiene free tier, introduce una dependencia importante de Google Cloud y requiere planificar el esfuerzo de ingeniería de contexto
57. MCP Apps
- Primera extensión oficial de Model Context Protocol, que permite a los servidores MCP devolver interfaces HTML interactivas que se renderizan directamente dentro de la conversación como paneles, formularios y visualizaciones
- Desarrollado en conjunto por Anthropic, OpenAI y contribuidores open source, estandariza el esquema de recursos
ui://para que las herramientas declaren plantillas de UI renderizadas en un iframe aislado, con degradación elegante a texto cuando el host no soporta UI - A diferencia de AG-UI, que funciona como una capa de biblioteca separada, MCP Apps empaqueta la UI directamente dentro del servidor MCP
- Su diseño bidireccional permite que el modelo observe las acciones del usuario, mientras que la interfaz maneja datos en tiempo real y manipulación directa que el texto no puede ofrecer
- Clientes como Claude, ChatGPT, VS Code y Goose ya lanzaron soporte
- Los equipos que exploran interacciones más ricas con agentes deben evaluar si la complejidad adicional frente a respuestas en texto plano se justifica para su caso de uso
58. Monarch
- Framework open source de programación distribuida que lleva la simplicidad de las cargas de trabajo de PyTorch en una sola máquina a grandes clústeres de GPU
- Ofrece una API de Python para crear procesos remotos y actores, y agruparlos en colecciones mesh con soporte de mensajería por difusión
- Proporciona tolerancia a fallos mediante supervision tree, donde las fallas se propagan hacia arriba en la jerarquía para permitir un manejo de errores limpio y una recuperación detallada
- Soporta transferencias RDMA point-to-point para un movimiento eficiente de memoria entre GPU y CPU, y ofrece una abstracción de tensores distribuidos que permite a los actores trabajar con tensores particionados a través de procesos manteniendo un modelo de programación imperativo
- Monarch está construido sobre un backend Rust de alto rendimiento
- Aunque todavía está en una etapa temprana de desarrollo, la abstracción que hace que los tensores distribuidos se comporten como locales es potente y podría reducir significativamente la complejidad del entrenamiento distribuido de IA a gran escala
59. Neutree
- Plataforma open source para gestionar y servir LLM en infraestructura privada, posicionada como una capa de servicios de modelos para IA empresarial
- Proporciona un plano de control unificado para la gestión del ciclo de vida de modelos, serving de inferencia y programación de cómputo en hardware heterogéneo, como aceleradores de NVIDIA, AMD e Intel
- A medida que las organizaciones pasan de APIs alojadas a despliegues autohospedados y gobernados, Neutree resuelve una brecha clara: operar cargas de trabajo de LLM con capacidades de nivel empresarial como multitenencia, control de acceso, contabilidad de uso y abstracción de infraestructura
- Al separar el serving de modelos de la lógica de la aplicación, permite a los equipos desplegar, escalar y enrutar modelos en entornos que incluyen bare metal, VM y contenedores sin quedar fuertemente acoplados a un proveedor de nube específico
- Sin embargo, es relativamente nuevo y conviene abordarlo con cautela al adoptarlo
- Su ecosistema, madurez operativa y capacidades de integración aún están evolucionando frente a plataformas de ML más establecidas
- Prometedor, pero más adecuado para equipos dispuestos a invertir en evaluar y dar forma a infraestructura emergente de IA empresarial
60. OptScale
- Plataforma open source de FinOps multicloud que soporta cargas de trabajo intensivas en AI/ML, donde los costos de GPU y experimentación pueden dispararse rápidamente
- Recopila datos de facturación y uso desde APIs de nube, y combina en un solo sistema visibilidad de costos, recomendaciones de optimización, seguimiento de presupuestos y detección de anomalías con alertas basadas en políticas alineadas con equipos o estructuras del negocio
- En comparación con OpenCost, OptScale cubre casos de uso de FinOps más amplios fuera de Kubernetes mientras también ofrece análisis a nivel de Kubernetes
- Frente a suites empresariales como IBM Cloudability, CloudZero, CloudHealth, IBM Kubecost y Flexera One, ofrece más control y menos dependencia del proveedor
- El intercambio es una mayor sobrecarga operativa, complejidad de despliegue, edge cases en conectores y preocupaciones relacionadas con la higiene de seguridad de imágenes de contenedor
- Debe tratarse no como un producto plug-and-play, sino como una inversión en capacidades de plataforma
61. Rhesis
- Plataforma open source de pruebas para LLM y aplicaciones agentic, donde los equipos pueden definir el comportamiento esperado en lenguaje natural, generar escenarios de prueba adversariales y evaluar resultados tanto desde UI como mediante SDK o API
- Mientras los enfoques de prueba tradicionales asumen un comportamiento determinista, los sistemas de IA fallan de formas más sutiles, incluyendo jailbreaks, interacciones de múltiples turnos, violaciones de políticas y edge cases dependientes del contexto
- Es una plataforma útil para equipos que necesitan ir más allá de evaluaciones simples de prompts
- Funciones como el conversation simulator, pruebas adversariales, trazabilidad basada en OpenTelemetry y self-hosting mediante Docker ofrecen una forma práctica de integrar a equipos de producto, dominio e ingeniería en un flujo de trabajo compartido de pruebas
- Su principal beneficio es mejorar la validación previa a producción de sistemas no deterministas
- Hay que considerar intercambios habituales como el costo de evaluación, las limitaciones de métricas tipo LLM-as-judge y la necesidad de requisitos bien definidos antes de que la plataforma entregue valor
- Vale la pena evaluarla para equipos que construyen sistemas con LLM o agentic y necesitan pruebas colaborativas y repetibles más allá de revisiones básicas de prompts
62. RunPod
- A medida que las organizaciones incrementan los experimentos de entrenamiento y ajuste fino de LLM, los hyperscalers como AWS y Google Cloud pueden implicar costos altos y disponibilidad limitada de hardware
- RunPod ofrece una alternativa rentable para cargas de trabajo de IA intensivas en cómputo
- Opera como un marketplace global distribuido de GPU, ofreciendo acceso on-demand a una amplia gama de hardware, desde clústeres H100 de nivel empresarial hasta RTX 4090 de consumo, a menudo con costos considerablemente menores que los proveedores de nube tradicionales
- Es una opción práctica que vale la pena evaluar para equipos que necesitan infraestructura flexible y amigable con el presupuesto para desarrollar, entrenar y desplegar modelos de IA sin compromisos de largo plazo ni dependencia del proveedor
63. Sprites
- Entorno sandbox con estado de Fly.io diseñado para la ejecución aislada de agentes de codificación con IA
- Mientras la mayoría de los sandboxes para agentes se crean de forma efímera para una tarea y luego desaparecen, Sprites ofrece entornos Linux persistentes con capacidades ilimitadas de checkpoint y restauración
- Permite a los desarrolladores tomar snapshots de todo el estado del entorno, incluyendo dependencias instaladas, configuración de runtime y cambios en el sistema de archivos, para poder hacer rollback cuando un agente se descarrila
- Esto va más allá de lo que Git por sí solo puede recuperar, ya que captura estado del sistema que el control de versiones no rastrea
- A medida que los equipos adoptan cada vez más la sandboxed execution for coding agents como una opción razonable por defecto, Sprites representa un extremo del espectro: un enfoque persistente y con estado que intercambia la simplicidad de los contenedores efímeros por opciones de recuperación más ricas
- Los equipos que evalúan sandboxing para agentes pueden considerar Sprites junto con alternativas efímeras como Dev Containers, según sus necesidades y flujos de trabajo
64. torchforge
- Biblioteca nativa de PyTorch para aprendizaje por refuerzo diseñada para postentrenamiento a gran escala de modelos de lenguaje
- Ofrece abstracciones de alto nivel que separan la lógica algorítmica de las preocupaciones de infraestructura, orquestando Monarch para ajuste, vLLM para inferencia y torchtitan para entrenamiento distribuido
- Este enfoque permite a los investigadores expresar flujos complejos de aprendizaje por refuerzo con una API similar a pseudocódigo y escalar cargas de trabajo a miles de GPU sin gestionar preocupaciones de bajo nivel como sincronización de recursos, scheduling o tolerancia a fallos
- Al separar el "qué" (diseño del algoritmo) del "cómo" (ejecución distribuida), torchforge simplifica la experimentación y la iteración en sistemas de alineación a gran escala
- Es un paso útil para hacer más accesibles las técnicas avanzadas de postentrenamiento, aunque los equipos deben evaluar su madurez y encaje dentro de su infraestructura de ML existente
65. torchtitan
- Plataforma nativa de PyTorch para el preentrenamiento a gran escala de modelos de IA generativa, que ofrece una implementación de referencia limpia y modular para entrenamiento distribuido de alto rendimiento
- Reúne primitivas distribuidas avanzadas en un sistema cohesivo para soportar paralelismo 4D de datos, tensores, pipeline y contexto (4D parallelism)
- Dado que entrenar modelos del tamaño de Llama 3.1 405B exige escala y eficiencia considerables, torchtitan ofrece una base práctica para construir y operar cargas de entrenamiento de gran tamaño
- Su diseño modular facilita que los equipos experimenten y evolucionen sus estrategias de paralelización manteniendo preparación para producción
- Es un paso útil para estandarizar el entrenamiento de modelos a gran escala en el ecosistema PyTorch, especialmente para equipos que construyen su propia infraestructura de preentrenamiento
[Tools]
Adopt
66. Axe-core
- Herramienta de pruebas open source para la detección de problemas de accesibilidad en sitios web y otras aplicaciones basadas en HTML
- Verifica páginas para cumplir estándares como WCAG — incluyendo niveles de conformidad A, AA y AAA — y señala prácticas generales recomendadas de accesibilidad
- Desde su primera aparición en el Radar como Trial en 2021, varios equipos han adoptado Axe-core con clientes
- La accesibilidad es cada vez más un atributo de calidad indispensable, y en Europa regulaciones como la European Accessibility Act obligan a las organizaciones a cumplir requisitos de accesibilidad en servicios digitales
- Encaja bien en flujos modernos de desarrollo al habilitar verificaciones automatizadas en pipelines de CI
- Ayuda a los equipos a prevenir regresiones, mantener el cumplimiento y recibir retroalimentación temprana durante el desarrollo, en especial para asegurar que la accesibilidad forme parte del ciclo de retroalimentación cuando hay una adopción amplia de herramientas de codificación asistida por IA y agentic
67. Claude Code
- Herramienta de codificación con IA agentic de Anthropic para planear y ejecutar flujos de trabajo complejos de múltiples pasos
- Equipos dentro y fuera de Thoughtworks la usan cotidianamente para entregar software en producción, y se considera ampliamente un referente de capacidad y usabilidad, por lo que pasó a Adopt
- Aunque el entorno de agentes por CLI se ha expandido rápidamente con herramientas como Codex CLI de OpenAI, Gemini CLI de Google, OpenCode y pi, Claude Code sigue siendo la opción preferida para muchos equipos
- Su uso se ha ampliado más allá de escribir código hacia la ejecución de flujos de trabajo más amplios que incluyen especificaciones, historias, configuración, infraestructura, documentación y procesos de negocio definidos en markdown
- Sigue incorporando capacidades que otras herramientas buscan emular, como skills, subagentes, control remoto y flujos de trabajo agentic para equipos
- Los equipos que la adoptan necesitan prácticas operativas disciplinadas y trabajo en pairing; la codificación agentic desplaza el esfuerzo del desarrollador de la implementación manual hacia la definición de intención, restricciones y límites de revisión
- Puede acelerar la entrega, pero aumenta el riesgo de complacencia con el código generado por IA, haciendo más difícil mantener y evolucionar el sistema tanto para humanos como para agentes
- Crece el interés en context engineering (conciencia temática, selección de contexto basada en alcance) y en cómo implementar curated shared instructions y harness engineering para volver más confiables los flujos de trabajo agentic
68. Cursor
- Junto con Claude Code, aparece de forma consistente como una de las opciones predeterminadas para equipos de entrega y uno de los agentes de codificación más adoptados
- Ha madurado hasta convertirse en un entorno agentic integral con funciones como plan mode, hooks y subagents
- Aunque los agentes basados en terminal también son populares, muchos desarrolladores encuentran que supervisar al agente dentro del IDE ofrece una experiencia más rica para revisar y refinar planes antes de ejecutarlos
- La adopción de Agent Client Protocol redujo la barrera para la gran base de usuarios de JetBrains, haciendo que las capacidades de Cursor sean accesibles desde esos IDE
- Resulta especialmente valiosa la capacidad de inspeccionar pasos individuales del agente o de volver a una etapa previa cuando el plan se desvía
- El uso de Agent Skills ayuda a los equipos a empaquetar instrucciones reutilizables y a estandarizar cómo los agentes interactúan con codebases complejos
- Aunque las ganancias de productividad son claras, la autonomía agentic todavía requiere pruebas automatizadas rigurosas y supervisión humana para detectar regresiones sutiles
69. Kafbat UI
- Interfaz web open source gratuita para monitorear y administrar clústeres de Apache Kafka
- Especialmente útil cuando los equipos necesitan inspeccionar payloads difíciles de leer durante la depuración cotidiana
- Los equipos suelen atorarse al depurar mensajes cifrados, y el soporte SerDes integrado y extensible por plugins de Kafbat UI ofrece una forma práctica de aplicar descifrado o decodificación personalizada para poder leer de nuevo los mensajes
- Ofrece retroalimentación más rápida que los scripts de depuración de un solo uso y una mejor experiencia operativa para equipos de desarrollo y soporte
- Recomendado para entornos con uso intensivo de Kafka, donde la inspección segura de mensajes y la resolución eficiente de problemas deberían ser prácticas estándar
70. mise
- Desde la última evaluación, evolucionó de ser una alternativa de alto rendimiento a asdf a convertirse en la interfaz principal del entorno de desarrollo
- Unifica tres preocupaciones fragmentadas —gestión de versiones de herramientas e idiomas, gestión de variables de entorno y ejecución de tareas— en una sola herramienta de alto rendimiento basada en Rust, configurada con archivos declarativos
mise.toml - mise es fácil de configurar y funciona bien con pipelines de CI/CD
- Mediante integración con Cosign y GitHub Artifact Attestations, añade una capa de seguridad de la cadena de suministro que suele faltar en otros administradores de versiones
- Es una opción predeterminada recomendada para equipos que buscan estandarizar la configuración del entorno de desarrollo
- Especialmente útil en entornos políglotas con múltiples microservicios cuando los codebases adoptan nuevas versiones de lenguaje al mismo tiempo
- También funciona con herramientas existentes específicas de cada lenguaje, por lo que los equipos no necesitan migrarlo todo de una sola vez
Trial
71. cargo-mutants
- Herramienta de mutation testing para Rust, que ayuda a ir más allá de métricas simples de cobertura de código
- Inyecta automáticamente errores pequeños e intencionales, como intercambiar operadores o devolver valores por defecto, para verificar si las pruebas existentes realmente detectan regresiones
- Su enfoque de cero configuración es especialmente efectivo; a diferencia de herramientas anteriores, no requiere cambios en el árbol de código fuente
- Ofrece un ciclo de retroalimentación útil para equipos nuevos en Rust, ayudando a identificar casos límite faltantes y a mejorar la confiabilidad de pruebas unitarias y de integración
- cargo-mutants es una implementación especializada de mutation testing, una práctica que también se está probando en otros ecosistemas
- El principal costo es el aumento en el tiempo de ejecución de las pruebas, ya que cada mutant requiere un build incremental
- Para manejarlo, se recomienda apuntar a módulos específicos durante el desarrollo local o ejecutar el conjunto completo de forma asíncrona en CI
- A veces puede ser necesario filtrar mutants lógicamente equivalentes, pero el aumento resultante en la confiabilidad de las pruebas supera el ruido adicional
72. Claude Code plugin marketplace
- Antes, compartir comandos personalizados, agentes especializados, servidores MCP y skills era un proceso manual en el que los desarrolladores copiaban y pegaban instrucciones desde Confluence u otras fuentes externas
- Esto a menudo provocaba desfase de versiones, y que los miembros del equipo usaran instrucciones de proyecto desactualizadas
- Los equipos están aprovechando Claude Code plugin marketplace para usar un modelo de distribución basado en Git y distribuir comandos, prompts y skills compartidos
- Al alojar marketplaces internos del equipo en GitHub o plataformas similares, las organizaciones pueden distribuir estos artefactos de forma más segura y consistente
- Los desarrolladores pueden sincronizar directamente a su entorno local flujos de trabajo y herramientas impulsados por IA mediante la CLI
- Otros agentes de codificación como Cursor también admiten plugin marketplace de equipo, habilitando una forma más simplificada y gobernada de compartir estos artefactos
73. Dev Containers
- Usan el archivo de configuración
devcontainer.jsoncomo una forma estandarizada de definir entornos de desarrollo contenerizados y reproducibles - Originalmente se diseñaron para ofrecer una configuración de desarrollo consistente a los equipos, pero se descubrió un nuevo caso de uso atractivo como entorno de ejecución aislado para agentes de codificación
- Al ejecutar agentes de codificación con IA dentro de un Dev Container, quedan aislados del sistema de archivos, las credenciales y la red del host, lo que permite a los equipos otorgar permisos amplios al agente sin poner en riesgo la máquina host
- La especificación abierta tiene soporte nativo en herramientas basadas en VS Code, como VS Code y Cursor
- DevPod amplía el soporte de devcontainer a cualquier editor o flujo de trabajo de terminal mediante SSH
- Adoptan un enfoque efímero por defecto —es decir, el contenedor se reconstruye desde la configuración cada vez que inicia—, lo que ofrece un límite de seguridad limpio a costa de reinstalar herramientas y dependencias
- Para equipos que necesitan estado persistente o capacidades de checkpoint y restauración, existen otras alternativas de enfoque como Sprites
- Además del sandboxing de agentes, también ofrecen beneficios de seguridad de la cadena de suministro, al definir la toolchain en una configuración declarativa y reducir la exposición a paquetes comprometidos y dependencias inesperadas
74. Figma Make
- Anteriormente apareció como un blip de self-serve UI prototyping with GenAI, y esta técnica ahora ha sido adoptada ampliamente por equipos de desarrollo, incluidos product managers y diseñadores, para generar prototipos de alta fidelidad aptos para pruebas con usuarios
- Figma Make es una opción poderosa porque aprovecha componentes y capas reales del sistema de diseño, haciendo que los resultados se parezcan mucho a la aplicación en producción
- Usa modelos de IA personalizados entrenados con patrones de diseño de alta calidad
- Los equipos la están usando para crear nuevas pantallas de diseño, mejorar pantallas existentes y construir prototipos compartibles para recopilar retroalimentación rápida de usuarios
75. OpenAI Codex
- Ha evolucionado a una herramienta de codificación agentic independiente disponible mediante app de macOS y CLI
- Está diseñada para delegar trabajo autónomo: al recibir un prompt, planifica, implementa e itera a través de archivos con mínima intervención
- Es efectiva como herramienta de borrador rápido, especialmente útil para trabajo greenfield y tareas de implementación repetitivas
- Sin embargo, OpenAI Codex tiende a proponer patrones de librerías funcionalmente desactualizados aunque lógicamente sólidos, por lo que las pruebas automatizadas y la revisión humana son indispensables
- Como otras herramientas agentic de este Radar, el riesgo de acumular deuda técnica sutil es real y es proporcional al nivel de autonomía que el equipo le otorgue
76. Typst
- Un sistema de composición tipográfica basado en markup que se ha posicionado como el sucesor moderno de LaTeX para la generación programática de documentos
- Combina tipografía de alta calidad con una sintaxis más simple, y ofrece un pipeline de compilación notablemente rápido que compila incluso documentos muy grandes en una fracción del tiempo de la toolchain tradicional de LaTeX
- Typst ofrece mensajes de error más claros y capacidades de scripting integradas como condicionales y bucles
- Puede cargar datos estructurados desde JSON o CSV, por lo que se adapta bien a la generación automatizada de documentos
- Los equipos lo usan para generar estados de cuenta e informes para clientes de banca y servicios financieros que necesitan generación a gran escala con formato consistente
- El compilador open source puede hospedarse de forma autónoma, y su ecosistema en crecimiento incluye paquetes aportados por la comunidad
- Es más accesible que LaTeX y aun así ofrece una calidad tipográfica comparable
Assess
77. Agent Scan
- Un escáner de seguridad para ecosistemas de agentes que descubre componentes locales, incluidos servidores MCP y skills, y marca riesgos como prompt injection, tool poisoning, toxic flow, secretos hardcodeados y manejo inseguro de credenciales
- Aborda una brecha emergente en la visibilidad de la cadena de suministro de agentes, ofreciendo una forma práctica de inventariar y probar una superficie agentic en rápido crecimiento
- Sin embargo, su adopción debe ser intencional: el escaneo requiere compartir metadatos de componentes con la API de Snyk, y la calidad de la señal y la tasa de falsos positivos deben validarse en cada entorno
- Es importante que los equipos confirmen su valor operativo antes de convertir Agent Scan en parte de una compuerta obligatoria de entrega
78. Beads
- Un rastreador de issues basado en Git diseñado como una capa de memoria persistente para agentes de codificación
- En lugar de depender de planes temporales en Markdown, ofrece a los agentes un grafo de trabajo con estructura amigable para ramas para manejar relaciones de bloqueo, detectar trabajo listo y coordinar tareas de largo plazo entre sesiones
- Beads está construido sobre Dolt, una base de datos SQL con control de versiones integrado que admite branch, merge, diff y replicación de tablas de forma similar a un repositorio Git
- Representa una nueva categoría de herramientas de memoria de proyecto y seguimiento de tareas nativas para agentes
- Otros proyectos tempranos en este espacio incluyen ticket y tracer
- A diferencia de sistemas tradicionales de ticketing como GitHub Issues y Jira, habilita nuevos flujos de trabajo para coordinar ejecuciones autónomas multiagente, incluida la asignación de trabajo entre agentes
79. Bloom
- Una herramienta de Anthropic para investigadores de seguridad de IA que evalúan el comportamiento de LLM
- Detecta comportamientos como sycophancy (adulación) y self-preservation (autopreservación)
- Frente a benchmarks estáticos, usa una configuración semilla que define el comportamiento objetivo y los parámetros de evaluación para generar dinámicamente diversas conversaciones de prueba y luego evaluar los resultados
- Este enfoque de evaluación automatizada de comportamiento es esencial para seguir el ritmo de lanzamiento de modelos y permite que equipos de investigación externos realicen evaluaciones
- Petri es una herramienta complementaria que identifica qué comportamientos aparecen en un modelo dado, mientras que Bloom identifica en qué escenarios y con qué frecuencia ocurren esos comportamientos; juntas forman una suite de evaluación más completa
- Una preocupación con Bloom es que requiere un modelo maestro (o evaluador) para evaluar un modelo estudiante dado; el modelo maestro puede tener puntos ciegos y sesgos, por lo que usar múltiples evaluadores puede reducir el sesgo en los resultados
- Vale la pena que los equipos de investigación en seguridad de IA la evalúen como complemento a los benchmarks estáticos para evaluar comportamientos emergentes de modelos
80. CDK Terrain
- fork comunitario de Cloud Development Kit for Terraform(CDKTF), que HashiCorp discontinuó y archivó en diciembre de 2025
- CDK Terrain (CDKTN) retoma donde CDKTF se quedó; permite a los equipos definir infraestructura con TypeScript, Python y Go, y aprovisionarla mediante Terraform u OpenTofu
- Para equipos que ya invirtieron en CDKTF, preserva el código y los flujos de trabajo existentes, y ofrece una ruta de migración en lugar de forzar un cambio a HCL o Pulumi
- El proyecto publica versiones cada mes y añadió soporte para OpenTofu como objetivo de primera clase
- Sin embargo, los forks comunitarios que mantienen proyectos abandonados por el proveedor conllevan riesgos inherentes respecto al soporte a largo plazo, y el enfoque de CDKTF no logró una adopción amplia
- HashiCorp citó la falta de product-market fit al discontinuarlo
- Los equipos que actualmente usan CDKTF pueden evaluar CDK Terrain como opción de continuidad, pero también deben sopesar si es el momento adecuado para migrar a un enfoque con soporte más amplio
81. CodeScene
- Apareció como blip de social code analysis en 2017, y el aumento en la adopción de agentes de código ha renovado el interés por herramientas como CodeScene
- Herramienta de análisis conductual de código que combina métricas de complejidad del código con el historial de control de versiones para identificar deuda técnica
- A diferencia del análisis estático tradicional, destaca los "hotspots" para ayudar a los equipos a priorizar refactorizaciones según la actividad real de desarrollo y el impacto en el negocio
- Ahora también ofrece orientación para diseño de código amigable con IA
- Los equipos están descubriendo que la calidad del código se vuelve aún más importante porque los agentes de código pueden modificar código mucho más rápido que los desarrolladores humanos
- La métrica CodeHealth de CodeScene sirve como una barrera útil al identificar áreas demasiado complejas para que un LLM las refactorice con seguridad sin riesgo de alucinaciones
- Se recomienda evaluarlo como barrera de protección para la adopción de agentes de código, ya que la métrica CodeHealth resalta objetivos seguros para refactorizar e indica áreas que deben mejorarse antes de aplicar agentes
82. ConfIT
- Biblioteca que define de forma declarativa en JSON pruebas de API de integración y de estilo componente, en vez de escribirlas de forma imperativa como código
- Hay más interés en este enfoque porque los grandes suites de pruebas suelen acumular boilerplate alrededor del cliente HTTP, la configuración de solicitudes y las aserciones
- El desarrollo asistido por IA refuerza esta tendencia, ya que las definiciones de prueba estructuradas son más fáciles de generar y mantener que el código procedimental verboso
- Con base en la experiencia de clientes y en su evaluación, la capa declarativa reduce la duplicación entre pruebas de componente e integración, mejora la legibilidad y facilita evolucionar la intención de las pruebas en todo el equipo
- Sin embargo, ConfIT en sí tiene adopción comunitaria limitada y un ecosistema pequeño, por lo que resulta difícil recomendarlo ampliamente pese a esas ventajas
- Vale la pena evaluarlo para equipos .NET que exploran pruebas de API guiadas por especificaciones, pero es necesario validar la viabilidad de mantenimiento a largo plazo, el encaje en el ecosistema y los trade-offs operativos
83. Entire CLI
- Se engancha a los flujos de trabajo de Git para capturar sesiones de agentes de código con IA — transcripciones, prompts, llamadas a herramientas, archivos tocados y uso de tokens — como metadatos consultables almacenados en una rama dedicada del repositorio
- Soporta Claude Code, Gemini CLI, OpenCode, Cursor, Factory AI Droid y GitHub Copilot CLI
- A medida que los agentes de IA se vuelven contribuyentes principales del codebase, los equipos se enfrentan a una brecha creciente entre lo que Git rastrea y lo que realmente ocurre durante las sesiones de codificación
- Entire CLI crea una pista de auditoría de la actividad del agente registrando la sesión completa junto con los commits, sin contaminar el historial de la rama principal
- Su sistema de checkpoints también habilita una recuperación práctica, permitiendo a los equipos volver a un estado conocido como bueno cuando el agente se desvía y reanudar desde cualquier checkpoint
- Aunque la herramienta es muy nueva y el ecosistema de trazabilidad de sesiones de agentes aún se está formando, la captura de sesiones nativa de Git encaja de forma natural para equipos con requisitos de cumplimiento o auditoría relacionados con código generado por IA
84. Git AI
- Extensión open source de Git para rastrear código generado por IA y vincular cada línea escrita por IA con el agente, modelo y prompt que la generó
- Git AI usa checkpoints y hooks para rastrear cambios de código incrementales entre el inicio y el fin de un commit
- Cada checkpoint incluye el diff entre el estado actual y el checkpoint anterior, marcado como escrito por IA o por un humano
- Este enfoque es más preciso que los enfoques centrados en contar líneas de código en el momento de inserción
- Usa un estándar abierto basado en Git Notes para rastrear código generado por IA
- Aunque el ecosistema de agentes compatibles aún está madurando, vale la pena evaluarlo para equipos que buscan mantener responsabilidad y mantenibilidad a largo plazo en flujos de trabajo agentic
- Tanto humanos como agentes de IA pueden consultar sesiones de agente archivadas mediante la habilidad
/askpara preguntar por la intención original y las decisiones de arquitectura detrás de bloques específicos de código
85. Google Antigravity
- Fork independiente de VS Code construido sobre tecnología licenciada de Windsurf, lanzado en public preview junto con Gemini 3 en noviembre de 2025
- Reconfigura el IDE en torno a la orquestación multiagente: Agent Manager ejecuta múltiples agentes en paralelo a través de tareas, un navegador Chromium integrado permite que los agentes interactúen directamente con una UI en vivo y un sistema de skills guarda instrucciones reutilizables de agentes en el repositorio
- Agent Manager funciona más como un panel de "Mission Control" que como una barra lateral de chat estándar, lo que implica un cambio fundamental en el rol del desarrollador: de escribir código línea por línea a orquestar múltiples flujos de trabajo autónomos
- Cuando hace falta, los desarrolladores aún pueden entrar al editor para mantener control human-in-the-loop (HITL)
- Google Antigravity se integra con Google Cloud y Firebase mediante Model Context Protocol y soporta desarrollo de agentes con Agent Development Kit
- Sigue en estado de public preview, no hay fecha de GA y su postura de seguridad y preparación empresarial aún siguen evolucionando
- Su modelo de ejecución multiagente y su acceso autónomo al navegador señalan la dirección de los IDE agentic
86. Google Mainframe Assessment Tool
- Ayuda a las organizaciones con la ingeniería inversa de aplicaciones que se ejecutan en mainframes, analizando todo el portafolio o sistemas individuales
- En su núcleo depende de analizadores sintácticos deterministas del lenguaje para mapear el flujo de llamadas y las dependencias de datos en toda la base de código, generando una vista estructural de cómo interactúan las aplicaciones
- Sobre esa base, las capacidades de IA generativa ofrecen resúmenes, documentación, generación de casos de prueba y propuestas de modernización
- Este enfoque se alinea con el patrón más amplio de comprender bases de código heredadas usando GenAI, donde una comprensión sólida del sistema constituye la base para un uso eficaz de la IA
- Aunque Google Mainframe Assessment Tool todavía no es compatible con todos los stacks tecnológicos principales de mainframe, está evolucionando rápidamente
- Los equipos descubrieron que resulta útil en proyectos con clientes enfocados en el descubrimiento y la modernización de aplicaciones mainframe
87. OpenCode
- Está emergiendo rápidamente como uno de los agentes de codificación open source más destacados, con una sólida experiencia centrada en la terminal
- Una fortaleza clave es su flexibilidad de modelos: admite modelos frontier alojados, endpoints autoalojados y modelos locales
- Esto hace que OpenCode sea atractivo para control de costos, personalización y entornos restringidos, incluidas configuraciones air-gapped
- Esto significa que los usuarios deben ser explícitos respecto a licencias y términos del proveedor al usar una suscripción o una API
- El modelo de extensibilidad de OpenCode es otro punto clave de su atractivo, ya que admite tanto plugins como integraciones MCP para flujos de trabajo, herramientas y guardrails específicos por equipo
- Muchos usuarios aprovechan Oh My OpenCode, un harness opcional pero popular que ofrece una configuración más opinada y batteries-included, con equipos de agentes ajustados y patrones de orquestación más ricos
88. OpenSpec
- A medida que evolucionan las capacidades de los agentes de codificación con IA, los desarrolladores enfrentan cada vez más retos de previsibilidad y mantenibilidad cuando los requisitos y el contexto solo existen en historiales de chat efímeros
- Para abordar esto, han surgido herramientas de spec-driven development (SDD)
- OpenSpec es un framework open source de SDD que introduce una capa ligera de especificación para garantizar que los desarrolladores humanos y los agentes de IA estén alineados sobre qué construir antes de generar código
- Lo que lo diferencia es su flujo de trabajo fluido y mínimo, a menudo reducido a tres pasos: propose → apply → archive
- Muchos frameworks de SDD (GitHub Spec Kit, por ejemplo) o flujos de trabajo de Agentic Skills (Superpowers, por ejemplo) son más adecuados para proyectos greenfield que para brownfield
- En lugar de exigir una definición completa de especificaciones por adelantado, el enfoque de OpenSpec en spec deltas funciona especialmente bien y se adapta bien a sistemas existentes
- A diferencia de alternativas pesadas que imponen flujos de trabajo más estrictos (BMAD, por ejemplo) o requieren integraciones IDE específicas de proveedor (Kiro, por ejemplo), es iterativo y neutral respecto a las herramientas
- Es un framework amigable para desarrolladores que vale la pena evaluar para equipos que quieran introducir estructura y previsibilidad en el desarrollo asistido por IA sin adoptar un proceso pesado
- Al mismo tiempo, a medida que los modelos y los agentes de codificación se vuelven más potentes, también recomiendan que los equipos monitoreen y revisiten las capacidades nativas, y reevalúen la necesidad de herramientas SDD
89. PageIndex
- Es una herramienta para construir índices jerárquicos de documentos para pipelines RAG basados en razonamiento y sin vectores, en lugar de depender de la búsqueda tradicional basada en embeddings
- Mientras que dividir documentos en vectores puede hacer que se pierda información estructural y limitar la visibilidad de por qué se recuperó un resultado, PageIndex construye un índice tipo tabla de contenidos que el LLM recorre paso a paso para recuperar contenido relevante
- Similar a cómo una persona escanea encabezados y luego profundiza en secciones específicas, genera un rastro explícito de razonamiento que explica por qué se seleccionó una sección determinada
- Funciona bien para documentos cuyo significado depende en gran medida de la estructura más que de la semántica, por ejemplo, reportes financieros con datos numéricos, documentos legales con cláusulas cruzadas y documentos clínicos o científicos complejos
- Sin embargo, esto implica compensaciones: como el razonamiento del LLM forma parte del proceso de recuperación, puede introducir latencia y costos significativos, especialmente en documentos grandes
90. Pencil
- Es una herramienta de lienzo de diseño que se integra con IDE y agentes de codificación como Cursor y Claude Code
- A diferencia de Figma, que actualmente solo ofrece acceso de lectura, Pencil ejecuta un servidor MCP local bidireccional que proporciona tanto acceso de lectura como de escritura para manipular directamente el lienzo
- Al igual que herramientas como Figma Make y Builder.io, también ofrece capacidades de design-to-code, pero con un enfoque más centrado en desarrolladores: los archivos de diseño se almacenan en el repositorio en un formato JSON abierto llamado
.pen, lo que permite versionar los activos de diseño junto con el código - Su integración con herramientas familiares para desarrolladores ayuda a cerrar la brecha en el handoff entre diseño y desarrollo
- Para sistemas de diseño grandes y complejos, Figma sigue siendo el estándar de colaboración entre distintos roles
- Sin embargo, vale la pena considerarlo para equipos sin diseñadores dedicados o equipos con desarrolladores que tienen fuertes habilidades de diseño
91. Pi
- Es un agente minimalista open source de codificación en terminal escrito en TypeScript
- Es una opción atractiva para tinkerers y experimentadores, no una opción predeterminada del mainstream empresarial
- Pi es un harness bare-bones más personalizable que agentes más completos como OpenCode
- Es más fácil de adaptar que construir un agente nuevo con frameworks agentic como ADK, LangGraph y Mastra
- A pesar de su fuerte impulso y de lanzamientos activos, el proyecto sigue en una etapa temprana y está impulsado principalmente por sus mantenedores
- Es necesario tratar a pi como un bloque de construcción orientado a ingenieros, no como una plataforma empresarial completa con guardrails y soporte integrales
92. Qwen 3 TTS
- Es un modelo open source de texto a voz que reduce considerablemente la brecha de calidad con productos comerciales y al mismo tiempo ofrece a los desarrolladores más control que muchas API pagadas
- Admite múltiples idiomas, permite clonación de voz a partir de muestras cortas (aprox. 10-15 segundos) y ajuste fino posterior al entrenamiento para voces específicas de dominio o de personaje
- Es una opción atractiva para equipos que necesitan voces específicas de marca o control on-prem
- Qwen 3 TTS se lanzó recientemente, por lo que los equipos deben validar estabilidad, controles de seguridad, idoneidad de la licencia y madurez operativa antes de adoptarlo para cargas de trabajo de voz críticas para producción
93. SGLang
- framework de serving de alto rendimiento que reduce la sobrecarga computacional de la inferencia de LLM mediante el codiseño del lenguaje de programación frontend y el runtime backend
- incorpora RadixAttention, una técnica de gestión de memoria que almacena en caché y reutiliza activamente el estado KV (clave-valor) a lo largo del prompt
- este enfoque ofrece mejoras de rendimiento significativas frente a motores de serving estándar como vLLM en escenarios con alto prefix overlap
- para equipos que construyen agentes autónomos complejos, dependen de prompts de sistema largos o usan ampliamente few-shot prompting con ejemplos compartidos, SGLang puede aportar ganancias importantes en latencia y eficiencia
94. ty
- a medida que Python sigue creciendo en popularidad, especialmente en el espacio de IA y ciencia de datos, tener un sistema de tipos sólido se vuelve cada vez más valioso
- Ty es un checker de tipos y servidor de lenguaje para Python extremadamente rápido, escrito en Rust
- forma parte del ecosistema de Astral, que también incluye herramientas como uv y ruff
- proporciona retroalimentación rápida y se integra bien con editores comunes como Visual Studio Code
- usar ty junto con otras herramientas de Astral puede simplificar el desarrollo en Python en organizaciones grandes
- a medida que la programación agentic se vuelve más común, contar con un checker de tipos determinista con ciclos de retroalimentación rápidos ayuda a detectar errores temprano y a reducir el esfuerzo de revisión de código por fallos simples
95. Warp
- desde su última inclusión en el Radar, Warp ha evolucionado mucho más allá de la descripción de "terminal con funciones de IA"
- mantiene sus fortalezas principales — salida de comandos basada en bloques, sugerencias impulsadas por IA y funciones tipo notebook — mientras se expande hacia territorio tradicionalmente ocupado por los IDE
- ahora puede renderizar Markdown, mostrar árboles de archivos y abrir archivos directamente desde la terminal, además de soportar flujos de trabajo completos de desarrollo agentic en varios paneles: un agente de programación como Claude Code en un panel, el shell en otro y una vista de archivos del workspace en un tercero
- una ventaja práctica observada es que Warp maneja mejor que las terminales tradicionales la salida de texto de alto volumen que generan los agentes de programación modernos, donde la velocidad de renderizado y la legibilidad pueden volverse cuellos de botella
- también agregó un asistente de programación integrado, aunque el equipo no lo ha evaluado ampliamente
- Warp lanzó recientemente Oz, una plataforma de orquestación para agentes en la nube integrada con la terminal, pero esta blip se enfoca en la terminal en sí
- para equipos que prefieren una terminal ligera y combinable, y quieren traer sus propias herramientas de IA, Ghostty puede ser una mejor opción: en contraste con la filosofía batteries-included de Warp, tiene un enfoque deliberadamente minimalista
- el ritmo de nuevas funciones y las ambiciones de plataforma más amplias de Warp hacen que aún sea prematuro moverlo a Trial antes de que el producto se estabilice y se obtenga más experiencia de campo con sus nuevas capacidades
96. WuppieFuzz
- fuzzer open source para API REST que usa definiciones OpenAPI para generar solicitudes válidas, las muta para explorar casos límite y se apoya en retroalimentación de cobertura del lado del servidor para priorizar entradas que alcancen nuevas rutas de ejecución
- la mayoría de los equipos todavía dependen de integración y pruebas de contrato basadas en ejemplos, y casi no exploran entradas inesperadas, secuencias de solicitudes anómalas ni rutas cargadas de fallos, aunque las API suelen ser la principal superficie de integración de los sistemas modernos
- según una evaluación inicial, WuppieFuzz parece ser un complemento prometedor para estas pruebas: puede descubrir problemas como excepciones no controladas, brechas de autorización, filtración de datos sensibles, errores del lado del servidor y defectos lógicos que los tests con scripts podrían pasar por alto
- los equipos todavía necesitan evaluar cómo encaja en CI, qué sobrecarga de runtime introduce y qué tan útiles son realmente los resultados
- por eso, vale la pena evaluarlo para equipos que construyen API REST críticas o expuestas externamente
Caution
97. OpenClaw
- proyecto open source que su autor describe como una categoría de "hyper-personal AI assistant"
- permite a los usuarios alojar su propia instancia, mantenerla disponible para uso continuo mediante canales de mensajería como WhatsApp o iMessage, y ejecutar tareas a través de herramientas conectadas
- con memoria persistente de conversaciones, preferencias y hábitos, crea una experiencia personal continua que se siente sustancialmente distinta de una interfaz de chat GenAI o de un agente de programación típico
- el modelo es claramente atractivo y ya ha inspirado seguidores como Claude Cowork
- la razón para ubicar OpenClaw en Caution es que el modelo exige compensaciones de seguridad significativas
- cuanto más acceso se le da a calendarios, correo, archivos y comunicaciones, más útil se vuelve, y más concentra privilegios exactamente en el patrón advertido en toxic flow analysis for AI
- este riesgo no es exclusivo de OpenClaw: también aplica a otras implementaciones del mismo patrón, incluidos productos de proveedores establecidos
- publicaron consejos para equipos que estén considerando OpenClaw y entornos de ejecución sandbox; alternativas como NanoClaw o ZeroClaw pueden reducir el radio de impacto
- sin embargo, el patrón de hyper-personal assistant en sí sigue siendo ávido de privilegios y de alto riesgo
[Languages and Frameworks]
Adopt
98. Apache Iceberg
- formato de tabla abierto para datasets analíticos a gran escala que define cómo se organizan los archivos de datos, los metadatos y los esquemas en sistemas de almacenamiento como S3
- ha evolucionado enormemente en los últimos años y se ha consolidado como un bloque fundamental de las arquitecturas lakehouse tecnológicamente neutrales
- cuenta con soporte de todos los principales proveedores de plataformas de datos, incluidos AWS (Athena, EMR, Redshift), Snowflake, Databricks y Google BigQuery, lo que lo convierte en una opción sólida para evitar el lock-in de proveedor
- lo que distingue a Apache Iceberg de otros formatos de tabla abiertos es su apertura tanto en capacidades como en gobernanza, en contraste con alternativas cuyas capacidades están limitadas o controladas por un solo proveedor
- en términos de confiabilidad, su diseño basado en snapshots ofrece aislamiento serializable, escrituras concurrentes seguras mediante concurrencia optimista e historial de versiones con rollback, brindando fuertes garantías de corrección sin cuellos de botella de rendimiento
- aunque Apache Spark es el motor más común, también tiene buen soporte en Trino, Flink, DuckDB y otros, por lo que es apto para una amplia variedad de casos de uso, desde plataformas de datos empresariales hasta análisis local ligero
- ha ganado gran confianza como formato de datos estable y abierto en muchos equipos, y se recomienda como opción por defecto para organizaciones que construyen plataformas de datos modernas
99. Declarative Automation Bundles
- Anteriormente conocidos como Databricks Asset Bundles, han evolucionado hasta convertirse en una herramienta clave para introducir prácticas de ingeniería de software y CI/CD en el ecosistema de Databricks
- Han madurado considerablemente, permitiendo a los equipos gestionar como código la mayoría de los recursos de la plataforma, incluidos clústeres, pipelines ETL, jobs, modelos de machine learning y dashboards
- Con el comando
databricks bundle plan, los equipos pueden previsualizar cambios y aplicar prácticas de despliegue repetibles para artefactos de Databricks, de forma similar a cómo se gestiona infraestructura con herramientas como Terraform - Al tratar como código activos tradicionalmente cambiantes como dashboards y pipelines de ML, es posible versionarlos, probarlos y desplegarlos con el mismo rigor que los microservicios tradicionales
- Con base en experiencia en entornos de producción, Declarative Automation Bundles se han consolidado como un enfoque confiable para gestionar flujos de trabajo de datos y ML en Databricks
- Se recomienda a los equipos que trabajan ampliamente en el ecosistema de Databricks considerar su adopción para estandarizar prácticas de gestión de infraestructura
100. React JS
- Ha sido la opción predeterminada para el desarrollo de interfaces en JavaScript desde 2016, pero vale la pena revisitarlo porque, como parte de React 19, se lanzó la versión estable de React Compiler el octubre pasado
- Al encargarse de la memoización en tiempo de compilación,
useMemoyuseCallbackmanuales se vuelven innecesarios en la mayoría de los casos; se recomienda que los equipos los conserven como vía de escape cuando necesiten un control preciso de las dependencias de los effects - Probado extensamente en Meta y con soporte en Expo SDK 54, Vite, Next.js, elimina una categoría de boilerplate de rendimiento que por mucho tiempo fue un costo de trabajar a gran escala con React
- React 19 también introduce Actions y hooks como
useActionStateyuseOptimistic, lo que simplifica el manejo de formularios y la mutación de datos sin depender de librerías externas - En 2025 se lanzó la React Foundation bajo la Linux Foundation — Amazon, Expo, Callstack, Microsoft, Software Mansion y Vercel se unieron a Meta — reforzando la estabilidad de largo plazo de la librería y atendiendo preocupaciones que históricamente citaban los equipos más cautelosos al evaluar su adopción
101. React Native
- Pasa a Adopt como la opción predeterminada para el desarrollo móvil multiplataforma
- Antes estaba en Trial, pero el despliegue de la New Architecture — específicamente JSI y Fabric — resuelve preocupaciones históricas sobre cuellos de botella del bridge y velocidad de arranque
- Se han observado ganancias de rendimiento significativas en transiciones complejas de UI y cargas de trabajo intensivas en datos
- Al alejarse del bridge asíncrono, React Native ahora ofrece una capacidad de respuesta comparable a implementaciones nativas manteniendo una sola base de código
- Se ha usado con éxito en múltiples proyectos en producción, y Expo junto con el ecosistema centrado en React son maduros y estables
- Aunque la gestión de estado sigue requiriendo planeación cuidadosa, las ventajas de productividad del flujo de trabajo de fast refresh y del conjunto de habilidades compartidas superan ese costo
- Es una recomendación principal para la mayoría de los casos de uso móvil híbrido en equipos que buscan rendimiento, consistencia y velocidad
102. Svelte
- Framework de UI en JavaScript que compila componentes a JavaScript optimizado en tiempo de compilación, sin depender de un runtime pesado en el navegador ni de un DOM virtual
- Desde su última mención en Trial, más equipos lo han usado con éxito en producción, y SvelteKit lo ha convertido en una opción más sólida para SSR y aplicaciones web full-stack, aumentando la confianza para moverlo a Adopt
- Las razones originales para elegir Svelte siguen vigentes: genera bundles pequeños, ofrece un sólido rendimiento en runtime y un modelo de componentes más simple
- Nuevas capacidades en Svelte 5 como runes y snippets hacen que la reactividad y la composición de UI sean más explícitas y flexibles
- Frente a frameworks frontend más pesados, ofrece una experiencia de desarrollo más limpia con menos código
- El feedback de los equipos lo presenta cada vez más como una alternativa confiable a React o Vue, no como una opción de nicho
- Aunque aún hay que considerar la familiaridad del ecosistema, la contratación y el encaje con la plataforma, se recomienda como una opción razonable por defecto para construir aplicaciones web modernas donde importan el rendimiento y la simplicidad de entrega
103. Typer
- Librería de Python para construir CLI a partir de funciones con anotaciones de tipo estándar, con texto de ayuda automático, autocompletado de shell y una ruta clara desde scripts pequeños hasta aplicaciones CLI grandes
- Su relevancia crece a medida que los equipos convierten herramientas internas, automatización y flujos de trabajo de desarrollo adyacentes a IA en CLI de primera clase
- Typer es fácil de adoptar en proyectos reales, y los equipos valoran qué tan rápido permite crear comandos claros y legibles
- Sus fortalezas incluyen una API basada en type hints, ayuda y autocompletado automáticos, y una ruta de baja fricción desde scripts simples hasta CLI de múltiples comandos
- Sin embargo, es una solución específica de Python y puede no ser la mejor opción cuando se necesita un comportamiento de CLI altamente personalizado o consistencia entre lenguajes
- Se recomienda para equipos que construyen CLI para flujos de entrega, operación y experiencia de desarrollador
Trial
104. Agent Development Kit (ADK)
- Framework de Google para construir y operar agentes de IA, que ofrece abstracciones orientadas a ingeniería de software para orquestación, herramientas, evaluación y despliegue
- Desde que se incluyó en Assess, su ecosistema y capacidades operativas han madurado de forma importante, con desarrollo multilenguaje activo y funciones más sólidas de observabilidad y runtime
- Los frameworks de agentes nativos de proveedor ahora forman un espacio muy competido — Microsoft Agent Framework, Amazon Bedrock AgentCore, OpenAI Agents SDK, Claude Agent SDK, entre otros, avanzan como opciones competidoras
- Alternativas open source como LangGraph y CrewAI siguen siendo elecciones sólidas para equipos que priorizan la portabilidad del framework y ecosistemas más amplios
- Aunque ADK sigue en estado pre-GA en algunos aspectos, con partes ocasionalmente toscas y fricción en las actualizaciones, se observa un mayor uso exitoso especialmente en proyectos con inversión en la plataforma de Google
105. DeepEval
- Framework open source basado en Python para evaluar el rendimiento de LLM
- También puede usarse para evaluar sistemas y aplicaciones de RAG construidos con frameworks como LlamaIndex o LangChain, así como para líneas base y benchmarks de modelos
- Más allá de métricas simples de coincidencia de palabras, ofrece evaluaciones más confiables en escenarios del mundo real con medición de precisión, relevancia y consistencia
- Incluye capacidades como detección de alucinaciones, puntuación de relevancia de respuestas y optimización de hiperparámetros; resulta especialmente útil la posibilidad de que los equipos definan métricas personalizadas según sus casos de uso
- Recientemente, DeepEval se amplió para dar soporte a flujos de trabajo agentic complejos y sistemas de conversación multiturno
- Además de evaluar la salida final, ofrece métricas integradas para tool correctness, step efficiency y task completion, incluyendo la evaluación de interacciones con servidores MCP
- También incorporó conversation simulation, que genera automáticamente casos de prueba para hacer pruebas de estrés de aplicaciones multigiro a gran escala
106. Docling
- Biblioteca open source de Python y TypeScript para convertir documentos no estructurados en salidas limpias y legibles por máquina
- Usa un enfoque basado en visión por computadora para comprender diseño y semántica, procesando entradas complejas como PDF, incluidos documentos escaneados, hacia formatos estructurados como JSON y Markdown
- Es adecuada para pipelines de RAG y para generar salida estructurada desde LLM, en contraste con enfoques de recuperación centrados primero en visión como ColPali
- Docling ofrece una alternativa open source y autohospedada a servicios propietarios administrados en la nube como Azure Document Intelligence, Amazon Textract y Google Document AI, y se integra bien con frameworks como LangGraph
- Funciona bien en cargas de trabajo de extracción a escala de producción en PDF digitales y escaneados, incluidos archivos muy grandes con texto, tablas e imágenes
- Ofrece un fuerte equilibrio entre calidad y costo para flujos de trabajo agentic RAG downstream
107. LangExtract
- Biblioteca de Python para extraer información estructurada de texto no estructurado a partir de instrucciones personalizadas, con grounding preciso en la fuente que vincula cada entidad extraída con su ubicación en el documento original
- Procesa materiales específicos de dominio como notas clínicas e informes
- Su principal fortaleza es la trazabilidad de la fuente, garantizando que cada dato extraído pueda rastrearse hasta su origen
- Las entidades extraídas pueden exportarse a archivos JSONL, un formato estándar para datos de modelos de lenguaje, y visualizarse con una interfaz HTML interactiva para revisión contextual
- Los equipos que consideren salida estructurada desde LLM para procesamiento documental deberían evaluar LangExtract junto con enfoques de imposición de esquema como Pydantic AI
- LangExtract es más adecuado para materiales fuente largos y no estructurados, mientras que Pydantic AI destaca en restringir el formato de salida para entradas más cortas y predecibles
108. LangGraph
- Desde el Radar anterior, se ha observado que la arquitectura de LangGraph, que trata todos los sistemas multiagente como grafos con estado y un estado global compartido, no siempre es la mejor opción para construir sistemas agentic
- Los enfoques alternativos usados en frameworks como Pydantic AI también funcionan bien
- En lugar de empezar con grafos rígidos y un gran estado compartido, este enfoque prefiere la comunicación simple entre agentes mediante ejecución de código, agregando una estructura de grafo después si hace falta
- En muchos casos de uso, produce sistemas más simples y efectivos, y como cada agente solo accede al estado que necesita, es más fácil razonar, probar y depurar
- Como resultado, se mueve fuera de Adopt; sigue siendo una herramienta potente, pero ya no se considera la opción predeterminada para construir todos los sistemas agentic
109. LiteLLM
- Comenzó como una capa delgada de abstracción sobre múltiples proveedores de LLM y se expandió hasta convertirse en un gateway de IA completo
- Más allá de simplificar la integración de APIs, resuelve preocupaciones transversales comunes de los sistemas GenAI: reintentos y failover, balanceo de carga entre proveedores y seguimiento de costos con control de presupuesto
- Los equipos adoptan cada vez más LiteLLM como una opción predeterminada razonable para aplicaciones impulsadas por IA
- El gateway ofrece un lugar consistente para abordar temas de gobernanza, incluyendo seguimiento de solicitudes, control de acceso, gestión de claves API y guardrails a nivel edge como filtrado de contenido y modificación o enmascaramiento de datos
- Sin embargo, los equipos que dependen de funciones diferenciadas de proveedores suelen necesitar parámetros específicos del proveedor, reintroduciendo el acoplamiento que el gateway busca eliminar
- El modo
drop_paramsdescarta silenciosamente parámetros no soportados, lo que puede provocar pérdida de capacidades sin visibilidad a lo largo de las decisiones de enrutamiento - Es una opción práctica para el control operativo, pero aprovechar capacidades específicas de proveedores implica mantener tanto dependencia del gateway como código acoplado al proveedor
110. Modern.js
- Meta-framework de React de ByteDance, ubicado en Trial para equipos con necesidades de micro frontends basadas en Module Federation
- El detonante fue práctico:
nextjs-mfva rumbo al fin de vida (end-of-life); Pages Router solo recibirá pequeñas correcciones backport, no hay nuevo desarrollo planeado y se espera que las pruebas de CI se eliminen a mediados o finales de 2026 - Ante la falta de soporte oficial de Module Federation en Next.js y la descontinuación gradual del plugin de la comunidad, el equipo central de Module Federation recomienda Modern.js como el framework principal con soporte para arquitecturas basadas en federation
- El plugin
@module-federation/modern-js-v3ofrece de inmediato el cableado automático de build, y streaming SSR y Bridge API pueden usarse como capacidades separadas - Sin embargo, hay límites en la integración:
@module-federation/bridge-reacttodavía no es compatible con entornos Node, por lo que no puede usarse Bridge en escenarios de SSR - La experiencia inicial es positiva, y la ruta de migración está bien definida para equipos que ya usan Module Federation
- El ecosistema fuera de ByteDance todavía está madurando, y necesita documentación más sólida y una participación más estrecha con upstream
- Por ahora, justifica la inversión en casos de uso de Module Federation donde no hay alternativas mejor soportadas
Assess
111. Agent Lightning
- Framework de optimización y entrenamiento de agentes que habilita optimización automática de prompts, ajuste fino supervisado y aprendizaje por refuerzo agentic
- La mayoría de los frameworks de agentes se enfocan en construir agentes, pero no en mejorarlos con el paso del tiempo
- Agent Lightning es compatible con frameworks como AutoGen y CrewAI, y permite mejorar continuamente agentes existentes sin cambiar su implementación base
- Lo logra mediante un enfoque llamado Training-Agent Disaggregation, que introduce una capa entre el entrenamiento y el framework del agente
- Tiene dos componentes centrales: Lightning Server, que administra el proceso de entrenamiento y expone APIs para los modelos actualizados, y Lightning Client, que actúa en tiempo de ejecución recopilando trazas y enviándolas al servidor para apoyar el entrenamiento
- Recomendado para que los equipos con despliegues de agentes ya establecidos exploren formas de mejorar continuamente el rendimiento de sus agentes
112. GitHub Spec Kit
- En las discusiones de este ciclo, destacó el desarrollo guiado por especificaciones, con la aparición de dos grandes bandos: equipos que dependen de la capacidad de mejora continua de los agentes de código con una estructura mínima, y equipos que prefieren flujos de trabajo definidos y especificaciones detalladas
- Varios equipos están experimentando con prácticas spec-driven usando GitHub Spec Kit, principalmente en entornos brownfield
- El concepto central de Spec Kit es la constitution, un libro de reglas básico que alinea el ciclo de vida del desarrollo de software
- En la práctica, una constitution útil suele capturar alcance del proyecto, contexto del dominio, versiones tecnológicas, estándares de código y estructura del repositorio (por ejemplo, arquitectura hexagonal, módulos en capas), para ayudar a que el agente opere dentro de los límites arquitectónicos previstos
- También surgen desafíos como instruction bloat: el conjunto de instrucciones del agente crece al seguir agregando contexto del proyecto y termina en context rot; un equipo lo resolvió extrayendo guías reutilizables como skills, manteniendo concisas las instrucciones del agente y cargando contexto detallado solo cuando es necesario
- En sistemas brownfield, gran parte del retrabajo proviene de intenciones poco claras, supuestos ocultos y descubrimiento tardío de restricciones; un equipo adoptó un ciclo de vida spec → plan → tasks → coding → review para ayudar a hacer visibles esos problemas antes
- Con el tiempo, movieron el contexto repetible a archivos como
.github/prompts/speckit.<command>.prompt.md, acortando los prompts y haciendo más consistente el comportamiento del agente - Se reportaron aspectos toscos como validaciones defensivas innecesarias y salidas en markdown excesivamente verbosas
- Algunos de esos problemas se resolvieron personalizando las plantillas e instrucciones de Spec Kit (por ejemplo, limitando la cantidad de archivos markdown generados y reduciendo la verbosidad en consola)
- En última instancia, los ingenieros con experiencia y con prácticas sólidas de código limpio y arquitectura son quienes extraen más valor de los flujos de trabajo spec-driven
113. Mastra
- Framework open source nativo de TypeScript para construir aplicaciones y agentes de IA
- Ofrece un motor de flujos de trabajo basado en grafos, un enfoque integrado para múltiples proveedores de LLM, pausas y reanudaciones human-in-the-loop, además de primitivas de RAG y memoria
- También incluye herramientas integradas para crear servidores MCP y para evaluación y observabilidad, con documentación clara para desarrolladores
- Mastra ofrece una alternativa a stacks pesados basados en Python, permitiendo que los equipos construyan directamente capacidades avanzadas de IA dentro de ecosistemas web existentes como Node.js o Next.js
- Vale la pena evaluarlo para equipos invertidos en el ecosistema TypeScript que quieren evitar cambiar a Python para la capa de IA
114. Pipecat
- Framework open source para crear agentes de voz en tiempo real y multimodales con un modelo de pipeline modular para orquestación de STT, LLM, TTS y transporte
- Ha despertado fuerte interés porque permite a los equipos iterar rápido sobre el comportamiento conversacional y cambiar de proveedor con fricción relativamente baja
- Frente a LiveKit Agents, Pipecat ofrece mayor flexibilidad del framework, pero una ruta a producción menos integrada, especialmente en despliegues autohospedados, confiabilidad del transporte y manejo de turnos de baja latencia a gran escala
- Ofrece una base sólida orientada a la ingeniería, pero antes de depender de él para cargas de trabajo de producción críticas para el negocio, requiere un trabajo considerable de ingeniería de plataforma
115. Superpowers
- A medida que aumenta el uso de agentes de código, no existe un único flujo de trabajo prescrito para todos los equipos; en cambio, estos están evolucionando flujos de trabajo personalizados según su contexto y restricciones
- Superpowers es uno de esos flujos de trabajo, construido con skills componibles
- Envuelve a los agentes de código como skills dentro de flujos de trabajo estructurados, fomentando brainstorming antes de programar, planificación detallada antes de implementar, TDD con ciclos red-green-refactor obligatorios, depuración sistemática priorizando la causa raíz y revisión de código después de implementar
- Se distribuye como plugin a través de Claude Code plugin marketplace y Cursor plugin marketplace
116. TanStack Start
- Framework full-stack para React y Solid construido sobre TanStack Router, comparable con Next.js, con soporte para SSR, caché y muchas de las mismas capacidades
- TanStack Start ofrece seguridad end-to-end en tiempo de compilación para funciones de servidor, loaders y routing, reduciendo el riesgo de enlaces rotos o formas de datos inconsistentes en el frontend
- Prefiere la configuración explícita por encima de las convenciones, y la experiencia se siente más cercana a trabajar con React puro
- Sus capacidades de SSR pueden agregarse gradualmente según sea necesario
- Frente a Next.js, que tiene valores predeterminados más opinados y puede provocar comportamientos inesperados si no se conocen bien sus mecanismos internos, resulta más explícito y predecible
- El ecosistema de TanStack también ha madurado mucho y ofrece un conjunto potente de herramientas para construir aplicaciones web modernas
117. TOON (Token-Oriented Object Notation)
- Codificación legible por humanos de datos JSON diseñada para reducir el uso de tokens cuando se transmite información estructurada a un LLM
- Permite mantener JSON en los sistemas existentes y convertirlo solo en los puntos de interacción con el modelo
- El costo de tokens, la latencia y las limitaciones de la ventana de contexto se están convirtiendo en consideraciones reales de diseño en pipelines de RAG, flujos de trabajo de agentes y otras aplicaciones con fuerte carga de IA
- El JSON crudo a menudo consume tokens en claves repetidas y sobrecarga estructural más que en contenido útil
- En evaluaciones iniciales, TOON parece una interesante optimización de última milla para entradas de prompts, especialmente en datasets grandes y regulares donde un formato con conciencia de esquema es más eficiente y más fácil de procesar para el modelo que JSON
- No reemplaza a JSON en APIs, bases de datos ni salidas del modelo, y suele ser una mala elección para estructuras profundamente anidadas o no uniformes, arreglos semuniformes y datos tabulares planos donde CSV es más compacto
- También puede ser menos adecuado para rutas críticas sensibles a la latencia, donde JSON compacto funciona bien
- Vale la pena evaluarlo para equipos que construyen aplicaciones con LLM donde el tamaño de las entradas estructuradas representa un costo o una preocupación de calidad significativa, aunque conviene compararlo con JSON o CSV usando sus propios datos y stack de modelos
118. Unsloth
- Framework open source enfocado en hacer que el ajuste fino y el aprendizaje por refuerzo de LLM sean considerablemente más rápidos y eficientes en memoria
- El ajuste fino de LLM incluye decenas de miles de millones de multiplicaciones de matrices, lo que se beneficia de la aceleración por GPU, y Unsloth optimiza estas operaciones convirtiéndolas en kernels personalizados de alta eficiencia para GPUs NVIDIA, reduciendo drásticamente el costo y el uso de memoria
- Hace posible ajustar modelos en GPUs de consumo T4 o superiores en lugar de costosos clústeres H100
- Soporta LoRA, ajuste fino completo, entrenamiento multi-GPU y ajuste fino con contexto largo (hasta 500K tokens), para modelos populares como Llama, Mistral, DeepSeek-R1, Qwen y Gemma
- A medida que las aplicaciones de IA específicas de dominio dependen cada vez más del ajuste fino, Unsloth reduce de forma significativa la barrera de entrada
Aún no hay comentarios.