Publicado Thoughtworks Technology Radar, Volumen 34

(thoughtworks.com)

12 puntos por GN⁺ 13 일 전 | Aún no hay comentarios. | Compartir por WhatsApp

Visualiza y explica las tendencias más recientes en las áreas de técnicas/herramientas/plataformas/lenguajes y frameworks de desarrollo en cuatro etapas: "adoptar, probar, evaluar, precaución"
Cuatro temas clave: la era de los agentes y la evaluación tecnológica, mantener los principios pero revisar los patrones, los problemas de seguridad de los agentes, y los arneses para agentes de codificación

Los retos de evaluar tecnología en la era de los agentes

La adopción de IA está haciendo más difícil la evaluación tecnológica en sí, y debido a la difusión semántica (semantic diffusion) aparecen nuevos términos rápidamente antes de que su significado se estabilice
- Términos como spec-driven development y harness engineering se usan de forma inconsistente o con significados superpuestos
- La falta de definiciones compartidas dificulta saber si son técnicas distintas o nombres diferentes para el mismo concepto
Sigue siendo un reto constante distinguir entre metodologías de ingeniería maduras e independientes y el uso cotidiano de herramientas de IA como los asistentes de codificación
La velocidad del cambio incrementa la incertidumbre, con muchas herramientas de menos de un mes de existencia, algunas mantenidas por un solo colaborador junto con un agente de codificación
- Si se espera a que la herramienta madure, la guía se vuelve obsoleta; si se actúa rápido, existe el riesgo de resaltar tendencias que desaparecerán pronto
- Esto plantea dudas sobre la sostenibilidad de cosas que pueden crearse rápido y con poco esfuerzo
Deuda cognitiva del codebase (Codebase Cognitive Debt)
- A medida que aumenta el código generado por IA, se vuelve más fácil adoptar soluciones sin un modelo mental de cómo funcionan
- Si esa brecha de comprensión se acumula, se vuelve más difícil razonar sobre el sistema, depurarlo y hacerlo evolucionar

Mantener los principios, pero revisar los patrones

La IA no solo nos hace mirar al futuro, también está haciendo que revisitemos los fundamentos del craftsmanship de software
- Se vuelven a poner bajo foco prácticas existentes como pair programming, arquitectura zero trust, mutation testing y métricas DORA
- Se reafirma como prioridad de primer nivel principios clave como código limpio, diseño intencional, capacidad de prueba y accesibilidad
No se trata de nostalgia, sino de un contrapeso indispensable frente a la velocidad con la que las herramientas de IA generan complejidad
El regreso de la línea de comandos, que durante años fue abstraída por razones de usabilidad, mientras que las herramientas agentic están llevando otra vez a los desarrolladores al terminal
El desarrollo asistido por IA representa un cambio fundamental en la práctica de ingeniería, y exige repensar la colaboración y la estructura de los equipos
- Es necesario considerar las agent topologies junto a las team topologies y rediseñar los ciclos de retroalimentación
- Técnicas como measuring collaboration quality with coding agents están redefiniendo la propia definición de desarrollador de software
En un entorno impulsado por IA, la gestión de la deuda cognitiva es un reto clave, y sigue siendo importante mantener el principio de que "la velocidad sin disciplina incrementa los costos"

Los problemas de seguridad de los agentes hambrientos de permisos

"Permission hungry" describe el dilema esencial de la situación actual de los agentes: cuanto más valioso es un agente, más acceso necesita a todo
- OpenClaw y Claude Cowork supervisan trabajo real
- Gas Town coordina enjambres de agentes a lo largo de todo el codebase
- Requieren acceso amplio a datos privados, comunicaciones externas y sistemas reales
Las salvaguardas no han logrado seguirle el ritmo a esta ambición, y por prompt injection los modelos no pueden distinguir de forma confiable entre instrucciones confiables y entradas no confiables
La definición de "lethal trifecta" de Simon Willison —datos privados, contenido no confiable y acciones externas— aplica a la mayoría de los agentes útiles como configuración predeterminada, no por una mala configuración
También existen amenazas aparte de la inyección, como la inconsistencia en el comportamiento del modelo
- No hay garantía de que una tarea que funcionó una vez vuelva a funcionar la siguiente
- Incluso sin mala intención, los agentes encuentran rutas creativas de fuga, hacen push a ramas que no deberían tocar y anulan checkpoints de aprobación/rechazo
Lo que hoy puede hacerse —zero trust, mínimo privilegio, mejoras del modelo y defensa en profundidad— son condiciones básicas, pero no existe una solución única
Los sistemas de agentes seguros no deben construirse como un agente monolítico, sino como un pipeline de agentes más restringidos, con monitoreo y control sólidos
- Agent Skills puede usarse como alternativa controlable a MCP
- Los durable agents y las técnicas para evitar agent instruction bloat apuntan en esa dirección
Como este espacio evoluciona rápidamente, la cautela es esencial para evitar errores costosos

Ponerle rienda a los agentes de codificación

A medida que mejora el desempeño de los agentes de codificación, crece la tentación de sacar al humano del loop, y por eso los equipos han empezado a invertir en coding agent harnesses
- Son mecanismos de control que guían el comportamiento del agente antes de generar código y luego le permiten autocorregirse con retroalimentación posterior
Control feedforward
- Consiste en proporcionar por adelantado lo necesario para aumentar la probabilidad de acertar en el primer intento
- Agent Skills representa un avance importante, al modularizar instrucciones y convenciones y cargarlas cuando se necesitan
- Superpowers es un ejemplo de catálogo útil de skills para equipos de software
- Está surgiendo el concepto de plugin marketplaces, que facilita distribuir skills y configuraciones de contexto
- Los frameworks de spec-driven development —como GitHub Spec-Kit y OpenSpec— estructuran los flujos de trabajo de planificación, diseño e implementación
Control por feedback
- Se observa el comportamiento del agente después de actuar para crear un loop de autocorrección
- Los feedback sensors for coding agents —compiladores, linters, type checkers y suites de pruebas, como quality gates deterministas— se integran directamente en el workflow del agente
  - Si fallan, disparan una corrección automática antes de la revisión humana
- Entre los ejemplos de este Radar están cargo-mutants y herramientas de mutation testing, herramientas de fuzz testing como WuppieFuzz, y herramientas de análisis de calidad de código como CodeScene
- Además del feedback en el loop, también hay casos de reducción del architectural drift al combinar reglas estructurales deterministas con evaluación basada en LLM

[Techniques]

Adopt

1. Context engineering

Técnica que ha evolucionado hasta convertirse en una preocupación arquitectónica central de los sistemas modernos de IA; a diferencia del prompt engineering, que se concentra en la redacción, trata la ventana de contexto como una superficie de diseño y construye intencionalmente el entorno informativo de la IA
Cuanto más procesan los agentes tareas complejas, más el enfoque de volcar datos crudos en ventanas de contexto grandes provoca "context rot" y deterioro del razonamiento, por lo que se está pasando de prompts estáticos y monolíticos a progressive context disclosure
Context setup reduce costos y mejora el tiempo hasta el primer token precargando instrucciones estáticas con prompt caching, mientras que Dynamic retrieval va más allá del RAG básico hacia la selección de herramientas y la carga únicamente de los servidores MCP necesarios
Los Context graphs modelan razonamiento institucional como políticas, excepciones y precedentes como datos estructurados y consultables, y stateful compression junto con subagentes resume salidas intermedias en workflows de larga duración
Tratar el contexto de IA como una caja de texto estática es el camino más corto hacia las alucinaciones; para construir agentes empresariales robustos, el contexto debe diseñarse como un pipeline dinámico y gestionado con precisión

2. Instrucciones compartidas curadas para equipos de software

Considera un antipatrón que cada desarrollador redacte prompts desde cero, y propone tratar la guía de IA como un activo de ingeniería colaborativo, no un flujo de trabajo personal
Al inicio se enfocó en mantener una biblioteca de prompts genéricos para tareas comunes, pero ahora ha evolucionado hacia un enfoque en el que las instrucciones se anclan directamente en plantillas de servicio
- Archivos de instrucciones como CLAUDE.md, AGENTS.md y .cursorrules se colocan en el repositorio base para el scaffolding de nuevos servicios
También explora una práctica relacionada de anclar los agentes de código a aplicaciones de referencia, donde una base de código viva y compilable actúa como la única fuente de verdad
Cuando evolucionan la arquitectura y los estándares de código, tanto la app de referencia como las instrucciones embebidas pueden actualizarse, y los nuevos repositorios heredan por defecto los flujos de trabajo y reglas más recientes para agentes

3. Métricas DORA

Métricas definidas por el programa de investigación DORA, que incluyen lead time de cambios, frecuencia de despliegue, MTTR, tasa de fallas por cambios y una nueva quinta métrica: rework rate
Rework rate es una métrica de estabilidad que mide la proporción del pipeline de entrega del equipo que se consume en rehacer trabajo ya completado, como bugs o defectos reportados por usuarios
En la era del desarrollo asistido por IA, las métricas DORA son más importantes que nunca; medir la productividad por la cantidad de líneas de código generadas por IA resulta engañoso
- Sin una reducción del lead time y un aumento de la frecuencia de despliegue, generar código más rápido no se traduce en mejores resultados
- Las métricas de estabilidad, especialmente una caída en el rework rate, alertan tempranamente sobre los puntos ciegos, la deuda técnica y los riesgos del desarrollo asistido por IA sin criterio
Más que construir dashboards complejos, mecanismos simples como check-ins durante retrospectivas son más efectivos para mejorar capacidades

4. Passkeys

Credenciales FIDO2 lideradas por la FIDO Alliance y respaldadas por Apple, Google y Microsoft, que usan criptografía asimétrica de clave pública para reemplazar contraseñas
La clave privada se almacena en el enclave seguro basado en hardware del dispositivo del usuario, protegida con biometría o PIN y sin salir al exterior; cada credencial queda vinculada al origen del dominio de la relying party, lo que le da resistencia estructural al phishing
El phishing causa más de un tercio de todas las brechas de datos; el FIDO Alliance Passkey Index 2025 reporta más de 15 mil millones de cuentas elegibles en todo el mundo, Google mejoró en 30% la tasa de éxito de inicio de sesión entre 800 millones de usuarios, y Amazon verificó inicios de sesión 6 veces más rápido que con métodos tradicionales
NIST SP 800-63-4 (julio de 2025) reclasifica las synced passkeys como compatibles con AAL2, y reguladores de EAU, India y agencias federales de EE. UU. exigen autenticación resistente al phishing para sistemas financieros y gubernamentales
Con FIDO Credential Exchange Protocol se logra portabilidad segura entre gestores de credenciales, y proveedores de identidad importantes como Auth0, Okta y Azure AD lo soportan como funcionalidad de primera clase, simplificando la implementación de meses de trabajo a un proyecto de 2 sprints
- Hay que diseñar con cuidado la recuperación de cuentas y evitar rutas de respaldo vulnerables al phishing, como SMS OTP
- Para escenarios AAL3 (como acceso privilegiado), siguen siendo necesarias credenciales vinculadas al dispositivo mediante llaves de seguridad de hardware

5. Salida estructurada de LLMs

Práctica de restringir al modelo para que responda en un formato predefinido como JSON o una clase de un lenguaje de programación específico
Permite entregar resultados confiables en producción y se considera el valor por defecto razonable para aplicaciones que consumen respuestas de LLM de forma programática
Todos los principales proveedores de modelos ofrecen modos nativos de salida estructurada, aunque el subconjunto de JSON Schema que soportan varía y las APIs evolucionan rápidamente
La biblioteca Instructor o el framework Pydantic AI ofrecen abstracciones confiables con validación y reintentos automáticos; para generar restricciones con modelos self-hosted se recomienda Outlines

6. Arquitectura zero trust

Con la entrada a la era de los agentes, es el valor por defecto razonable para enfrentar riesgos de seguridad al dar autonomía a sistemas impredecibles
"Nunca confíes, siempre verifica"; recomienda tratar la seguridad basada en identidad y el principio de acceso de mínimo privilegio como la base de cualquier despliegue de agentes
Aplicar estándares como SPIFFE a los agentes ayuda a construir una base sólida de identidad y habilita autenticación granular en entornos dinámicos
El monitoreo y la verificación continuos del comportamiento de los agentes son claves para gestionar amenazas de forma proactiva
Además de los despliegues de agentes, prácticas como la suplantación OIDC de GCP pueden adoptarse en pipelines de CI/CD y otros contextos, reemplazando claves estáticas de largo plazo por tokens de corta duración emitidos tras verificar la identidad
Recomienda tratar los principios de ZTA como un valor por defecto no negociable, sin importar el sistema de construcción

Trial

7. Agent Skills

A medida que los agentes de IA evolucionan de interfaces de chat simples a ejecución autónoma de tareas, la ingeniería de contexto se vuelve un desafío central; Agent Skills empaqueta recursos relevantes como instrucciones, scripts ejecutables y documentación para ofrecer un estándar abierto de modularización del contexto
El agente carga las skills solo cuando las necesita según su descripción, lo que reduce el consumo de tokens y mitiga el agotamiento de la ventana de contexto y el problema de agent instruction bloat
Se está adoptando rápidamente no solo en agentes de código, sino también en asistentes personales como OpenClaw; muchos casos de uso pueden resolverse eficazmente haciendo que el agente apunte a un CLI local o a scripts, una de las razones por las que los equipos se están volviendo más cautelosos con el uso predeterminado de MCP
Los plugin marketplaces están surgiendo como forma de versionar y compartir skills, y hay muchas exploraciones en marcha sobre cómo evaluar su efectividad
Reutilizar skills de terceros sin revisión puede provocar graves riesgos de seguridad en la cadena de suministro, por lo que se requiere precaución

8. Pruebas de componentes basadas en navegador

Aunque antes no se recomendaban herramientas basadas en navegador (por ser difíciles de configurar, lentas y flaky), hoy han mejorado mucho y ahora son un enfoque viable y preferido con herramientas como Playwright
Al ejecutar pruebas en un navegador real, el código corre en un entorno que coincide con donde realmente se ejecuta, lo que ofrece mayor consistencia
La penalización de rendimiento se ha reducido a un nivel aceptable, y la flakiness también ha bajado, por lo que aporta más valor que entornos emulados como jsdom

9. Sensores de retroalimentación para agentes de código

Para hacer más efectivos a los agentes de código y reducir la carga de los revisores humanos, se necesitan bucles de retroalimentación a los que el propio agente pueda acceder directamente, actuando como una forma de backpressure
Durante mucho tiempo los desarrolladores han dependido de compuertas de calidad deterministas como compiladores, linters, pruebas estructurales y suites de pruebas; conectarlas a flujos de trabajo agentic permite activar autocorrecciones oportunas ante fallas
Puede implementarse de distintas maneras, como introducir un agente revisor encargado de ejecutar verificaciones y detonar correcciones, o exponer verificaciones como un proceso complementario que corre en paralelo
Gracias a los agentes de código, el costo de construir linters personalizados y pruebas estructurales ha bajado, fortaleciendo los bucles de retroalimentación
Siempre que sea posible, ejecutarlas durante la sesión de código y no después del commit, para que se reporten resultados limpios antes de confirmar cambios

10. Mapping code smells to refactoring techniques

Técnica para indicar al agente que maneje un problema específico con un enfoque definido
La primera capa orienta al agente con referencias generales como Refactoring para casos comunes; para problemas más especializados, usa Agent Skills, comandos con slash y AGENTS.md para mapear smells específicos a técnicas concretas
Al integrarse con herramientas de linting, genera retroalimentación determinística que activa el enfoque de refactorización adecuado cada vez que se detecta un smell
Especialmente efectivo en stacks legacy como .NET Framework 2.0 o Java 8, útil cuando faltan datos de entrenamiento generales
Sin instrucciones orientadas al objetivo, los agentes tienden a optar por patrones generales en lugar de requisitos específicos

11. Mutation testing

La señal más honesta para evaluar la capacidad real de detectar defectos de una suite de pruebas; a diferencia de la cobertura de código tradicional, que solo rastrea la ejecución de líneas, introduce bugs intencionales (mutations) en el código fuente para comprobar si las pruebas fallan cuando se rompe el comportamiento
Si una mutación no se detecta, revela una brecha en la validación y no solo falta de cobertura; esto es especialmente importante en la era del desarrollo asistido por IA, donde una cobertura alta puede ocultar pruebas lógicamente vacías o código generado que no se valida de forma significativa
A medida que se generalizan los casos de prueba generados por IA, sirve como una capa de refuerzo para detectar pruebas "perpetuamente verdes" que siguen pasando sin importar cambios en la lógica debido a assertions faltantes o mocks aislados
Con herramientas como Stryker, Pitest y cargo-mutants, el foco se desplaza a cuánto código realmente está siendo validado dentro de la lógica central del dominio

12. Progressive context disclosure

Técnica dentro de la práctica de Context engineering, que en lugar de abrumar preventivamente al agente con instrucciones le da una etapa ligera de descubrimiento para que elija lo necesario según el prompt del usuario
Adecuada para escenarios de RAG, donde el agente primero identifica el dominio relevante a partir de la consulta del usuario y luego recupera instrucciones y datos específicos
Es el mismo enfoque con el que muchas herramientas de codificación agentic manejan Agent Skills: en vez de un único conjunto monolítico de instrucciones lleno de condiciones y advertencias, primero determinan qué skill aplica a la tarea y luego cargan instrucciones detalladas
Al construir sistemas agentic, es fácil caer en la trampa de inflar las instrucciones con interminables reglas de "DO" y "DO NOT", lo que al final degrada el rendimiento
Mantiene la ventana de contexto concisa y ayuda a evitar el context rot

13. Sandboxed execution for coding agents

Práctica de ejecutar agentes en entornos aislados con acceso limitado al sistema de archivos, conexiones de red controladas y uso restringido de recursos
A medida que los agentes de código ganan autonomía para ejecutar código, hacer builds e interactuar con el sistema de archivos, el acceso sin límites genera riesgos reales, desde daños accidentales hasta exposición de credenciales, por lo que es un valor predeterminado razonable y no una mejora opcional
El espectro de opciones de sandboxing es amplio: muchos agentes de código ya ofrecen modos sandbox integrados, y Dev Containers proporcionan un aislamiento familiar basado en contenedores
Shuru arranca microVMs efímeras que se reinician en cada ejecución, mientras que Sprites ofrece entornos con estado y soporte de checkpoint/restore
Para aislamiento nativo en Linux, Bubblewrap ofrece sandboxing ligero basado en namespaces; en macOS, sandbox-exec brinda una protección similar
Más allá del aislamiento base, también hay que considerar todo lo necesario para builds y pruebas, autenticación segura y simple con servicios como GitHub y proveedores de modelos, port forwarding y suficiente CPU y memoria
Decidir si el sandbox debe ser efímero por defecto o persistente para recuperación de sesiones es una decisión de diseño que depende de las prioridades de seguridad, costo y continuidad del flujo de trabajo

14. Semantic layer

Técnica de arquitectura de datos que introduce una capa compartida de lógica de negocio entre los almacenes de datos y las aplicaciones consumidoras como herramientas de BI, agentes de IA y APIs
Centraliza definiciones de métricas, joins, reglas de acceso y términos de negocio para que los consumidores compartan las mismas definiciones; aunque es un concepto anterior al stack moderno de datos, ha resurgido el interés gracias a enfoques code-first como los metrics stores
Sin una capa semántica, la lógica de negocio termina dispersa entre tablas ad hoc del warehouse, dashboards y aplicaciones downstream, y las definiciones de métricas divergen silenciosamente
El problema se agrava con la IA agentic: cuando un LLM hace una traducción ingenua de texto a SQL, los resultados erróneos son frecuentes, especialmente cuando reglas de negocio como el reconocimiento de ingresos están fuera del esquema
Las plataformas cloud ya están integrando directamente una capa semántica: Snowflake la llama Semantic Views, Databricks la llama Metric Views, y herramientas independientes como dbt MetricFlow y Cube ofrecen una capa portable entre sistemas
El reciente lanzamiento de Open Semantic Interchange (OSI) v1.0, con soporte de múltiples proveedores, señala una expansión de la estandarización y la interoperabilidad entre plataformas de analítica, IA y BI
El principal costo es la inversión inicial en modelado de datos; se recomienda comenzar con un solo dominio en vez de desplegarlo en toda la empresa

15. Server-driven UI

Separa el renderizado en contenedores genéricos y hace que el servidor entregue la estructura y los datos, permitiendo a los equipos móviles evitar largos ciclos de revisión en las app stores en cada iteración
Mediante formatos basados en JSON, habilita actualizaciones en tiempo real y mejora significativamente el tiempo de salida, mientras patrones ya consolidados en empresas como Airbnb y Lyft reducen la complejidad
Antes se advertía que podía convertirse en un "desastre horrible y excesivamente configurable" creado por frameworks propietarios, pero hoy es más fácil justificar la inversión en aplicaciones a gran escala
Sigue requiriendo un caso de negocio sólido y una ingeniería disciplinada; es importante evitar crear un "protocolo dios" difícil de mantener
Se recomienda aplicarlo a áreas altamente dinámicas y no como reemplazo de todo el desarrollo de UI de la aplicación

Assess

16. Agentic reinforcement learning environments

Campo de entrenamiento para agentes basados en LLM que combina contexto, herramientas y retroalimentación para completar tareas de múltiples pasos
Este enfoque reconfigura el postentrenamiento de LLM desde una simple salida de un solo turno hacia comportamientos agentic como razonamiento y uso de herramientas, asignando recompensas o penalizaciones a cada acción
Técnicas como RLVR garantizan que las recompensas sean verificables y resistentes a la gamificación
Actualmente, los laboratorios de investigación en IA lideran el desarrollo, especialmente para agentes de codificación y de uso de computadoras; Composer de Cursor es un ejemplo fuera de los laboratorios frontier, con un modelo especializado de codificación entrenado dentro de un entorno de producto
La aparición de frameworks y plataformas como Environments Hub de Prime Intellect, Agent Lightning y NVIDIA NeMo Gym está simplificando el proceso

17. Reducción del architecture drift con LLM

Con el aumento en el uso de agentes de codificación con IA, se acelera el drift respecto al codebase y al diseño de arquitectura previstos; si se deja sin atender, agentes y humanos replican patrones existentes (incluidos los degradados), lo que compone el drift y forma un ciclo de retroalimentación donde el mal código produce código todavía peor
Se combinan herramientas de análisis determinístico (Spectral, ArchUnit, Spring Modulith) con evaluación basada en LLM para detectar tanto violaciones estructurales como semánticas
Se aplica a la definición de zonas de arquitectura que hacen cumplir lineamientos de calidad de API en todos los servicios y guían mejoras en lo generado por agentes
Como en el linting tradicional, un escaneo inicial suele sacar a la superficie muchas violaciones, por lo que se necesita clasificación y priorización; los LLM ayudan en ello
Mantener las correcciones generadas por agentes pequeñas y enfocadas facilita la revisión, y es indispensable un bucle adicional de verificación para confirmar que los cambios mejoran el sistema sin introducir regresiones
Extiende la idea de feedback sensors for coding agents a etapas más tardías del ciclo de entrega; en palabras del equipo de OpenAI, la reducción del drift funciona como una forma de "recolección de basura"

18. Code intelligence as agentic tooling

Los LLM procesan código como un flujo de tokens y no tienen comprensión nativa de grafos de llamadas, jerarquías de tipos ni relaciones entre símbolos
Para navegar código, hoy la mayoría de los agentes de codificación usan por defecto búsqueda basada en texto (el denominador común más potente entre todos los lenguajes); para un refactor que en un IDE sería un atajo rápido, el agente necesita generar varios diff de texto
El agente consume una cantidad considerable de tokens reconstruyendo información que ya existe en el AST
Dar a los agentes acceso a herramientas conscientes del AST, por ejemplo mediante el Language Server Protocol (LSP), permite realizar como acciones de primera clase operaciones como “encontrar todas las referencias a este símbolo” o “renombrar este tipo en todas partes”
Herramientas de codemod como OpenRewrite operan sobre una representación de código más rica, Lossless Semantic Tree (LST), y delegar tareas adecuadas a herramientas determinísticas reduce ediciones alucinadas y el consumo de tokens
Claude Code, OpenCode y otros se integran con servidores LSP ejecutados localmente; JetBrains ofrece un servidor MCP que expone la navegación y refactorización del IDE a agentes externos, y el servidor MCP de Serena ofrece búsqueda y edición semántica de código

19. Context graph

Técnica de representación del conocimiento que modela decisiones, políticas, excepciones, precedentes, evidencia y resultados como nodos conectados de primera clase en un grafo, estructurado para consumo por IA
Si los sistemas de registro capturan qué ocurrió, el context graph captura el por qué: convierte el razonamiento institucional enterrado en hilos de Slack, cadenas de aprobación y en la cabeza de las personas en una estructura legible por máquina y consultable
Es esencial para la efectividad de los agentes; por ejemplo, si un agente que procesa una excepción de descuento no puede determinar si se trata de una política estándar o de una anulación puntual, razonará mal; un context graph permite recorrer el rastro de decisión, aplicar precedentes relevantes e inferir cadenas causales de múltiples saltos al exponer directamente la procedencia
A diferencia de GraphRAG, que se construye a partir de un corpus documental estático, un context graph mantiene validez temporal en cada arista; los hechos reemplazados no se sobrescriben, sino que se invalidan
Vale la pena evaluarlo en aplicaciones agentic que requieren memoria persistente entre sesiones o razonamiento de decisiones trazable

20. Feedback flywheel

Los equipos que trabajan con agentes de codificación están adoptando cada vez más flujos de trabajo de spec-driven development; sin importar si usan frameworks ligeros u opinionated, siguen el flujo spec → plan → implement
El Feedback flywheel amplía este flujo con un paso adicional enfocado en la mejora continua del harness del coding agent
Similar a una retrospectiva, el equipo captura éxitos y fallas durante las sesiones con agentes de codificación y los usa para mejorar la predictibilidad de sesiones futuras, con efecto compuesto a lo largo del tiempo
Es una técnica meta en la que el human on the loop se enfoca en mejorar controles feedforward como curated shared instructions y feedback sensors for coding agents
El siguiente nivel es el agentic feedback flywheel, donde el agente decide las mejoras necesarias con base en la retroalimentación acumulada; por ahora, todavía se necesita human-in-the-loop para evitar context rot y retroalimentación ruidosa que pueda desviar a los agentes
A medida que el entorno evoluciona, sirve para evaluar el harness completo del coding agent, especialmente al adoptar nuevos modelos, ya que lo que funcionó con uno puede volverse innecesario con el siguiente

21. HTML Tools

las herramientas agentic facilitan crear utilidades pequeñas y específicas para cada tarea, por lo que el reto principal es cómo desplegarlas y compartirlas
HTML Tools es un enfoque para empaquetar scripts o utilidades compartibles en un solo archivo HTML
se ejecutan directamente en el navegador, pueden alojarse en cualquier parte o simplemente compartirse como archivo, evitando la sobrecarga de distribuir herramientas CLI que requieren compartir binarios o usar gestores de paquetes
es más simple que construir una aplicación web completa con hosting dedicado
desde la perspectiva de seguridad, ejecutar archivos no confiables sigue implicando riesgos, aunque el sandbox del navegador y la posibilidad de inspeccionar el código fuente ofrecen cierta mitigación
para utilidades ligeras, un solo archivo HTML ofrece una forma muy accesible y portable

22. Evaluación de LLM usando entropía semántica

la confabulación (confabulation), una forma de alucinación en aplicaciones de preguntas y respuestas con LLM, es difícil de resolver con métodos de evaluación tradicionales
un enfoque usa entropía de la información para medir la incertidumbre analizando la variación léxica de las salidas ante una entrada dada
la evaluación de LLM con semantic entropy amplía esta idea al enfocarse en las diferencias de significado más que en variaciones superficiales
al evaluar significado en lugar de secuencias de palabras, puede aplicarse a distintos datasets y tareas sin conocimiento previo y generaliza bien a tareas desconocidas
ayuda a identificar prompts que probablemente induzcan confabulación y a recomendar cautela cuando sea necesario
la entropía ingenua a menudo no detecta la confabulación, y semantic entropy es más efectiva para filtrar afirmaciones falsas

23. Medición de la calidad de la colaboración con agentes de código

al usar agentes de código se observan mejoras reales de productividad, pero la mayoría de las métricas de evaluación todavía se enfocan demasiado en coding throughput, como el tiempo hasta la primera salida, las líneas de código generadas o las tareas completadas
para evitar que los equipos caigan en la trampa de la velocidad (speed trap), el foco debe cambiar a qué tan eficazmente colaboran humanos y agentes
métricas como first-pass acceptance rate, ciclos de iteración por tarea, retrabajo después del merge, builds fallidos y carga de revisión ofrecen señales más significativas que la velocidad por sí sola
los equipos que usan Claude Code pueden generar con el comando /insights reportes que reflejan éxitos y desafíos de las sesiones del agente, y también experimentan con el seguimiento del first-pass acceptance mediante un comando /review personalizado
ciclos de retroalimentación cortos y una reducción de builds fallidos son indicadores de interacciones más efectivas con el agente
a nivel de equipo, y no individual, dar seguimiento a la calidad de la colaboración junto con métricas DORA permite construir una visión más completa de la adopción de agentes de código

24. MITRE ATLAS

los sistemas agentic y las herramientas de código introducen nuevas arquitecturas y amenazas de seguridad emergentes
MITRE ATLAS es una base de conocimiento de tácticas y técnicas adversarias dirigidas a sistemas de IA y ML
está diseñado como un complemento más enfocado del marco más amplio MITRE ATT&CK y ofrece una clasificación de amenazas para pipelines de ML, aplicaciones con LLM y sistemas agentic
sin un vocabulario compartido, los riesgos de seguridad suelen pasarse por alto o reducirse a un ejercicio de checklist, y ATLAS ayuda a evitarlo
se basa en el estudio de incidentes reales y patrones técnicos, y los equipos pueden usar el marco para apoyar el modelado de amenazas
es un complemento natural para marcos de control como SAIF, y ayuda a describir el panorama cambiante de amenazas en sistemas de IA

25. Ralph loop

técnica de agentes autónomos de código, también conocida como Wiggum loop, en la que se alimenta al agente con un prompt fijo en un bucle infinito
cada iteración comienza con una nueva ventana de contexto: el agente elige una tarea a partir de la especificación o el plan, la implementa y reinicia el bucle con un nuevo contexto
la idea central es la simplicidad: en lugar de coordinar teams of coding agents o coding agent swarms, un solo agente trabaja de forma autónoma sobre la especificación, con la expectativa de que el código converja hacia ella a través de iteraciones repetidas
usar una nueva ventana de contexto en cada iteración evita la degradación de calidad causada por el contexto acumulado, a costa de un gasto considerable de tokens
herramientas como goose implementan este patrón y, en algunos casos, lo amplían con revisión cruzada entre modelos en distintas iteraciones

26. Ingeniería inversa para sistemas de diseño

las organizaciones a menudo lidian con interfaces heredadas fragmentadas donde los "estándares de diseño" solo existen como una colección dispersa de páginas web, materiales de marketing y capturas de pantalla
históricamente, auditar estos artefactos para sentar una base unificada ha sido un proceso manual y lento
con LLM multimodales es posible automatizar esta extracción y hacer ingeniería inversa de un sistema de diseño a partir de activos visuales existentes
al alimentar sitios web, capturas de pantalla y fragmentos de UI a herramientas especializadas o modelos de IA con visión, los equipos pueden extraer tokens de diseño centrales como paletas de color, escalas tipográficas y reglas de espaciado, e identificar patrones de componentes repetidos
la IA sintetiza estos datos visuales no estructurados en una representación estructurada y semántica del sistema de diseño, y al integrarse con herramientas como Figma, acelera en gran medida la creación de bibliotecas de componentes formalizadas y mantenibles
además de reducir el esfuerzo de auditoría visual, también funciona como un paso clave para construir sistemas de diseño "AI-ready"
para empresas cargadas con deuda de diseño brownfield, usar IA para establecer un sistema de diseño base es un punto de partida práctico antes de un rediseño completo o una estandarización del frontend

27. Aislamiento contextual basado en roles en RAG

técnica arquitectónica que mueve el control de acceso de la capa de aplicación a la capa de recuperación
en el momento de indexación, se agregan etiquetas de permisos basadas en roles a cada fragmento de datos; en el momento de consulta, el motor de recuperación restringe el espacio de búsqueda según la identidad autenticada del usuario y la hace coincidir con los metadatos de cada fragmento
como el modelo de IA queda filtrado en la etapa de recuperación, se garantiza que no pueda acceder a contexto no autorizado, lo que proporciona una base de zero trust para bases de conocimiento internas
muchas bases de datos vectoriales, como Milvus o servicios basados en Amazon S3, admiten filtrado de metadatos de alto rendimiento, por lo que su adopción es práctica incluso en bases de conocimiento grandes

28. Skills como documentación de onboarding ejecutable

Agent Skills, curated shared instructions y otras técnicas de context engineering aparecen a lo largo de este Radar; el caso de uso que queremos destacar en el contexto de programación es el de las skills como documentación de onboarding ejecutable
Se puede aplicar en varios niveles; dentro del codebase, una skill /_setup puede cumplir el rol de un script go.sh y de un archivo README, combinando scripts con la semántica de ejecución de LLM para pasos que no se pueden automatizar con scripts
Más allá de lo que un script puede hacer, permite considerar dinámicamente el estado actual del codebase y del entorno
Los creadores de bibliotecas y APIs pueden ofrecer skills a los consumidores como parte de la documentación, a través de registros de skills internos o externos (como Tessl)
Es útil para el onboarding a plataformas internas del equipo, para bajar la barrera de uso de tecnologías clave o reducir la fricción al adoptar un sistema de diseño; hasta ahora se dependía mucho de servidores MCP, pero ahora se está migrando a skills
Como ocurre con otras formas de documentación, el reto de mantenerla actualizada no desaparece; sin embargo, la documentación ejecutable ayuda a detectar mucho antes cuándo algo quedó desactualizado, a diferencia de la documentación estática

29. Modelos de lenguaje pequeños

Los SLM siguen mejorando y empiezan a ofrecer mejor inteligencia por dólar que los LLM en casos de uso específicos
Los equipos evalúan SLM para reducir costos de inferencia y acelerar flujos de trabajo agentic; los avances recientes muestran ganancias constantes en densidad de inteligencia, lo que los vuelve competitivos frente a LLM anteriores en tareas como resumir y programación básica
Refleja un cambio de “más grande es mejor” hacia datos de mayor calidad, destilación de modelos y cuantización
Modelos como Phi-4-mini y Ministral 3 3B demuestran que los modelos destilados conservan muchas capacidades de modelos maestros más grandes
Incluso modelos ultrapequeños como Qwen3-0.6B y Gemma-3-270M ahora pueden ejecutarse en dispositivos edge
En casos de uso agentic donde antes bastaba un LLM antiguo, se puede considerar un SLM como alternativa de bajo costo, baja latencia y menores requisitos de recursos

30. Equipo de agentes de programación

En un Radar anterior se describió como una técnica en la que el desarrollador coordina un pequeño grupo de agentes especializados por rol para colaborar en tareas de programación
Desde entonces, la barrera de adopción ha bajado, el soporte para subagentes se ha convertido en una capacidad básica en las herramientas existentes de agentes de programación, incluido agent teams, que ofrece coordinación integrada en Claude Code
En un equipo de agentes, el orquestador principal normalmente coordina la secuenciación y paralelización de tareas, y los agentes deben poder comunicarse no solo con el orquestador sino también entre sí
Casos de uso comunes son un equipo de revisores o un grupo de implementadores a cargo de distintas partes de una aplicación, como backend y frontend
Aunque parte de la industria usa “agent teams” y "agent swarms" como si fueran intercambiables (Claude Code describe agent teams como “our implementation of swarms”), vale la pena mantener la distinción
Que un equipo pequeño e intencional de agentes colabore en una tarea es bastante distinto de un swarm grande en términos de barrera de entrada, complejidad y casos de uso

31. Temporal fakes

Amplía la idea de simulación de sistemas del mundo real, usada desde hace mucho tiempo en plataformas industriales y de IoT
Los agentes de programación con IA reducen el esfuerzo de construir simuladores, lo que permite crear mucho más fácilmente réplicas de alta fidelidad de dependencias externas
A diferencia de los mocks tradicionales, que devuelven pares estáticos de solicitud-respuesta, los temporal fakes mantienen una máquina de estados interna y modelan la evolución temporal del sistema real
Un equipo usó esta técnica para desarrollar una pila de observabilidad para un gran centro de datos de GPU, evitando tener que adquirir hardware físico
- Probar reglas de alerta, dashboards y detección de anomalías sobre el sistema real es poco práctico (por ejemplo, sobrecalentar intencionalmente una GPU para validar una alerta de thermal throttle)
- En su lugar, construyeron fakes en Go para dominios de hardware como NVIDIA DCGM y el fabric de InfiniBand
- Con los simuladores activaban escenarios de falla como thermal throttling, tormentas de errores XID, link flap y fallas de PSU, con intensidad y duración configurables, orquestados con una pila basada en process-compose
Un registro central define escenarios de falla válidos, y un servidor MCP expone la inyección de escenarios a los agentes
Los agentes pueden disparar fallas, como inyectar thermal throttle en una GPU específica, y verificar que las métricas cambien como se espera, que se activen alertas y que los dashboards se actualicen
Esta fidelidad temporal le da valor a la técnica para probar sistemas complejos donde las fallas se encadenan, aunque existe el riesgo de generar una falsa confianza en pipelines automatizados si los fakes no reflejan fielmente el comportamiento del mundo real

32. Análisis de flujo tóxico para IA

Las capacidades de los agentes están avanzando más rápido que las prácticas de seguridad, y con la aparición de agentes hambrientos de permisos como OpenClaw, cada vez más equipos despliegan agentes en entornos expuestos a la lethal trifecta: acceso a datos privados, exposición a contenido no confiable y capacidad de comunicación externa
A medida que aumentan las capacidades, también crece la superficie de ataque, exponiendo a los sistemas a riesgos como prompt injection y tool poisoning
El toxic flow analysis sigue reconociéndose como una técnica clave para investigar sistemas agentic e identificar rutas de datos inseguras y posibles vectores de ataque
El riesgo ya no se limita a las integraciones con MCP; también se observan patrones similares en Agent Skills: un actor malicioso puede empaquetar una skill aparentemente útil con instrucciones ocultas para filtrar datos sensibles
Se recomienda encarecidamente que los equipos que trabajan con agentes realicen toxic flow analysis y usen herramientas como Agent Scan para identificar rutas de datos inseguras antes de que sean explotadas

33. Modelos de lenguaje y visión para el análisis de documentos de extremo a extremo

El análisis de documentos depende de pipelines de múltiples etapas que combinan detección de diseño, OCR tradicional y scripts de posprocesamiento, y suele tener dificultades con diseños complejos y fórmulas matemáticas
El análisis de documentos de extremo a extremo con VLM trata las imágenes de documentos como una modalidad única de entrada, lo que simplifica la arquitectura y preserva el orden natural de lectura y el contenido estructurado
Modelos open source entrenados específicamente para este propósito, como olmOCR-2, DeepSeek-OCR (3B) eficiente en tokens, y PaddleOCR-VL ultracompacto, producen resultados muy eficientes
Aunque los VLM pueden reemplazar pipelines de múltiples etapas y reducir la complejidad arquitectónica, tienden a alucinar por su naturaleza generativa
Los casos de uso con baja tolerancia al error todavía requieren enfoques híbridos u OCR determinista
Los equipos que procesan grandes colecciones de documentos deben evaluar estos enfoques integrados para determinar si pueden mantener la precisión y al mismo tiempo reducir la sobrecarga de mantenimiento a largo plazo

Caution

34. Hinchazón de instrucciones para agentes

Archivos de contexto como AGENTS.md y CLAUDE.md acumulan con el tiempo resúmenes de la base de código, explicaciones de arquitectura, convenciones y reglas
Cada adición puede ser útil de forma aislada, pero a menudo provoca hinchazón de instrucciones para agentes, haciendo que las instrucciones sean largas y a veces entren en conflicto entre sí
Los modelos tienden a prestar menos atención al contenido enterrado en la mitad de contextos largos, y la guía que queda muy adentro de historiales extensos de conversación puede pasarse por alto
A medida que aumentan las instrucciones, también crece la probabilidad de que se ignoren reglas importantes
Muchos equipos están usando IA para generar archivos AGENTS.md, pero una investigación sugiere que las versiones escritas a mano suelen ser más efectivas que las generadas por LLM
Al usar herramientas agentic, hay que ser intencional y selectivo con las instrucciones, agregándolas según sea necesario y refinándolas continuamente hasta mantener un conjunto mínimo y coherente
Considera usar progressive context disclosure para mostrar solo las instrucciones y capacidades necesarias para la tarea actual

35. Shadow IT acelerado por IA

La IA sigue reduciendo la barrera para que personas no programadoras construyan sistemas complejos, permitiendo experimentación y validación temprana de requisitos, pero también introduce el riesgo de shadow IT acelerado por IA
Además de las plataformas de flujos de trabajo no-code que integran APIs de IA como OpenAI o Anthropic, también se están ofreciendo más herramientas agentic a personas no programadoras, como Claude Cowork
Cuando hojas de cálculo que operaban silenciosamente el negocio evolucionan hacia flujos de trabajo agentic personalizados sin gobernanza, se introducen riesgos de seguridad significativos y la proliferación de soluciones competidoras para problemas similares
Distinguir entre flujos de trabajo puntuales y procesos críticos que requieren implementaciones duraderas y listas para producción es clave para equilibrar experimentación y control
Como parte de su estrategia de adopción de IA, las organizaciones deben priorizar la gobernanza y fomentar la experimentación dentro de entornos controlados
Un sandbox interno bien instrumentado puede dar a personas no programadoras un lugar para desplegar prototipos con seguimiento de uso
Si se combina con un catálogo compartido de flujos de trabajo existentes, puede ayudar a los equipos a descubrir lo que ya se construyó y evitar esfuerzos duplicados

36. Deuda cognitiva de la base de código

Es la brecha creciente entre la implementación del sistema y la comprensión compartida del equipo sobre cómo y por qué funciona
A medida que la IA acelera el ritmo de los cambios, especialmente con múltiples contribuyentes o con enjambres de agentes de programación, los equipos pueden perder el rastro de la intención de diseño y de los acoplamientos ocultos
Combinado con la creciente deuda técnica, esto forma un ciclo de refuerzo que hace que el sistema sea cada vez más difícil de razonar
Una comprensión débil del sistema reduce la capacidad de los desarrolladores para guiar eficazmente a la IA, anticipar casos límite y apartar a los agentes de trampas arquitectónicas
Si no se gestiona, puede llegar a un punto de inflexión en el que pequeños cambios detonan fallas inesperadas, las correcciones introducen regresiones y los esfuerzos de limpieza aumentan el riesgo en lugar de reducirlo
Hay que evitar la complacencia frente al código generado por IA e introducir contramedidas explícitas, como feedback sensors for coding agents, seguimiento de la carga cognitiva del equipo y funciones de fitness arquitectónico, para seguir haciendo cumplir restricciones críticas mientras la IA acelera la producción

37. Enjambres de agentes de programación

Si un team of coding agents es un grupo pequeño e intencional, un coding agent swarm aplica decenas o cientos de agentes a un problema, y la IA decide dinámicamente su composición y tamaño
Proyectos como Gas Town y Ruflo (antes Claude Flow) son buenos ejemplos
Están surgiendo patrones tempranos de implementación de swarms: separación jerárquica de roles (orquestador, supervisores y workers temporales), registros de trabajo duraderos que ayudan a los agentes a dividir y coordinar tareas (Gas Town usa beads), y mecanismos de merge para manejar conflictos en trabajo paralelo
Dos experimentos con swarms llaman especialmente la atención: la generación de un compilador de C de Anthropic y el experimento de escalado de agentes de Cursor (generar un navegador a lo largo de una semana)
Ambos equipos eligieron casos de uso que podían apoyarse en especificaciones detalladas ya existentes, incluyendo en el caso del compilador de C una suite de pruebas exhaustiva que ofrece retroalimentación clara y medible
Estas condiciones no representan el desarrollo de producto típico, donde los requisitos están menos definidos y la validación es más difícil
Aun así, estos experimentos contribuyen a patrones emergentes que hacen técnicamente viables los swarms de ejecución prolongada; siguen siendo costosos y están lejos de madurar, por lo que se recomienda cautela al adoptarlos

38. El rendimiento de codificación como medida de productividad

Los asistentes de codificación con IA sí ofrecen mejoras reales de productividad y se están consolidando rápidamente como herramientas estándar para desarrolladores
Sin embargo, cada vez más organizaciones miden el éxito con métricas superficiales como la cantidad de líneas de código generadas o el número de pull requests (PR)
Cuando estas métricas de coding throughput se usan de forma aislada, pueden afectar negativamente el comportamiento del personal
El resultado suele ser un aluvión de código mal alineado que ralentiza las revisiones, perjudica el throughput de entrega e introduce riesgos de seguridad, ya que los ingenieros abren PR llenos de salidas de IA insuficientemente revisadas, lo que incrementa el cycle time por las idas y vueltas con los revisores
Estas métricas no logran capturar el esfuerzo residual necesario para adaptar el código generado por IA a la arquitectura, convenciones y patrones del equipo
Existe un indicador adelantado más significativo: first-pass acceptance rate, la frecuencia con la que la salida de la IA puede usarse con retrabajo mínimo
Medirlo permite exponer el esfuerzo oculto y hacer posibles acciones de mejora, para que los equipos aumenten de forma sostenida la aceptación refinando prompts, mejorando la documentación de priming y fortaleciendo las conversaciones de diseño
Esto genera un círculo virtuoso en el que la salida de la IA requiere menos modificaciones, y first-pass acceptance se conecta de forma natural con las métricas DORA: una baja tasa de aceptación tiende a aumentar la tasa de fallos por cambio, mientras que los ciclos repetidos de iteración alargan el lead time de cambios
A medida que los asistentes de IA se vuelvan omnipresentes, las organizaciones deben dejar de enfocarse solo en coding throughput y pasar a métricas que reflejen el impacto real y los resultados de entrega

39. Ignorar la durabilidad en los flujos de trabajo de agentes

Un antipatrón observado en varios equipos que funciona en desarrollo, pero falla en producción
Los desafíos que enfrentan los sistemas distribuidos se vuelven aún más evidentes al construir agentes, y una mentalidad que anticipa fallos y se recupera con elegancia supera a un enfoque reactivo
Los LLM y las llamadas a herramientas pueden fallar por interrupciones de red y caídas de servidores, lo que detiene el progreso del agente y provoca una mala experiencia de usuario y mayores costos operativos
Algunos sistemas pueden tolerarlo cuando las tareas son de corta duración, pero los flujos de trabajo complejos que se ejecutan durante días o semanas necesitan durabilidad
Frameworks de agentes como LangGraph y Pydantic AI están integrando ejecución durable
Ofrecen persistencia con estado del progreso y de las llamadas a herramientas, lo que permite que el agente reanude el trabajo tras un fallo
En los flujos de trabajo que incluyen human in the loop, la ejecución durable puede pausar el progreso mientras espera entrada
Plataformas de durable computing como Temporal, Restate y Golem también ofrecen soporte para agentes
La observabilidad del seguimiento de decisiones y de la ejecución de herramientas integradas facilita la depuración y mejora la comprensión de los sistemas en producción
Conviene comenzar con soporte nativo de ejecución durable en frameworks de agentes y, a medida que los flujos de trabajo se vuelvan más importantes o complejos, aprovechar plataformas independientes

40. MCP por defecto

Model Context Protocol (MCP) está ganando atención, y existe una tendencia entre equipos y proveedores a adoptarlo como capa de integración predeterminada entre agentes de IA y sistemas externos, aun cuando hay alternativas más simples
Hay que tener cuidado con usar MCP por defecto: sí aporta valor real en contratos de herramientas estructurados, límites de autenticación basados en OAuth y acceso multiusuario gobernado
Pero también introduce lo que Justin Poehnelt llama "impuesto de abstracción": cada capa de protocolo entre el agente y la API puede causar pérdida de fidelidad, y en APIs complejas esa pérdida se multiplica
En la práctica, una CLI bien diseñada con buena salida de --help, respuestas JSON estructuradas y manejo predecible de errores puede dar al agente todo lo que necesita sin la sobrecarga del protocolo
Como señala Simon Willison, "casi todo lo que se puede lograr con MCP puede resolverse con herramientas CLI"
No se trata de rechazar MCP, sino de que los equipos eviten adoptarlo por defecto y primero se pregunten si su sistema realmente necesita interoperabilidad a nivel de protocolo
MCP tiene sentido cuando sus beneficios de gobernanza e integración superan la complejidad adicional y la posible pérdida de fidelidad

41. Entornos de desarrollo transmitidos por píxeles

Uso de escritorios remotos o estaciones de trabajo estilo VDI para desarrollo de software, donde la edición, compilación y depuración se realizan a través de un escritorio transmitido, en lugar de en la máquina local o en un entorno remoto centrado en el código
Las organizaciones siguen adoptándolos, especialmente para cumplir objetivos de seguridad, estandarización e incorporación en equipos offshore y programas cloud de lift and shift
Sin embargo, en la práctica los trade-offs suelen ser pobres: la latencia, el retraso en la entrada y la respuesta inconsistente de la pantalla generan una fricción cognitiva constante, reducen la velocidad de entrega y vuelven más agotadoras las tareas cotidianas de desarrollo
A diferencia de entornos de desarrollo en la nube, Google Cloud Workstations, Coder y VS Code Remote Development, que acercan la computación al código sin transmitir todo el escritorio
Las configuraciones pixel-streamed priorizan el control centralizado por encima del flujo de trabajo del desarrollador y a menudo se imponen sin suficiente participación de los ingenieros que las usan
A menos que fuertes requisitos de seguridad o regulatorios superen claramente el costo en productividad, no se recomiendan los entornos de desarrollo transmitidos por píxeles como opción predeterminada para la entrega de software

[Plataformas]

Adopt

— Ninguno

Trial

42. Protocolo AG-UI

Un protocolo abierto y una biblioteca diseñados para estandarizar la comunicación entre interfaces de usuario ricas y agentes de IA de backend
Históricamente, construir agentic UI requería trabajo de plomería a medida para colaboración bidireccional con estado; AG-UI lo resuelve con una arquitectura consistente basada en eventos que soporta transportes como server-sent events (SSE) y WebSockets
Soporta streaming de pasos de razonamiento, sincronización de estado y renderizado dinámico de componentes de UI
Sin embargo, el panorama arquitectónico de interfaces para agentes está cambiando rápidamente, y AG-UI se posiciona deliberadamente fuera de MCP para actuar como capa de interfaz entre el frontend y el backend del agente
Está surgiendo otro enfoque en nuevas aplicaciones basadas en MCP que empaquetan HTML y widgets de UI directamente dentro del servidor MCP o de las skills
A medida que los componentes de UI pueden incrustarse y entregarse junto con las herramientas —un patrón relacionado con estándares adyacentes como MCP-UI—, se cuestiona la necesidad de una capa separada de protocolo de UI como AG-UI
Sigue siendo una opción sólida para separar la UX del frontend de la orquestación del backend, pero es necesario evaluar su papel considerando la tendencia dentro del ecosistema MCP a integrar la lógica de herramientas y la UI

43. Apache APISIX

Gateway open source, de alto rendimiento y cloud-native que resuelve las limitaciones de las soluciones heredadas basadas en Nginx
Construido sobre LuaJIT de Nginx y OpenResty, usa etcd como almacén de configuración, eliminando la latencia causada por los reloads, por lo que es adecuado para microservicios dinámicos y arquitecturas serverless
Su principal fortaleza es una arquitectura totalmente dinámica y extensible mediante plugins, con un ecosistema de plugins multilenguaje que incluye API y WASM para personalizar gestión de tráfico, seguridad y observabilidad
Con soporte para Kubernetes Gateway API, Apache APISIX puede usarse como gateway de Kubernetes, y es un fuerte candidato para reemplazar controladores ingress heredados de Nginx

44. AWS Bedrock AgentCore

Plataforma agentic para construir, ejecutar y operar agentes de forma segura y a gran escala sin la sobrecarga de administrar infraestructura, similar a GCP Vertex AI Agent Builder y Azure AI Foundry Agent Service
Aunque es fácil adoptar la plataforma como una caja negra monolítica, una arquitectura más granular y desacoplada conduce a mayor éxito: usar el runtime de AgentCore para preocupaciones de producción como aislamiento de sesiones, seguridad y observabilidad, mientras la lógica de orquestación se mantiene en frameworks externos como LangGraph
Esta separación de responsabilidades permite aprovechar las ventajas de la infraestructura gestionada mientras se conserva flexibilidad para adaptarse a la evolución del entorno LLM
Con un enfoque prioritario en el runtime, las organizaciones pueden llevar gradualmente las cargas agentic a producción sin ceder el control de la lógica crítica a una capa de orquestación específica de un proveedor

45. Graphiti

Motor open source de grafos de conocimiento temporales de Zep que demuestra viabilidad en producción para resolver el problema de memoria de los LLM
Mientras que los almacenes vectoriales planos en pipelines de RAG no logran rastrear cambios temporales en los hechos, Graphiti recopila los datos como episodios separados y mantiene ventanas de validez bitemporales en los bordes del grafo; los hechos antiguos se invalidan en lugar de sobrescribirse
A diferencia de GraphRAG orientado a lotes, actualiza el grafo de forma incremental y ofrece búsqueda en subsegundos sin llamadas a LLM en tiempo de consulta mediante una búsqueda híbrida que combina búsqueda semántica, BM25 y recorrido de grafos
Dos factores están impulsando su adopción: benchmarks revisados por pares que reportan una mejora de precisión de 18.5% y 90% menos latencia, y el lanzamiento de un servidor MCP de primera clase que permite a agentes compatibles con Model Context Protocol incorporar memoria temporal persistente con un esfuerzo mínimo de integración
Una fuerte adopción por parte de la comunidad es otra señal de preparación para producción
Neo4j es el backend principal, y FalkorDB es una alternativa más ligera
Hay que considerar el costo de extracción con LLM por escritura y la necesidad de fijar dependencias debido a su estado de lanzamiento previo a la versión 1.0

46. Langfuse

Plataforma open source de ingeniería para LLM que cubre observabilidad, gestión de prompts, evaluación y gestión de datasets
Desde la última evaluación, el proyecto ha madurado notablemente; la arquitectura v3 introdujo ClickHouse, Redis y S3 como componentes de backend, lo que mejoró la escalabilidad pero también incrementó la complejidad del self-hosting
Tanto el SDK de Python como el de TypeScript están construidos de forma nativa sobre OpenTelemetry, por lo que encaja naturalmente en equipos que ya usan observabilidad basada en OTEL
Nuevas capacidades como el SDK de experiment runner y el soporte de salidas estructuradas para experimentación con prompts amplían a Langfuse desde el simple tracing hacia flujos de evaluación sistemáticos
Vale la pena considerarlo en un espacio cada vez más saturado que incluye Arize Phoenix, Helicone y LangSmith
Los equipos que construyen principalmente sobre Pydantic AI también deberían considerar Pydantic Logfire, que adopta un enfoque más amplio como plataforma full-stack de observabilidad OTEL en lugar de un conjunto de herramientas específico para LLM
Es una opción confiable para equipos que necesitan tracing, evaluación y gestión de prompts integrados en una sola plataforma self-hostable, aunque si la necesidad principal es visibilidad de costos y latencia en la capa de modelo, conviene evaluar si una herramienta más enfocada como Helicone sería suficiente

47. Port

Portal interno para desarrolladores comercial diseñado para mejorar la experiencia de desarrollo, centralizando activos de software, automatizando workflows y reforzando estándares de ingeniería para dar a los equipos de plataforma una única fuente de verdad para workflows de autoservicio
Se vuelve más importante a medida que las organizaciones buscan estandarizar workflows de ingeniería y exponer templates, API, automatizaciones y agentes en formas que los desarrolladores realmente puedan usar
Además de funcionar como portal independiente, puede usarse directamente desde el IDE mediante la API y la capa MCP de Port
Funciona bien para organizaciones que quieren capacidades de portal ya productizadas sin invertir fuertemente en platform engineering
En proyectos con clientes, ha permitido que equipos de plataforma relativamente pequeños entreguen autoservicio efectivo rápidamente mientras dan soporte a miles de desarrolladores
Vale la pena evaluarlo para organizaciones que necesitan pronto capacidades de portal interno para desarrolladores y pueden aceptar las limitaciones de una plataforma comercial y la dependencia del proveedor

48. Replit

Plataforma cloud-native de desarrollo colaborativo que ofrece entorno de desarrollo instantáneo, programación en tiempo real y asistencia de IA integrada directamente en el navegador
Combina editor, runtime, despliegue y workflows de codificación con IA en una sola plataforma integrada, permitiendo que los desarrolladores empiecen a programar de inmediato sin configuración local
Un IDE colaborativo impulsado por IA ayuda mucho a reducir la fricción de onboarding y resulta ideal para prototipar en equipo
También es muy efectivo para sesiones de capacitación, intercambio de conocimiento y bootcamps
Algunos pueden ver Replit como un lugar para proyectos de hobby con ayuda de IA, pero el entorno es lo bastante potente como para competir con un IDE local tradicional, haciendo mucho más fácil iterar y colaborar

49. SigNoz

Plataforma open source de observabilidad nativa de OpenTelemetry con soporte unificado para logs, métricas y trazas
Resuelve necesidades de APM e instrumentación en microservicios modernos y arquitecturas distribuidas, mientras evita el lock-in de proveedor
Aprovecha ClickHouse como base de datos columnar predeterminada para ofrecer almacenamiento escalable, de alto rendimiento y rentable con consultas rápidas, posicionándose como una sólida alternativa self-hosted a plataformas como Datadog
Soporta consultas flexibles mediante PromQL y ClickHouse SQL, además de alertas por múltiples canales
En la práctica, se ha confirmado que SigNoz reduce el consumo de recursos de infraestructura y el costo total de observabilidad sin degradar el rendimiento
Aunque ofrece servicio cloud gestionado, sus imágenes Docker listas para usar y charts de Helm son una opción práctica para organizaciones que prefieren mantener el control de sus datos e infraestructura

Assess

50. Agent Trace

Especificación abierta propuesta por Cursor para la estandarización de la atribución de código con IA
Con el aumento en la adopción de agentes de programación, entender quién modificó el código se amplía más allá de los desarrolladores humanos para incluir también cambios generados por IA
Las herramientas existentes como git blame pueden mostrar que una línea de código fue modificada, pero no logran captar si el cambio fue hecho por un humano, por IA o por ambos
Agent Trace adopta un enfoque neutral respecto a proveedores para definir cómo rastrear cambios de código, sin tomar postura sobre cómo almacenar ese rastreo
Compatible con múltiples sistemas de control de versiones, incluidos Git, Mercurial y Jujutsu
La especificación define tipos de contribuyente como human, AI, mixed y unknown, así como registros de rastreo que describen el origen de cada contribución
Hay primeras señales de adopción con soporte en herramientas como Cline y OpenCode, y con implementaciones como Git AI

51. ClickStack

Plataforma open source de observabilidad compatible con OpenTelemetry que integra logs, trazas, métricas y sesiones en un único almacenamiento de datos de alto rendimiento basado en ClickHouse
A medida que crece la infraestructura y aumentan los costos de observabilidad, muchos equipos lidian con cadenas de herramientas de telemetría fragmentadas y plataformas de proveedores costosas
ClickStack aprovecha el almacenamiento columnar de ClickHouse para permitir consultas de alta cardinalidad en menos de un segundo sobre grandes volúmenes de datos de telemetría, y ofrece una base más simple y rentable para observabilidad

52. Coder

Buena alternativa a los pixel-streamed development environments, ya que separa dónde corre el código de cómo interactúa el desarrollador
En lugar de transmitir una interfaz de escritorio completa, los desarrolladores se conectan al entorno remoto desde un IDE local como VS Code o desde el navegador, logrando una experiencia más responsiva sin sacrificar usabilidad
El código se ejecuta en infraestructura remota escalable, y el entorno se define y administra como código, lo que permite a los equipos estandarizar la configuración de desarrollo y simplificar el onboarding de nuevos desarrolladores
También facilita dar acceso controlado a sistemas internos y simplificar el acceso de agentes de codificación con IA previamente aprobados
Coder es visto como un punto intermedio entre el desarrollo local y los escritorios totalmente virtualizados: ofrece control centralizado y gobernanza sin las limitaciones de usabilidad del VDI con streaming de píxeles
Buena opción para organizaciones que necesitan entornos de ejecución remotos o controlados, especialmente donde se requiere mayor capacidad de cómputo o acceso seguro
Es necesario evaluar el sobrecosto operativo y la responsabilidad de seguridad asociados con administrar estos entornos

53. Databricks Agent Bricks

A medida que el enfoque basado en agentes se vuelve dominante, las plataformas de datos evolucionan para dar soporte a estas cargas de trabajo de forma nativa, en lugar de hacerlo como un módulo adicional
Databricks Agent Bricks ofrece componentes preconstruidos y autooptimizados para patrones comunes de IA, como asistentes de conocimiento y analistas de datos
Sigue un enfoque declarativo: el desarrollador define los objetivos y los datos base, y el framework se encarga de la ejecución y la optimización
Al simplificar LLMOps y reducir el esfuerzo necesario para la curación de datos, permite que los equipos se concentren más en resultados de negocio que en código boilerplate
Un equipo lo usó junto con agentes personalizados para evaluar y construir una solución RAG compleja para I+D preclínica
Si ya hay inversión en el ecosistema de Databricks y se está explorando un enfoque basado en agentes para casos comunes como chatbots y extracción de documentos, vale la pena evaluarlo

54. DuckLake

Formato unificado de data lake y catálogo que simplifica la arquitectura lakehouse al usar una base de datos SQL estándar para el catálogo y la gestión de metadatos
Mientras que formatos de tablas abiertos tradicionales como Iceberg o Delta Lake dependen de estructuras complejas de metadatos basadas en archivos, DuckLake almacena los metadatos en una base de datos de catálogo (como SQLite, PostgreSQL o DuckDB) y persiste los datos como archivos Parquet en disco local o en almacenamiento de objetos compatible con S3
Este enfoque híbrido mejora la latencia de planificación de consultas y la confiabilidad transaccional durante actualizaciones concurrentes
DuckDB cumple el papel de motor de consultas mediante la extensión ducklake, y ofrece una interfaz SQL familiar para operaciones estándar DDL y DML
Mantiene características propias de lakehouse, como el particionamiento, pero omite índices y claves primarias/foráneas
Con soporte para time travel, evolución de esquema y cumplimiento ACID, ofrece una opción de baja complejidad para equipos que buscan un stack analítico independiente
Aunque todavía está en una etapa temprana de madurez, es una alternativa prometedora y liviana frente a las arquitecturas lakehouse tradicionales
Adecuado para entornos de datos simplificados que buscan evitar la sobrecarga operativa asociada con ecosistemas basados en Spark o Trino

55. FalkorDB

Base de datos de grafos basada en Redis con soporte para Cypher, adecuada para equipos que quieren capacidades de grafos sin adoptar una plataforma pesada
Opción práctica para organizaciones que construyen cargas de trabajo de IA y aplicaciones ricas en relaciones, donde importa una baja fricción operativa y se prefiere un servicio de grafos basado en servidor en lugar de almacenamiento embebido
Aunque la arquitectura es prometedora y el modelo para desarrolladores es accesible, antes de decidir una adopción amplia hace falta validar en producción el comportamiento de FalkorDB en cuanto a escalado, herramientas operativas y madurez de su ecosistema a largo plazo

56. Google Dialogflow CX

Plataforma administrada de IA conversacional de Google Cloud que combina una máquina de estados basada en grafos construida con Flows y Pages con capacidades generativas basadas en Vertex AI Gemini
Su predecesor, Dialogflow, ya había sido seguido anteriormente en el Radar
CX representa un rediseño importante y ganó atención en 2024 después de que Google integró los modelos Vertex AI Gemini, introduciendo Generative Playbooks para agentes guiados por instrucciones y Data Store RAG para fundamentar respuestas en contenido indexado
Se usó para construir un agente de descubrimiento de datos en lenguaje natural, eligiendo Dialogflow CX sobre un enfoque con SDK personalizado por su entorno low-code y por Generative Playbooks
Configurado con few-shot prompting para traducir consultas en lenguaje natural a SQL
Los equipos que ya construyen sobre Google Cloud encuentran que acelera la entrega frente a stacks de agentes personalizados cuando crean interfaces en lenguaje natural sobre datos internos estructurados
Sin embargo, no tiene free tier, introduce una dependencia importante de Google Cloud y requiere planificar el esfuerzo de ingeniería de contexto

57. MCP Apps

Primera extensión oficial de Model Context Protocol, que permite a los servidores MCP devolver interfaces HTML interactivas que se renderizan directamente dentro de la conversación como paneles, formularios y visualizaciones
Desarrollado en conjunto por Anthropic, OpenAI y contribuidores open source, estandariza el esquema de recursos ui:// para que las herramientas declaren plantillas de UI renderizadas en un iframe aislado, con degradación elegante a texto cuando el host no soporta UI
A diferencia de AG-UI, que funciona como una capa de biblioteca separada, MCP Apps empaqueta la UI directamente dentro del servidor MCP
Su diseño bidireccional permite que el modelo observe las acciones del usuario, mientras que la interfaz maneja datos en tiempo real y manipulación directa que el texto no puede ofrecer
Clientes como Claude, ChatGPT, VS Code y Goose ya lanzaron soporte
Los equipos que exploran interacciones más ricas con agentes deben evaluar si la complejidad adicional frente a respuestas en texto plano se justifica para su caso de uso

58. Monarch

Framework open source de programación distribuida que lleva la simplicidad de las cargas de trabajo de PyTorch en una sola máquina a grandes clústeres de GPU
Ofrece una API de Python para crear procesos remotos y actores, y agruparlos en colecciones mesh con soporte de mensajería por difusión
Proporciona tolerancia a fallos mediante supervision tree, donde las fallas se propagan hacia arriba en la jerarquía para permitir un manejo de errores limpio y una recuperación detallada
Soporta transferencias RDMA point-to-point para un movimiento eficiente de memoria entre GPU y CPU, y ofrece una abstracción de tensores distribuidos que permite a los actores trabajar con tensores particionados a través de procesos manteniendo un modelo de programación imperativo
Monarch está construido sobre un backend Rust de alto rendimiento
Aunque todavía está en una etapa temprana de desarrollo, la abstracción que hace que los tensores distribuidos se comporten como locales es potente y podría reducir significativamente la complejidad del entrenamiento distribuido de IA a gran escala

59. Neutree

Plataforma open source para gestionar y servir LLM en infraestructura privada, posicionada como una capa de servicios de modelos para IA empresarial
Proporciona un plano de control unificado para la gestión del ciclo de vida de modelos, serving de inferencia y programación de cómputo en hardware heterogéneo, como aceleradores de NVIDIA, AMD e Intel
A medida que las organizaciones pasan de APIs alojadas a despliegues autohospedados y gobernados, Neutree resuelve una brecha clara: operar cargas de trabajo de LLM con capacidades de nivel empresarial como multitenencia, control de acceso, contabilidad de uso y abstracción de infraestructura
Al separar el serving de modelos de la lógica de la aplicación, permite a los equipos desplegar, escalar y enrutar modelos en entornos que incluyen bare metal, VM y contenedores sin quedar fuertemente acoplados a un proveedor de nube específico
Sin embargo, es relativamente nuevo y conviene abordarlo con cautela al adoptarlo
Su ecosistema, madurez operativa y capacidades de integración aún están evolucionando frente a plataformas de ML más establecidas
Prometedor, pero más adecuado para equipos dispuestos a invertir en evaluar y dar forma a infraestructura emergente de IA empresarial

60. OptScale

Plataforma open source de FinOps multicloud que soporta cargas de trabajo intensivas en AI/ML, donde los costos de GPU y experimentación pueden dispararse rápidamente
Recopila datos de facturación y uso desde APIs de nube, y combina en un solo sistema visibilidad de costos, recomendaciones de optimización, seguimiento de presupuestos y detección de anomalías con alertas basadas en políticas alineadas con equipos o estructuras del negocio
En comparación con OpenCost, OptScale cubre casos de uso de FinOps más amplios fuera de Kubernetes mientras también ofrece análisis a nivel de Kubernetes
Frente a suites empresariales como IBM Cloudability, CloudZero, CloudHealth, IBM Kubecost y Flexera One, ofrece más control y menos dependencia del proveedor
El intercambio es una mayor sobrecarga operativa, complejidad de despliegue, edge cases en conectores y preocupaciones relacionadas con la higiene de seguridad de imágenes de contenedor
Debe tratarse no como un producto plug-and-play, sino como una inversión en capacidades de plataforma

61. Rhesis

Plataforma open source de pruebas para LLM y aplicaciones agentic, donde los equipos pueden definir el comportamiento esperado en lenguaje natural, generar escenarios de prueba adversariales y evaluar resultados tanto desde UI como mediante SDK o API
Mientras los enfoques de prueba tradicionales asumen un comportamiento determinista, los sistemas de IA fallan de formas más sutiles, incluyendo jailbreaks, interacciones de múltiples turnos, violaciones de políticas y edge cases dependientes del contexto
Es una plataforma útil para equipos que necesitan ir más allá de evaluaciones simples de prompts
Funciones como el conversation simulator, pruebas adversariales, trazabilidad basada en OpenTelemetry y self-hosting mediante Docker ofrecen una forma práctica de integrar a equipos de producto, dominio e ingeniería en un flujo de trabajo compartido de pruebas
Su principal beneficio es mejorar la validación previa a producción de sistemas no deterministas
Hay que considerar intercambios habituales como el costo de evaluación, las limitaciones de métricas tipo LLM-as-judge y la necesidad de requisitos bien definidos antes de que la plataforma entregue valor
Vale la pena evaluarla para equipos que construyen sistemas con LLM o agentic y necesitan pruebas colaborativas y repetibles más allá de revisiones básicas de prompts

62. RunPod

A medida que las organizaciones incrementan los experimentos de entrenamiento y ajuste fino de LLM, los hyperscalers como AWS y Google Cloud pueden implicar costos altos y disponibilidad limitada de hardware
RunPod ofrece una alternativa rentable para cargas de trabajo de IA intensivas en cómputo
Opera como un marketplace global distribuido de GPU, ofreciendo acceso on-demand a una amplia gama de hardware, desde clústeres H100 de nivel empresarial hasta RTX 4090 de consumo, a menudo con costos considerablemente menores que los proveedores de nube tradicionales
Es una opción práctica que vale la pena evaluar para equipos que necesitan infraestructura flexible y amigable con el presupuesto para desarrollar, entrenar y desplegar modelos de IA sin compromisos de largo plazo ni dependencia del proveedor

63. Sprites

Entorno sandbox con estado de Fly.io diseñado para la ejecución aislada de agentes de codificación con IA
Mientras la mayoría de los sandboxes para agentes se crean de forma efímera para una tarea y luego desaparecen, Sprites ofrece entornos Linux persistentes con capacidades ilimitadas de checkpoint y restauración
Permite a los desarrolladores tomar snapshots de todo el estado del entorno, incluyendo dependencias instaladas, configuración de runtime y cambios en el sistema de archivos, para poder hacer rollback cuando un agente se descarrila
Esto va más allá de lo que Git por sí solo puede recuperar, ya que captura estado del sistema que el control de versiones no rastrea
A medida que los equipos adoptan cada vez más la sandboxed execution for coding agents como una opción razonable por defecto, Sprites representa un extremo del espectro: un enfoque persistente y con estado que intercambia la simplicidad de los contenedores efímeros por opciones de recuperación más ricas
Los equipos que evalúan sandboxing para agentes pueden considerar Sprites junto con alternativas efímeras como Dev Containers, según sus necesidades y flujos de trabajo

64. torchforge

Biblioteca nativa de PyTorch para aprendizaje por refuerzo diseñada para postentrenamiento a gran escala de modelos de lenguaje
Ofrece abstracciones de alto nivel que separan la lógica algorítmica de las preocupaciones de infraestructura, orquestando Monarch para ajuste, vLLM para inferencia y torchtitan para entrenamiento distribuido
Este enfoque permite a los investigadores expresar flujos complejos de aprendizaje por refuerzo con una API similar a pseudocódigo y escalar cargas de trabajo a miles de GPU sin gestionar preocupaciones de bajo nivel como sincronización de recursos, scheduling o tolerancia a fallos
Al separar el "qué" (diseño del algoritmo) del "cómo" (ejecución distribuida), torchforge simplifica la experimentación y la iteración en sistemas de alineación a gran escala
Es un paso útil para hacer más accesibles las técnicas avanzadas de postentrenamiento, aunque los equipos deben evaluar su madurez y encaje dentro de su infraestructura de ML existente

65. torchtitan

Plataforma nativa de PyTorch para el preentrenamiento a gran escala de modelos de IA generativa, que ofrece una implementación de referencia limpia y modular para entrenamiento distribuido de alto rendimiento
Reúne primitivas distribuidas avanzadas en un sistema cohesivo para soportar paralelismo 4D de datos, tensores, pipeline y contexto (4D parallelism)
Dado que entrenar modelos del tamaño de Llama 3.1 405B exige escala y eficiencia considerables, torchtitan ofrece una base práctica para construir y operar cargas de entrenamiento de gran tamaño
Su diseño modular facilita que los equipos experimenten y evolucionen sus estrategias de paralelización manteniendo preparación para producción
Es un paso útil para estandarizar el entrenamiento de modelos a gran escala en el ecosistema PyTorch, especialmente para equipos que construyen su propia infraestructura de preentrenamiento

[Tools]

Adopt

66. Axe-core

Herramienta de pruebas open source para la detección de problemas de accesibilidad en sitios web y otras aplicaciones basadas en HTML
Verifica páginas para cumplir estándares como WCAG — incluyendo niveles de conformidad A, AA y AAA — y señala prácticas generales recomendadas de accesibilidad
Desde su primera aparición en el Radar como Trial en 2021, varios equipos han adoptado Axe-core con clientes
La accesibilidad es cada vez más un atributo de calidad indispensable, y en Europa regulaciones como la European Accessibility Act obligan a las organizaciones a cumplir requisitos de accesibilidad en servicios digitales
Encaja bien en flujos modernos de desarrollo al habilitar verificaciones automatizadas en pipelines de CI
Ayuda a los equipos a prevenir regresiones, mantener el cumplimiento y recibir retroalimentación temprana durante el desarrollo, en especial para asegurar que la accesibilidad forme parte del ciclo de retroalimentación cuando hay una adopción amplia de herramientas de codificación asistida por IA y agentic

67. Claude Code

Herramienta de codificación con IA agentic de Anthropic para planear y ejecutar flujos de trabajo complejos de múltiples pasos
Equipos dentro y fuera de Thoughtworks la usan cotidianamente para entregar software en producción, y se considera ampliamente un referente de capacidad y usabilidad, por lo que pasó a Adopt
Aunque el entorno de agentes por CLI se ha expandido rápidamente con herramientas como Codex CLI de OpenAI, Gemini CLI de Google, OpenCode y pi, Claude Code sigue siendo la opción preferida para muchos equipos
Su uso se ha ampliado más allá de escribir código hacia la ejecución de flujos de trabajo más amplios que incluyen especificaciones, historias, configuración, infraestructura, documentación y procesos de negocio definidos en markdown
Sigue incorporando capacidades que otras herramientas buscan emular, como skills, subagentes, control remoto y flujos de trabajo agentic para equipos
Los equipos que la adoptan necesitan prácticas operativas disciplinadas y trabajo en pairing; la codificación agentic desplaza el esfuerzo del desarrollador de la implementación manual hacia la definición de intención, restricciones y límites de revisión
Puede acelerar la entrega, pero aumenta el riesgo de complacencia con el código generado por IA, haciendo más difícil mantener y evolucionar el sistema tanto para humanos como para agentes
Crece el interés en context engineering (conciencia temática, selección de contexto basada en alcance) y en cómo implementar curated shared instructions y harness engineering para volver más confiables los flujos de trabajo agentic

68. Cursor

Junto con Claude Code, aparece de forma consistente como una de las opciones predeterminadas para equipos de entrega y uno de los agentes de codificación más adoptados
Ha madurado hasta convertirse en un entorno agentic integral con funciones como plan mode, hooks y subagents
Aunque los agentes basados en terminal también son populares, muchos desarrolladores encuentran que supervisar al agente dentro del IDE ofrece una experiencia más rica para revisar y refinar planes antes de ejecutarlos
La adopción de Agent Client Protocol redujo la barrera para la gran base de usuarios de JetBrains, haciendo que las capacidades de Cursor sean accesibles desde esos IDE
Resulta especialmente valiosa la capacidad de inspeccionar pasos individuales del agente o de volver a una etapa previa cuando el plan se desvía
El uso de Agent Skills ayuda a los equipos a empaquetar instrucciones reutilizables y a estandarizar cómo los agentes interactúan con codebases complejos
Aunque las ganancias de productividad son claras, la autonomía agentic todavía requiere pruebas automatizadas rigurosas y supervisión humana para detectar regresiones sutiles

69. Kafbat UI

Interfaz web open source gratuita para monitorear y administrar clústeres de Apache Kafka
Especialmente útil cuando los equipos necesitan inspeccionar payloads difíciles de leer durante la depuración cotidiana
Los equipos suelen atorarse al depurar mensajes cifrados, y el soporte SerDes integrado y extensible por plugins de Kafbat UI ofrece una forma práctica de aplicar descifrado o decodificación personalizada para poder leer de nuevo los mensajes
Ofrece retroalimentación más rápida que los scripts de depuración de un solo uso y una mejor experiencia operativa para equipos de desarrollo y soporte
Recomendado para entornos con uso intensivo de Kafka, donde la inspección segura de mensajes y la resolución eficiente de problemas deberían ser prácticas estándar

70. mise

Desde la última evaluación, evolucionó de ser una alternativa de alto rendimiento a asdf a convertirse en la interfaz principal del entorno de desarrollo
Unifica tres preocupaciones fragmentadas —gestión de versiones de herramientas e idiomas, gestión de variables de entorno y ejecución de tareas— en una sola herramienta de alto rendimiento basada en Rust, configurada con archivos declarativos mise.toml
mise es fácil de configurar y funciona bien con pipelines de CI/CD
Mediante integración con Cosign y GitHub Artifact Attestations, añade una capa de seguridad de la cadena de suministro que suele faltar en otros administradores de versiones
Es una opción predeterminada recomendada para equipos que buscan estandarizar la configuración del entorno de desarrollo
Especialmente útil en entornos políglotas con múltiples microservicios cuando los codebases adoptan nuevas versiones de lenguaje al mismo tiempo
También funciona con herramientas existentes específicas de cada lenguaje, por lo que los equipos no necesitan migrarlo todo de una sola vez

Trial

71. cargo-mutants

Herramienta de mutation testing para Rust, que ayuda a ir más allá de métricas simples de cobertura de código
Inyecta automáticamente errores pequeños e intencionales, como intercambiar operadores o devolver valores por defecto, para verificar si las pruebas existentes realmente detectan regresiones
Su enfoque de cero configuración es especialmente efectivo; a diferencia de herramientas anteriores, no requiere cambios en el árbol de código fuente
Ofrece un ciclo de retroalimentación útil para equipos nuevos en Rust, ayudando a identificar casos límite faltantes y a mejorar la confiabilidad de pruebas unitarias y de integración
cargo-mutants es una implementación especializada de mutation testing, una práctica que también se está probando en otros ecosistemas
El principal costo es el aumento en el tiempo de ejecución de las pruebas, ya que cada mutant requiere un build incremental
Para manejarlo, se recomienda apuntar a módulos específicos durante el desarrollo local o ejecutar el conjunto completo de forma asíncrona en CI
A veces puede ser necesario filtrar mutants lógicamente equivalentes, pero el aumento resultante en la confiabilidad de las pruebas supera el ruido adicional

72. Claude Code plugin marketplace

Antes, compartir comandos personalizados, agentes especializados, servidores MCP y skills era un proceso manual en el que los desarrolladores copiaban y pegaban instrucciones desde Confluence u otras fuentes externas
Esto a menudo provocaba desfase de versiones, y que los miembros del equipo usaran instrucciones de proyecto desactualizadas
Los equipos están aprovechando Claude Code plugin marketplace para usar un modelo de distribución basado en Git y distribuir comandos, prompts y skills compartidos
Al alojar marketplaces internos del equipo en GitHub o plataformas similares, las organizaciones pueden distribuir estos artefactos de forma más segura y consistente
Los desarrolladores pueden sincronizar directamente a su entorno local flujos de trabajo y herramientas impulsados por IA mediante la CLI
Otros agentes de codificación como Cursor también admiten plugin marketplace de equipo, habilitando una forma más simplificada y gobernada de compartir estos artefactos

73. Dev Containers

Usan el archivo de configuración devcontainer.json como una forma estandarizada de definir entornos de desarrollo contenerizados y reproducibles
Originalmente se diseñaron para ofrecer una configuración de desarrollo consistente a los equipos, pero se descubrió un nuevo caso de uso atractivo como entorno de ejecución aislado para agentes de codificación
Al ejecutar agentes de codificación con IA dentro de un Dev Container, quedan aislados del sistema de archivos, las credenciales y la red del host, lo que permite a los equipos otorgar permisos amplios al agente sin poner en riesgo la máquina host
La especificación abierta tiene soporte nativo en herramientas basadas en VS Code, como VS Code y Cursor
DevPod amplía el soporte de devcontainer a cualquier editor o flujo de trabajo de terminal mediante SSH
Adoptan un enfoque efímero por defecto —es decir, el contenedor se reconstruye desde la configuración cada vez que inicia—, lo que ofrece un límite de seguridad limpio a costa de reinstalar herramientas y dependencias
Para equipos que necesitan estado persistente o capacidades de checkpoint y restauración, existen otras alternativas de enfoque como Sprites
Además del sandboxing de agentes, también ofrecen beneficios de seguridad de la cadena de suministro, al definir la toolchain en una configuración declarativa y reducir la exposición a paquetes comprometidos y dependencias inesperadas

74. Figma Make

Anteriormente apareció como un blip de self-serve UI prototyping with GenAI, y esta técnica ahora ha sido adoptada ampliamente por equipos de desarrollo, incluidos product managers y diseñadores, para generar prototipos de alta fidelidad aptos para pruebas con usuarios
Figma Make es una opción poderosa porque aprovecha componentes y capas reales del sistema de diseño, haciendo que los resultados se parezcan mucho a la aplicación en producción
Usa modelos de IA personalizados entrenados con patrones de diseño de alta calidad
Los equipos la están usando para crear nuevas pantallas de diseño, mejorar pantallas existentes y construir prototipos compartibles para recopilar retroalimentación rápida de usuarios

75. OpenAI Codex

Ha evolucionado a una herramienta de codificación agentic independiente disponible mediante app de macOS y CLI
Está diseñada para delegar trabajo autónomo: al recibir un prompt, planifica, implementa e itera a través de archivos con mínima intervención
Es efectiva como herramienta de borrador rápido, especialmente útil para trabajo greenfield y tareas de implementación repetitivas
Sin embargo, OpenAI Codex tiende a proponer patrones de librerías funcionalmente desactualizados aunque lógicamente sólidos, por lo que las pruebas automatizadas y la revisión humana son indispensables
Como otras herramientas agentic de este Radar, el riesgo de acumular deuda técnica sutil es real y es proporcional al nivel de autonomía que el equipo le otorgue

76. Typst

Un sistema de composición tipográfica basado en markup que se ha posicionado como el sucesor moderno de LaTeX para la generación programática de documentos
Combina tipografía de alta calidad con una sintaxis más simple, y ofrece un pipeline de compilación notablemente rápido que compila incluso documentos muy grandes en una fracción del tiempo de la toolchain tradicional de LaTeX
Typst ofrece mensajes de error más claros y capacidades de scripting integradas como condicionales y bucles
Puede cargar datos estructurados desde JSON o CSV, por lo que se adapta bien a la generación automatizada de documentos
Los equipos lo usan para generar estados de cuenta e informes para clientes de banca y servicios financieros que necesitan generación a gran escala con formato consistente
El compilador open source puede hospedarse de forma autónoma, y su ecosistema en crecimiento incluye paquetes aportados por la comunidad
Es más accesible que LaTeX y aun así ofrece una calidad tipográfica comparable

Assess

77. Agent Scan

Un escáner de seguridad para ecosistemas de agentes que descubre componentes locales, incluidos servidores MCP y skills, y marca riesgos como prompt injection, tool poisoning, toxic flow, secretos hardcodeados y manejo inseguro de credenciales
Aborda una brecha emergente en la visibilidad de la cadena de suministro de agentes, ofreciendo una forma práctica de inventariar y probar una superficie agentic en rápido crecimiento
Sin embargo, su adopción debe ser intencional: el escaneo requiere compartir metadatos de componentes con la API de Snyk, y la calidad de la señal y la tasa de falsos positivos deben validarse en cada entorno
Es importante que los equipos confirmen su valor operativo antes de convertir Agent Scan en parte de una compuerta obligatoria de entrega

78. Beads

Un rastreador de issues basado en Git diseñado como una capa de memoria persistente para agentes de codificación
En lugar de depender de planes temporales en Markdown, ofrece a los agentes un grafo de trabajo con estructura amigable para ramas para manejar relaciones de bloqueo, detectar trabajo listo y coordinar tareas de largo plazo entre sesiones
Beads está construido sobre Dolt, una base de datos SQL con control de versiones integrado que admite branch, merge, diff y replicación de tablas de forma similar a un repositorio Git
Representa una nueva categoría de herramientas de memoria de proyecto y seguimiento de tareas nativas para agentes
Otros proyectos tempranos en este espacio incluyen ticket y tracer
A diferencia de sistemas tradicionales de ticketing como GitHub Issues y Jira, habilita nuevos flujos de trabajo para coordinar ejecuciones autónomas multiagente, incluida la asignación de trabajo entre agentes

79. Bloom

Una herramienta de Anthropic para investigadores de seguridad de IA que evalúan el comportamiento de LLM
Detecta comportamientos como sycophancy (adulación) y self-preservation (autopreservación)
Frente a benchmarks estáticos, usa una configuración semilla que define el comportamiento objetivo y los parámetros de evaluación para generar dinámicamente diversas conversaciones de prueba y luego evaluar los resultados
Este enfoque de evaluación automatizada de comportamiento es esencial para seguir el ritmo de lanzamiento de modelos y permite que equipos de investigación externos realicen evaluaciones
Petri es una herramienta complementaria que identifica qué comportamientos aparecen en un modelo dado, mientras que Bloom identifica en qué escenarios y con qué frecuencia ocurren esos comportamientos; juntas forman una suite de evaluación más completa
Una preocupación con Bloom es que requiere un modelo maestro (o evaluador) para evaluar un modelo estudiante dado; el modelo maestro puede tener puntos ciegos y sesgos, por lo que usar múltiples evaluadores puede reducir el sesgo en los resultados
Vale la pena que los equipos de investigación en seguridad de IA la evalúen como complemento a los benchmarks estáticos para evaluar comportamientos emergentes de modelos

80. CDK Terrain

fork comunitario de Cloud Development Kit for Terraform(CDKTF), que HashiCorp discontinuó y archivó en diciembre de 2025
CDK Terrain (CDKTN) retoma donde CDKTF se quedó; permite a los equipos definir infraestructura con TypeScript, Python y Go, y aprovisionarla mediante Terraform u OpenTofu
Para equipos que ya invirtieron en CDKTF, preserva el código y los flujos de trabajo existentes, y ofrece una ruta de migración en lugar de forzar un cambio a HCL o Pulumi
El proyecto publica versiones cada mes y añadió soporte para OpenTofu como objetivo de primera clase
Sin embargo, los forks comunitarios que mantienen proyectos abandonados por el proveedor conllevan riesgos inherentes respecto al soporte a largo plazo, y el enfoque de CDKTF no logró una adopción amplia
HashiCorp citó la falta de product-market fit al discontinuarlo
Los equipos que actualmente usan CDKTF pueden evaluar CDK Terrain como opción de continuidad, pero también deben sopesar si es el momento adecuado para migrar a un enfoque con soporte más amplio

81. CodeScene

Apareció como blip de social code analysis en 2017, y el aumento en la adopción de agentes de código ha renovado el interés por herramientas como CodeScene
Herramienta de análisis conductual de código que combina métricas de complejidad del código con el historial de control de versiones para identificar deuda técnica
A diferencia del análisis estático tradicional, destaca los "hotspots" para ayudar a los equipos a priorizar refactorizaciones según la actividad real de desarrollo y el impacto en el negocio
Ahora también ofrece orientación para diseño de código amigable con IA
Los equipos están descubriendo que la calidad del código se vuelve aún más importante porque los agentes de código pueden modificar código mucho más rápido que los desarrolladores humanos
La métrica CodeHealth de CodeScene sirve como una barrera útil al identificar áreas demasiado complejas para que un LLM las refactorice con seguridad sin riesgo de alucinaciones
Se recomienda evaluarlo como barrera de protección para la adopción de agentes de código, ya que la métrica CodeHealth resalta objetivos seguros para refactorizar e indica áreas que deben mejorarse antes de aplicar agentes

82. ConfIT

Biblioteca que define de forma declarativa en JSON pruebas de API de integración y de estilo componente, en vez de escribirlas de forma imperativa como código
Hay más interés en este enfoque porque los grandes suites de pruebas suelen acumular boilerplate alrededor del cliente HTTP, la configuración de solicitudes y las aserciones
El desarrollo asistido por IA refuerza esta tendencia, ya que las definiciones de prueba estructuradas son más fáciles de generar y mantener que el código procedimental verboso
Con base en la experiencia de clientes y en su evaluación, la capa declarativa reduce la duplicación entre pruebas de componente e integración, mejora la legibilidad y facilita evolucionar la intención de las pruebas en todo el equipo
Sin embargo, ConfIT en sí tiene adopción comunitaria limitada y un ecosistema pequeño, por lo que resulta difícil recomendarlo ampliamente pese a esas ventajas
Vale la pena evaluarlo para equipos .NET que exploran pruebas de API guiadas por especificaciones, pero es necesario validar la viabilidad de mantenimiento a largo plazo, el encaje en el ecosistema y los trade-offs operativos

83. Entire CLI

Se engancha a los flujos de trabajo de Git para capturar sesiones de agentes de código con IA — transcripciones, prompts, llamadas a herramientas, archivos tocados y uso de tokens — como metadatos consultables almacenados en una rama dedicada del repositorio
Soporta Claude Code, Gemini CLI, OpenCode, Cursor, Factory AI Droid y GitHub Copilot CLI
A medida que los agentes de IA se vuelven contribuyentes principales del codebase, los equipos se enfrentan a una brecha creciente entre lo que Git rastrea y lo que realmente ocurre durante las sesiones de codificación
Entire CLI crea una pista de auditoría de la actividad del agente registrando la sesión completa junto con los commits, sin contaminar el historial de la rama principal
Su sistema de checkpoints también habilita una recuperación práctica, permitiendo a los equipos volver a un estado conocido como bueno cuando el agente se desvía y reanudar desde cualquier checkpoint
Aunque la herramienta es muy nueva y el ecosistema de trazabilidad de sesiones de agentes aún se está formando, la captura de sesiones nativa de Git encaja de forma natural para equipos con requisitos de cumplimiento o auditoría relacionados con código generado por IA

84. Git AI

Extensión open source de Git para rastrear código generado por IA y vincular cada línea escrita por IA con el agente, modelo y prompt que la generó
Git AI usa checkpoints y hooks para rastrear cambios de código incrementales entre el inicio y el fin de un commit
Cada checkpoint incluye el diff entre el estado actual y el checkpoint anterior, marcado como escrito por IA o por un humano
Este enfoque es más preciso que los enfoques centrados en contar líneas de código en el momento de inserción
Usa un estándar abierto basado en Git Notes para rastrear código generado por IA
Aunque el ecosistema de agentes compatibles aún está madurando, vale la pena evaluarlo para equipos que buscan mantener responsabilidad y mantenibilidad a largo plazo en flujos de trabajo agentic
Tanto humanos como agentes de IA pueden consultar sesiones de agente archivadas mediante la habilidad /ask para preguntar por la intención original y las decisiones de arquitectura detrás de bloques específicos de código

85. Google Antigravity

Fork independiente de VS Code construido sobre tecnología licenciada de Windsurf, lanzado en public preview junto con Gemini 3 en noviembre de 2025
Reconfigura el IDE en torno a la orquestación multiagente: Agent Manager ejecuta múltiples agentes en paralelo a través de tareas, un navegador Chromium integrado permite que los agentes interactúen directamente con una UI en vivo y un sistema de skills guarda instrucciones reutilizables de agentes en el repositorio
Agent Manager funciona más como un panel de "Mission Control" que como una barra lateral de chat estándar, lo que implica un cambio fundamental en el rol del desarrollador: de escribir código línea por línea a orquestar múltiples flujos de trabajo autónomos
Cuando hace falta, los desarrolladores aún pueden entrar al editor para mantener control human-in-the-loop (HITL)
Google Antigravity se integra con Google Cloud y Firebase mediante Model Context Protocol y soporta desarrollo de agentes con Agent Development Kit
Sigue en estado de public preview, no hay fecha de GA y su postura de seguridad y preparación empresarial aún siguen evolucionando
Su modelo de ejecución multiagente y su acceso autónomo al navegador señalan la dirección de los IDE agentic

86. Google Mainframe Assessment Tool

Ayuda a las organizaciones con la ingeniería inversa de aplicaciones que se ejecutan en mainframes, analizando todo el portafolio o sistemas individuales
En su núcleo depende de analizadores sintácticos deterministas del lenguaje para mapear el flujo de llamadas y las dependencias de datos en toda la base de código, generando una vista estructural de cómo interactúan las aplicaciones
Sobre esa base, las capacidades de IA generativa ofrecen resúmenes, documentación, generación de casos de prueba y propuestas de modernización
Este enfoque se alinea con el patrón más amplio de comprender bases de código heredadas usando GenAI, donde una comprensión sólida del sistema constituye la base para un uso eficaz de la IA
Aunque Google Mainframe Assessment Tool todavía no es compatible con todos los stacks tecnológicos principales de mainframe, está evolucionando rápidamente
Los equipos descubrieron que resulta útil en proyectos con clientes enfocados en el descubrimiento y la modernización de aplicaciones mainframe

87. OpenCode

Está emergiendo rápidamente como uno de los agentes de codificación open source más destacados, con una sólida experiencia centrada en la terminal
Una fortaleza clave es su flexibilidad de modelos: admite modelos frontier alojados, endpoints autoalojados y modelos locales
Esto hace que OpenCode sea atractivo para control de costos, personalización y entornos restringidos, incluidas configuraciones air-gapped
Esto significa que los usuarios deben ser explícitos respecto a licencias y términos del proveedor al usar una suscripción o una API
El modelo de extensibilidad de OpenCode es otro punto clave de su atractivo, ya que admite tanto plugins como integraciones MCP para flujos de trabajo, herramientas y guardrails específicos por equipo
Muchos usuarios aprovechan Oh My OpenCode, un harness opcional pero popular que ofrece una configuración más opinada y batteries-included, con equipos de agentes ajustados y patrones de orquestación más ricos

88. OpenSpec

A medida que evolucionan las capacidades de los agentes de codificación con IA, los desarrolladores enfrentan cada vez más retos de previsibilidad y mantenibilidad cuando los requisitos y el contexto solo existen en historiales de chat efímeros
Para abordar esto, han surgido herramientas de spec-driven development (SDD)
OpenSpec es un framework open source de SDD que introduce una capa ligera de especificación para garantizar que los desarrolladores humanos y los agentes de IA estén alineados sobre qué construir antes de generar código
Lo que lo diferencia es su flujo de trabajo fluido y mínimo, a menudo reducido a tres pasos: propose → apply → archive
Muchos frameworks de SDD (GitHub Spec Kit, por ejemplo) o flujos de trabajo de Agentic Skills (Superpowers, por ejemplo) son más adecuados para proyectos greenfield que para brownfield
En lugar de exigir una definición completa de especificaciones por adelantado, el enfoque de OpenSpec en spec deltas funciona especialmente bien y se adapta bien a sistemas existentes
A diferencia de alternativas pesadas que imponen flujos de trabajo más estrictos (BMAD, por ejemplo) o requieren integraciones IDE específicas de proveedor (Kiro, por ejemplo), es iterativo y neutral respecto a las herramientas
Es un framework amigable para desarrolladores que vale la pena evaluar para equipos que quieran introducir estructura y previsibilidad en el desarrollo asistido por IA sin adoptar un proceso pesado
Al mismo tiempo, a medida que los modelos y los agentes de codificación se vuelven más potentes, también recomiendan que los equipos monitoreen y revisiten las capacidades nativas, y reevalúen la necesidad de herramientas SDD

89. PageIndex

Es una herramienta para construir índices jerárquicos de documentos para pipelines RAG basados en razonamiento y sin vectores, en lugar de depender de la búsqueda tradicional basada en embeddings
Mientras que dividir documentos en vectores puede hacer que se pierda información estructural y limitar la visibilidad de por qué se recuperó un resultado, PageIndex construye un índice tipo tabla de contenidos que el LLM recorre paso a paso para recuperar contenido relevante
Similar a cómo una persona escanea encabezados y luego profundiza en secciones específicas, genera un rastro explícito de razonamiento que explica por qué se seleccionó una sección determinada
Funciona bien para documentos cuyo significado depende en gran medida de la estructura más que de la semántica, por ejemplo, reportes financieros con datos numéricos, documentos legales con cláusulas cruzadas y documentos clínicos o científicos complejos
Sin embargo, esto implica compensaciones: como el razonamiento del LLM forma parte del proceso de recuperación, puede introducir latencia y costos significativos, especialmente en documentos grandes

90. Pencil

Es una herramienta de lienzo de diseño que se integra con IDE y agentes de codificación como Cursor y Claude Code
A diferencia de Figma, que actualmente solo ofrece acceso de lectura, Pencil ejecuta un servidor MCP local bidireccional que proporciona tanto acceso de lectura como de escritura para manipular directamente el lienzo
Al igual que herramientas como Figma Make y Builder.io, también ofrece capacidades de design-to-code, pero con un enfoque más centrado en desarrolladores: los archivos de diseño se almacenan en el repositorio en un formato JSON abierto llamado .pen, lo que permite versionar los activos de diseño junto con el código
Su integración con herramientas familiares para desarrolladores ayuda a cerrar la brecha en el handoff entre diseño y desarrollo
Para sistemas de diseño grandes y complejos, Figma sigue siendo el estándar de colaboración entre distintos roles
Sin embargo, vale la pena considerarlo para equipos sin diseñadores dedicados o equipos con desarrolladores que tienen fuertes habilidades de diseño

91. Pi

Es un agente minimalista open source de codificación en terminal escrito en TypeScript
Es una opción atractiva para tinkerers y experimentadores, no una opción predeterminada del mainstream empresarial
Pi es un harness bare-bones más personalizable que agentes más completos como OpenCode
Es más fácil de adaptar que construir un agente nuevo con frameworks agentic como ADK, LangGraph y Mastra
A pesar de su fuerte impulso y de lanzamientos activos, el proyecto sigue en una etapa temprana y está impulsado principalmente por sus mantenedores
Es necesario tratar a pi como un bloque de construcción orientado a ingenieros, no como una plataforma empresarial completa con guardrails y soporte integrales

92. Qwen 3 TTS

Es un modelo open source de texto a voz que reduce considerablemente la brecha de calidad con productos comerciales y al mismo tiempo ofrece a los desarrolladores más control que muchas API pagadas
Admite múltiples idiomas, permite clonación de voz a partir de muestras cortas (aprox. 10-15 segundos) y ajuste fino posterior al entrenamiento para voces específicas de dominio o de personaje
Es una opción atractiva para equipos que necesitan voces específicas de marca o control on-prem
Qwen 3 TTS se lanzó recientemente, por lo que los equipos deben validar estabilidad, controles de seguridad, idoneidad de la licencia y madurez operativa antes de adoptarlo para cargas de trabajo de voz críticas para producción

93. SGLang

framework de serving de alto rendimiento que reduce la sobrecarga computacional de la inferencia de LLM mediante el codiseño del lenguaje de programación frontend y el runtime backend
incorpora RadixAttention, una técnica de gestión de memoria que almacena en caché y reutiliza activamente el estado KV (clave-valor) a lo largo del prompt
este enfoque ofrece mejoras de rendimiento significativas frente a motores de serving estándar como vLLM en escenarios con alto prefix overlap
para equipos que construyen agentes autónomos complejos, dependen de prompts de sistema largos o usan ampliamente few-shot prompting con ejemplos compartidos, SGLang puede aportar ganancias importantes en latencia y eficiencia

94. ty

a medida que Python sigue creciendo en popularidad, especialmente en el espacio de IA y ciencia de datos, tener un sistema de tipos sólido se vuelve cada vez más valioso
Ty es un checker de tipos y servidor de lenguaje para Python extremadamente rápido, escrito en Rust
forma parte del ecosistema de Astral, que también incluye herramientas como uv y ruff
proporciona retroalimentación rápida y se integra bien con editores comunes como Visual Studio Code
usar ty junto con otras herramientas de Astral puede simplificar el desarrollo en Python en organizaciones grandes
a medida que la programación agentic se vuelve más común, contar con un checker de tipos determinista con ciclos de retroalimentación rápidos ayuda a detectar errores temprano y a reducir el esfuerzo de revisión de código por fallos simples

95. Warp

desde su última inclusión en el Radar, Warp ha evolucionado mucho más allá de la descripción de "terminal con funciones de IA"
mantiene sus fortalezas principales — salida de comandos basada en bloques, sugerencias impulsadas por IA y funciones tipo notebook — mientras se expande hacia territorio tradicionalmente ocupado por los IDE
ahora puede renderizar Markdown, mostrar árboles de archivos y abrir archivos directamente desde la terminal, además de soportar flujos de trabajo completos de desarrollo agentic en varios paneles: un agente de programación como Claude Code en un panel, el shell en otro y una vista de archivos del workspace en un tercero
una ventaja práctica observada es que Warp maneja mejor que las terminales tradicionales la salida de texto de alto volumen que generan los agentes de programación modernos, donde la velocidad de renderizado y la legibilidad pueden volverse cuellos de botella
también agregó un asistente de programación integrado, aunque el equipo no lo ha evaluado ampliamente
Warp lanzó recientemente Oz, una plataforma de orquestación para agentes en la nube integrada con la terminal, pero esta blip se enfoca en la terminal en sí
para equipos que prefieren una terminal ligera y combinable, y quieren traer sus propias herramientas de IA, Ghostty puede ser una mejor opción: en contraste con la filosofía batteries-included de Warp, tiene un enfoque deliberadamente minimalista
el ritmo de nuevas funciones y las ambiciones de plataforma más amplias de Warp hacen que aún sea prematuro moverlo a Trial antes de que el producto se estabilice y se obtenga más experiencia de campo con sus nuevas capacidades

96. WuppieFuzz

fuzzer open source para API REST que usa definiciones OpenAPI para generar solicitudes válidas, las muta para explorar casos límite y se apoya en retroalimentación de cobertura del lado del servidor para priorizar entradas que alcancen nuevas rutas de ejecución
la mayoría de los equipos todavía dependen de integración y pruebas de contrato basadas en ejemplos, y casi no exploran entradas inesperadas, secuencias de solicitudes anómalas ni rutas cargadas de fallos, aunque las API suelen ser la principal superficie de integración de los sistemas modernos
según una evaluación inicial, WuppieFuzz parece ser un complemento prometedor para estas pruebas: puede descubrir problemas como excepciones no controladas, brechas de autorización, filtración de datos sensibles, errores del lado del servidor y defectos lógicos que los tests con scripts podrían pasar por alto
los equipos todavía necesitan evaluar cómo encaja en CI, qué sobrecarga de runtime introduce y qué tan útiles son realmente los resultados
por eso, vale la pena evaluarlo para equipos que construyen API REST críticas o expuestas externamente

Caution

97. OpenClaw

proyecto open source que su autor describe como una categoría de "hyper-personal AI assistant"
permite a los usuarios alojar su propia instancia, mantenerla disponible para uso continuo mediante canales de mensajería como WhatsApp o iMessage, y ejecutar tareas a través de herramientas conectadas
con memoria persistente de conversaciones, preferencias y hábitos, crea una experiencia personal continua que se siente sustancialmente distinta de una interfaz de chat GenAI o de un agente de programación típico
el modelo es claramente atractivo y ya ha inspirado seguidores como Claude Cowork
la razón para ubicar OpenClaw en Caution es que el modelo exige compensaciones de seguridad significativas
cuanto más acceso se le da a calendarios, correo, archivos y comunicaciones, más útil se vuelve, y más concentra privilegios exactamente en el patrón advertido en toxic flow analysis for AI
este riesgo no es exclusivo de OpenClaw: también aplica a otras implementaciones del mismo patrón, incluidos productos de proveedores establecidos
publicaron consejos para equipos que estén considerando OpenClaw y entornos de ejecución sandbox; alternativas como NanoClaw o ZeroClaw pueden reducir el radio de impacto
sin embargo, el patrón de hyper-personal assistant en sí sigue siendo ávido de privilegios y de alto riesgo

[Languages and Frameworks]

Adopt

98. Apache Iceberg

formato de tabla abierto para datasets analíticos a gran escala que define cómo se organizan los archivos de datos, los metadatos y los esquemas en sistemas de almacenamiento como S3
ha evolucionado enormemente en los últimos años y se ha consolidado como un bloque fundamental de las arquitecturas lakehouse tecnológicamente neutrales
cuenta con soporte de todos los principales proveedores de plataformas de datos, incluidos AWS (Athena, EMR, Redshift), Snowflake, Databricks y Google BigQuery, lo que lo convierte en una opción sólida para evitar el lock-in de proveedor
lo que distingue a Apache Iceberg de otros formatos de tabla abiertos es su apertura tanto en capacidades como en gobernanza, en contraste con alternativas cuyas capacidades están limitadas o controladas por un solo proveedor
en términos de confiabilidad, su diseño basado en snapshots ofrece aislamiento serializable, escrituras concurrentes seguras mediante concurrencia optimista e historial de versiones con rollback, brindando fuertes garantías de corrección sin cuellos de botella de rendimiento
aunque Apache Spark es el motor más común, también tiene buen soporte en Trino, Flink, DuckDB y otros, por lo que es apto para una amplia variedad de casos de uso, desde plataformas de datos empresariales hasta análisis local ligero
ha ganado gran confianza como formato de datos estable y abierto en muchos equipos, y se recomienda como opción por defecto para organizaciones que construyen plataformas de datos modernas

99. Declarative Automation Bundles

Anteriormente conocidos como Databricks Asset Bundles, han evolucionado hasta convertirse en una herramienta clave para introducir prácticas de ingeniería de software y CI/CD en el ecosistema de Databricks
Han madurado considerablemente, permitiendo a los equipos gestionar como código la mayoría de los recursos de la plataforma, incluidos clústeres, pipelines ETL, jobs, modelos de machine learning y dashboards
Con el comando databricks bundle plan, los equipos pueden previsualizar cambios y aplicar prácticas de despliegue repetibles para artefactos de Databricks, de forma similar a cómo se gestiona infraestructura con herramientas como Terraform
Al tratar como código activos tradicionalmente cambiantes como dashboards y pipelines de ML, es posible versionarlos, probarlos y desplegarlos con el mismo rigor que los microservicios tradicionales
Con base en experiencia en entornos de producción, Declarative Automation Bundles se han consolidado como un enfoque confiable para gestionar flujos de trabajo de datos y ML en Databricks
Se recomienda a los equipos que trabajan ampliamente en el ecosistema de Databricks considerar su adopción para estandarizar prácticas de gestión de infraestructura

100. React JS

Ha sido la opción predeterminada para el desarrollo de interfaces en JavaScript desde 2016, pero vale la pena revisitarlo porque, como parte de React 19, se lanzó la versión estable de React Compiler el octubre pasado
Al encargarse de la memoización en tiempo de compilación, useMemo y useCallback manuales se vuelven innecesarios en la mayoría de los casos; se recomienda que los equipos los conserven como vía de escape cuando necesiten un control preciso de las dependencias de los effects
Probado extensamente en Meta y con soporte en Expo SDK 54, Vite, Next.js, elimina una categoría de boilerplate de rendimiento que por mucho tiempo fue un costo de trabajar a gran escala con React
React 19 también introduce Actions y hooks como useActionState y useOptimistic, lo que simplifica el manejo de formularios y la mutación de datos sin depender de librerías externas
En 2025 se lanzó la React Foundation bajo la Linux Foundation — Amazon, Expo, Callstack, Microsoft, Software Mansion y Vercel se unieron a Meta — reforzando la estabilidad de largo plazo de la librería y atendiendo preocupaciones que históricamente citaban los equipos más cautelosos al evaluar su adopción

101. React Native

Pasa a Adopt como la opción predeterminada para el desarrollo móvil multiplataforma
Antes estaba en Trial, pero el despliegue de la New Architecture — específicamente JSI y Fabric — resuelve preocupaciones históricas sobre cuellos de botella del bridge y velocidad de arranque
Se han observado ganancias de rendimiento significativas en transiciones complejas de UI y cargas de trabajo intensivas en datos
Al alejarse del bridge asíncrono, React Native ahora ofrece una capacidad de respuesta comparable a implementaciones nativas manteniendo una sola base de código
Se ha usado con éxito en múltiples proyectos en producción, y Expo junto con el ecosistema centrado en React son maduros y estables
Aunque la gestión de estado sigue requiriendo planeación cuidadosa, las ventajas de productividad del flujo de trabajo de fast refresh y del conjunto de habilidades compartidas superan ese costo
Es una recomendación principal para la mayoría de los casos de uso móvil híbrido en equipos que buscan rendimiento, consistencia y velocidad

102. Svelte

Framework de UI en JavaScript que compila componentes a JavaScript optimizado en tiempo de compilación, sin depender de un runtime pesado en el navegador ni de un DOM virtual
Desde su última mención en Trial, más equipos lo han usado con éxito en producción, y SvelteKit lo ha convertido en una opción más sólida para SSR y aplicaciones web full-stack, aumentando la confianza para moverlo a Adopt
Las razones originales para elegir Svelte siguen vigentes: genera bundles pequeños, ofrece un sólido rendimiento en runtime y un modelo de componentes más simple
Nuevas capacidades en Svelte 5 como runes y snippets hacen que la reactividad y la composición de UI sean más explícitas y flexibles
Frente a frameworks frontend más pesados, ofrece una experiencia de desarrollo más limpia con menos código
El feedback de los equipos lo presenta cada vez más como una alternativa confiable a React o Vue, no como una opción de nicho
Aunque aún hay que considerar la familiaridad del ecosistema, la contratación y el encaje con la plataforma, se recomienda como una opción razonable por defecto para construir aplicaciones web modernas donde importan el rendimiento y la simplicidad de entrega

103. Typer

Librería de Python para construir CLI a partir de funciones con anotaciones de tipo estándar, con texto de ayuda automático, autocompletado de shell y una ruta clara desde scripts pequeños hasta aplicaciones CLI grandes
Su relevancia crece a medida que los equipos convierten herramientas internas, automatización y flujos de trabajo de desarrollo adyacentes a IA en CLI de primera clase
Typer es fácil de adoptar en proyectos reales, y los equipos valoran qué tan rápido permite crear comandos claros y legibles
Sus fortalezas incluyen una API basada en type hints, ayuda y autocompletado automáticos, y una ruta de baja fricción desde scripts simples hasta CLI de múltiples comandos
Sin embargo, es una solución específica de Python y puede no ser la mejor opción cuando se necesita un comportamiento de CLI altamente personalizado o consistencia entre lenguajes
Se recomienda para equipos que construyen CLI para flujos de entrega, operación y experiencia de desarrollador

Trial

104. Agent Development Kit (ADK)

Framework de Google para construir y operar agentes de IA, que ofrece abstracciones orientadas a ingeniería de software para orquestación, herramientas, evaluación y despliegue
Desde que se incluyó en Assess, su ecosistema y capacidades operativas han madurado de forma importante, con desarrollo multilenguaje activo y funciones más sólidas de observabilidad y runtime
Los frameworks de agentes nativos de proveedor ahora forman un espacio muy competido — Microsoft Agent Framework, Amazon Bedrock AgentCore, OpenAI Agents SDK, Claude Agent SDK, entre otros, avanzan como opciones competidoras
Alternativas open source como LangGraph y CrewAI siguen siendo elecciones sólidas para equipos que priorizan la portabilidad del framework y ecosistemas más amplios
Aunque ADK sigue en estado pre-GA en algunos aspectos, con partes ocasionalmente toscas y fricción en las actualizaciones, se observa un mayor uso exitoso especialmente en proyectos con inversión en la plataforma de Google

105. DeepEval

Framework open source basado en Python para evaluar el rendimiento de LLM
También puede usarse para evaluar sistemas y aplicaciones de RAG construidos con frameworks como LlamaIndex o LangChain, así como para líneas base y benchmarks de modelos
Más allá de métricas simples de coincidencia de palabras, ofrece evaluaciones más confiables en escenarios del mundo real con medición de precisión, relevancia y consistencia
Incluye capacidades como detección de alucinaciones, puntuación de relevancia de respuestas y optimización de hiperparámetros; resulta especialmente útil la posibilidad de que los equipos definan métricas personalizadas según sus casos de uso
Recientemente, DeepEval se amplió para dar soporte a flujos de trabajo agentic complejos y sistemas de conversación multiturno
Además de evaluar la salida final, ofrece métricas integradas para tool correctness, step efficiency y task completion, incluyendo la evaluación de interacciones con servidores MCP
También incorporó conversation simulation, que genera automáticamente casos de prueba para hacer pruebas de estrés de aplicaciones multigiro a gran escala

106. Docling

Biblioteca open source de Python y TypeScript para convertir documentos no estructurados en salidas limpias y legibles por máquina
Usa un enfoque basado en visión por computadora para comprender diseño y semántica, procesando entradas complejas como PDF, incluidos documentos escaneados, hacia formatos estructurados como JSON y Markdown
Es adecuada para pipelines de RAG y para generar salida estructurada desde LLM, en contraste con enfoques de recuperación centrados primero en visión como ColPali
Docling ofrece una alternativa open source y autohospedada a servicios propietarios administrados en la nube como Azure Document Intelligence, Amazon Textract y Google Document AI, y se integra bien con frameworks como LangGraph
Funciona bien en cargas de trabajo de extracción a escala de producción en PDF digitales y escaneados, incluidos archivos muy grandes con texto, tablas e imágenes
Ofrece un fuerte equilibrio entre calidad y costo para flujos de trabajo agentic RAG downstream

107. LangExtract

Biblioteca de Python para extraer información estructurada de texto no estructurado a partir de instrucciones personalizadas, con grounding preciso en la fuente que vincula cada entidad extraída con su ubicación en el documento original
Procesa materiales específicos de dominio como notas clínicas e informes
Su principal fortaleza es la trazabilidad de la fuente, garantizando que cada dato extraído pueda rastrearse hasta su origen
Las entidades extraídas pueden exportarse a archivos JSONL, un formato estándar para datos de modelos de lenguaje, y visualizarse con una interfaz HTML interactiva para revisión contextual
Los equipos que consideren salida estructurada desde LLM para procesamiento documental deberían evaluar LangExtract junto con enfoques de imposición de esquema como Pydantic AI
LangExtract es más adecuado para materiales fuente largos y no estructurados, mientras que Pydantic AI destaca en restringir el formato de salida para entradas más cortas y predecibles

108. LangGraph

Desde el Radar anterior, se ha observado que la arquitectura de LangGraph, que trata todos los sistemas multiagente como grafos con estado y un estado global compartido, no siempre es la mejor opción para construir sistemas agentic
Los enfoques alternativos usados en frameworks como Pydantic AI también funcionan bien
En lugar de empezar con grafos rígidos y un gran estado compartido, este enfoque prefiere la comunicación simple entre agentes mediante ejecución de código, agregando una estructura de grafo después si hace falta
En muchos casos de uso, produce sistemas más simples y efectivos, y como cada agente solo accede al estado que necesita, es más fácil razonar, probar y depurar
Como resultado, se mueve fuera de Adopt; sigue siendo una herramienta potente, pero ya no se considera la opción predeterminada para construir todos los sistemas agentic

109. LiteLLM

Comenzó como una capa delgada de abstracción sobre múltiples proveedores de LLM y se expandió hasta convertirse en un gateway de IA completo
Más allá de simplificar la integración de APIs, resuelve preocupaciones transversales comunes de los sistemas GenAI: reintentos y failover, balanceo de carga entre proveedores y seguimiento de costos con control de presupuesto
Los equipos adoptan cada vez más LiteLLM como una opción predeterminada razonable para aplicaciones impulsadas por IA
El gateway ofrece un lugar consistente para abordar temas de gobernanza, incluyendo seguimiento de solicitudes, control de acceso, gestión de claves API y guardrails a nivel edge como filtrado de contenido y modificación o enmascaramiento de datos
Sin embargo, los equipos que dependen de funciones diferenciadas de proveedores suelen necesitar parámetros específicos del proveedor, reintroduciendo el acoplamiento que el gateway busca eliminar
El modo drop_params descarta silenciosamente parámetros no soportados, lo que puede provocar pérdida de capacidades sin visibilidad a lo largo de las decisiones de enrutamiento
Es una opción práctica para el control operativo, pero aprovechar capacidades específicas de proveedores implica mantener tanto dependencia del gateway como código acoplado al proveedor

110. Modern.js

Meta-framework de React de ByteDance, ubicado en Trial para equipos con necesidades de micro frontends basadas en Module Federation
El detonante fue práctico: nextjs-mf va rumbo al fin de vida (end-of-life); Pages Router solo recibirá pequeñas correcciones backport, no hay nuevo desarrollo planeado y se espera que las pruebas de CI se eliminen a mediados o finales de 2026
Ante la falta de soporte oficial de Module Federation en Next.js y la descontinuación gradual del plugin de la comunidad, el equipo central de Module Federation recomienda Modern.js como el framework principal con soporte para arquitecturas basadas en federation
El plugin @module-federation/modern-js-v3 ofrece de inmediato el cableado automático de build, y streaming SSR y Bridge API pueden usarse como capacidades separadas
Sin embargo, hay límites en la integración: @module-federation/bridge-react todavía no es compatible con entornos Node, por lo que no puede usarse Bridge en escenarios de SSR
La experiencia inicial es positiva, y la ruta de migración está bien definida para equipos que ya usan Module Federation
El ecosistema fuera de ByteDance todavía está madurando, y necesita documentación más sólida y una participación más estrecha con upstream
Por ahora, justifica la inversión en casos de uso de Module Federation donde no hay alternativas mejor soportadas

Assess

111. Agent Lightning

Framework de optimización y entrenamiento de agentes que habilita optimización automática de prompts, ajuste fino supervisado y aprendizaje por refuerzo agentic
La mayoría de los frameworks de agentes se enfocan en construir agentes, pero no en mejorarlos con el paso del tiempo
Agent Lightning es compatible con frameworks como AutoGen y CrewAI, y permite mejorar continuamente agentes existentes sin cambiar su implementación base
Lo logra mediante un enfoque llamado Training-Agent Disaggregation, que introduce una capa entre el entrenamiento y el framework del agente
Tiene dos componentes centrales: Lightning Server, que administra el proceso de entrenamiento y expone APIs para los modelos actualizados, y Lightning Client, que actúa en tiempo de ejecución recopilando trazas y enviándolas al servidor para apoyar el entrenamiento
Recomendado para que los equipos con despliegues de agentes ya establecidos exploren formas de mejorar continuamente el rendimiento de sus agentes

112. GitHub Spec Kit

En las discusiones de este ciclo, destacó el desarrollo guiado por especificaciones, con la aparición de dos grandes bandos: equipos que dependen de la capacidad de mejora continua de los agentes de código con una estructura mínima, y equipos que prefieren flujos de trabajo definidos y especificaciones detalladas
Varios equipos están experimentando con prácticas spec-driven usando GitHub Spec Kit, principalmente en entornos brownfield
El concepto central de Spec Kit es la constitution, un libro de reglas básico que alinea el ciclo de vida del desarrollo de software
En la práctica, una constitution útil suele capturar alcance del proyecto, contexto del dominio, versiones tecnológicas, estándares de código y estructura del repositorio (por ejemplo, arquitectura hexagonal, módulos en capas), para ayudar a que el agente opere dentro de los límites arquitectónicos previstos
También surgen desafíos como instruction bloat: el conjunto de instrucciones del agente crece al seguir agregando contexto del proyecto y termina en context rot; un equipo lo resolvió extrayendo guías reutilizables como skills, manteniendo concisas las instrucciones del agente y cargando contexto detallado solo cuando es necesario
En sistemas brownfield, gran parte del retrabajo proviene de intenciones poco claras, supuestos ocultos y descubrimiento tardío de restricciones; un equipo adoptó un ciclo de vida spec → plan → tasks → coding → review para ayudar a hacer visibles esos problemas antes
Con el tiempo, movieron el contexto repetible a archivos como .github/prompts/speckit.<command>.prompt.md, acortando los prompts y haciendo más consistente el comportamiento del agente
Se reportaron aspectos toscos como validaciones defensivas innecesarias y salidas en markdown excesivamente verbosas
Algunos de esos problemas se resolvieron personalizando las plantillas e instrucciones de Spec Kit (por ejemplo, limitando la cantidad de archivos markdown generados y reduciendo la verbosidad en consola)
En última instancia, los ingenieros con experiencia y con prácticas sólidas de código limpio y arquitectura son quienes extraen más valor de los flujos de trabajo spec-driven

113. Mastra

Framework open source nativo de TypeScript para construir aplicaciones y agentes de IA
Ofrece un motor de flujos de trabajo basado en grafos, un enfoque integrado para múltiples proveedores de LLM, pausas y reanudaciones human-in-the-loop, además de primitivas de RAG y memoria
También incluye herramientas integradas para crear servidores MCP y para evaluación y observabilidad, con documentación clara para desarrolladores
Mastra ofrece una alternativa a stacks pesados basados en Python, permitiendo que los equipos construyan directamente capacidades avanzadas de IA dentro de ecosistemas web existentes como Node.js o Next.js
Vale la pena evaluarlo para equipos invertidos en el ecosistema TypeScript que quieren evitar cambiar a Python para la capa de IA

114. Pipecat

Framework open source para crear agentes de voz en tiempo real y multimodales con un modelo de pipeline modular para orquestación de STT, LLM, TTS y transporte
Ha despertado fuerte interés porque permite a los equipos iterar rápido sobre el comportamiento conversacional y cambiar de proveedor con fricción relativamente baja
Frente a LiveKit Agents, Pipecat ofrece mayor flexibilidad del framework, pero una ruta a producción menos integrada, especialmente en despliegues autohospedados, confiabilidad del transporte y manejo de turnos de baja latencia a gran escala
Ofrece una base sólida orientada a la ingeniería, pero antes de depender de él para cargas de trabajo de producción críticas para el negocio, requiere un trabajo considerable de ingeniería de plataforma

115. Superpowers

A medida que aumenta el uso de agentes de código, no existe un único flujo de trabajo prescrito para todos los equipos; en cambio, estos están evolucionando flujos de trabajo personalizados según su contexto y restricciones
Superpowers es uno de esos flujos de trabajo, construido con skills componibles
Envuelve a los agentes de código como skills dentro de flujos de trabajo estructurados, fomentando brainstorming antes de programar, planificación detallada antes de implementar, TDD con ciclos red-green-refactor obligatorios, depuración sistemática priorizando la causa raíz y revisión de código después de implementar
Se distribuye como plugin a través de Claude Code plugin marketplace y Cursor plugin marketplace

116. TanStack Start

Framework full-stack para React y Solid construido sobre TanStack Router, comparable con Next.js, con soporte para SSR, caché y muchas de las mismas capacidades
TanStack Start ofrece seguridad end-to-end en tiempo de compilación para funciones de servidor, loaders y routing, reduciendo el riesgo de enlaces rotos o formas de datos inconsistentes en el frontend
Prefiere la configuración explícita por encima de las convenciones, y la experiencia se siente más cercana a trabajar con React puro
Sus capacidades de SSR pueden agregarse gradualmente según sea necesario
Frente a Next.js, que tiene valores predeterminados más opinados y puede provocar comportamientos inesperados si no se conocen bien sus mecanismos internos, resulta más explícito y predecible
El ecosistema de TanStack también ha madurado mucho y ofrece un conjunto potente de herramientas para construir aplicaciones web modernas

117. TOON (Token-Oriented Object Notation)

Codificación legible por humanos de datos JSON diseñada para reducir el uso de tokens cuando se transmite información estructurada a un LLM
Permite mantener JSON en los sistemas existentes y convertirlo solo en los puntos de interacción con el modelo
El costo de tokens, la latencia y las limitaciones de la ventana de contexto se están convirtiendo en consideraciones reales de diseño en pipelines de RAG, flujos de trabajo de agentes y otras aplicaciones con fuerte carga de IA
El JSON crudo a menudo consume tokens en claves repetidas y sobrecarga estructural más que en contenido útil
En evaluaciones iniciales, TOON parece una interesante optimización de última milla para entradas de prompts, especialmente en datasets grandes y regulares donde un formato con conciencia de esquema es más eficiente y más fácil de procesar para el modelo que JSON
No reemplaza a JSON en APIs, bases de datos ni salidas del modelo, y suele ser una mala elección para estructuras profundamente anidadas o no uniformes, arreglos semuniformes y datos tabulares planos donde CSV es más compacto
También puede ser menos adecuado para rutas críticas sensibles a la latencia, donde JSON compacto funciona bien
Vale la pena evaluarlo para equipos que construyen aplicaciones con LLM donde el tamaño de las entradas estructuradas representa un costo o una preocupación de calidad significativa, aunque conviene compararlo con JSON o CSV usando sus propios datos y stack de modelos

118. Unsloth

Framework open source enfocado en hacer que el ajuste fino y el aprendizaje por refuerzo de LLM sean considerablemente más rápidos y eficientes en memoria
El ajuste fino de LLM incluye decenas de miles de millones de multiplicaciones de matrices, lo que se beneficia de la aceleración por GPU, y Unsloth optimiza estas operaciones convirtiéndolas en kernels personalizados de alta eficiencia para GPUs NVIDIA, reduciendo drásticamente el costo y el uso de memoria
Hace posible ajustar modelos en GPUs de consumo T4 o superiores en lugar de costosos clústeres H100
Soporta LoRA, ajuste fino completo, entrenamiento multi-GPU y ajuste fino con contexto largo (hasta 500K tokens), para modelos populares como Llama, Mistral, DeepSeek-R1, Qwen y Gemma
A medida que las aplicaciones de IA específicas de dominio dependen cada vez más del ajuste fino, Unsloth reduce de forma significativa la barrera de entrada

Publicado Thoughtworks Technology Radar, Volumen 34

Los retos de evaluar tecnología en la era de los agentes

Mantener los principios, pero revisar los patrones

Los problemas de seguridad de los agentes hambrientos de permisos

Ponerle rienda a los agentes de codificación

[Techniques]

Adopt

Trial

Assess

Caution

[Plataformas]

Adopt

Trial

Assess

[Tools]

Adopt

Trial

Assess

Caution

[Languages and Frameworks]

Adopt

Trial

Assess

Lecturas relacionadas

Aún no hay comentarios.