Se acerca el fin de la observabilidad (y estoy bien con eso)

(honeycomb.io)

22 puntos por GN⁺ 2025-06-13 | 4 comentarios | Compartir por WhatsApp

Durante las últimas décadas, el objetivo central de las herramientas de observabilidad ha sido hacer comprensibles para los humanos grandes volúmenes de datos de telemetría heterogéneos
Con la llegada de la IA y los LLM, el paradigma tradicional centrado en "dashboards + alertas + muestreo" está cambiando, y el proceso de análisis está siendo reemplazado por automatización
En la práctica, un agente de IA analizó la causa de un pico de latencia en 80 segundos con 8 llamadas a herramientas, automatizando una tarea que antes se hacía en demos y resolviéndola por apenas 60 centavos
Los dashboards bonitos o la instrumentación conveniente ya no aportan un valor diferencial, porque los LLM están convirtiendo el análisis en un commodity y OpenTelemetry está haciendo lo mismo con la instrumentación
La observabilidad del futuro tendrá como clave del éxito los bucles de retroalimentación rápidos y los flujos de trabajo colaborativos entre IA y personas, impulsando una era de más software y más automatización

Historia de las herramientas de observabilidad y llegada de la IA

Durante décadas, el propósito central de las herramientas de observabilidad ha sido comprimir y resumir enormes volúmenes de datos heterogéneos (telemetría) hasta volverlos comprensibles para las personas
Cada vez que aparecía una nueva abstracción de software (como Rails, AWS, Kubernetes, OpenTelemetry, etc.),
se desarrollaban diversas herramientas como monitoreo, medición, dashboards, alertas adaptativas y muestreo dinámico para ocultar esa complejidad, entregando los datos comprimidos de una forma acorde con la capacidad cognitiva humana

LLM = aproximador universal de funciones, y ahora de verdad útil

Matemáticamente, un LLM no es más que un aproximador universal de funciones (universal function approximator), pero en la práctica resulta muy útil para resolver problemas de observabilidad
Como ejemplo, en una demo de Honeycomb se le pidió en lenguaje natural a un agente de IA que analizara un pico de latencia en un heatmap
- “Analiza la causa de los picos de latencia que ocurren cada 4 horas en el servicio de frontend”
- Integración entre un LLM listo para usar (Claude Sonnet 4) y el Model Context Protocol (MCP) de Honeycomb
- 80 segundos, 8 llamadas a herramientas y un costo de solo 60 centavos para analizar automáticamente la causa
Alcanzó un nivel en el que puede resolver escenarios reales en zero-shot, sin prompts adicionales, entrenamiento aparte ni guías
Commoditización del análisis:
- Si los LLM automatizan el trabajo de análisis, las ventajas diferenciales de los productos tradicionales de observabilidad (gráficas bonitas, instrumentación sencilla, etc.) pierden relevancia
- OpenTelemetry comoditiza la instrumentación y los LLM comoditizan el análisis
- En adelante, el “bucle de retroalimentación rápido” sustituirá el valor central de las herramientas de observabilidad

El papel de las personas y los cambios del futuro

El papel humano no desaparecerá por completo
- Así como la llegada de la nube no eliminó la existencia misma de TI, la IA tampoco sustituirá a desarrolladores ni operadores
- El aumento de productividad expande el panorama completo y hace que nazca más software
La pregunta clave es:
en un mundo donde el costo de escribir código, refactorizar y analizar cae drásticamente, y el análisis se vuelve una constante,
hacia dónde se mueve la esencia de la observabilidad?

Lo verdaderamente importante es la “retroalimentación rápida”

Lo más importante es contar con bucles de retroalimentación rápidos y densos en todas las etapas del desarrollo y la operación
- La IA siempre aventajará a los humanos en velocidad
- Los LLM pueden plantear decenas de hipótesis rápidamente, fallar y finalmente encontrar la respuesta correcta
  (y a un costo muy bajo)
La filosofía de Honeycomb:
- Bucles de retroalimentación rápidos, intercambio colaborativo de conocimiento y desarrollo/operación experimental
- En adelante, la asistencia de IA se incorporará a todo el ciclo de vida del desarrollo y la operación de software
  - Ejemplos
    - Al escribir y desplegar código, agentes de IA ofrecen retroalimentación en tiempo real y sugerencias para mejorar bugs y calidad
    - Durante la operación, detectan y analizan emergent behavior, generan reportes automáticos y, tras aprobación, aplican mejoras automáticamente
    - Las organizaciones más avanzadas automatizarán los roles de SRE/SWE con IA + herramientas, llegando incluso a cumplir objetivos de negocio directamente
Condiciones futuras para una observabilidad exitosa
- Rendimiento de consultas de latencia ultrabaja
- Un almacén de datos unificado
- Flujos de trabajo fluidos de colaboración entre personas e IA
Conclusión:
- Las herramientas tradicionales de observabilidad centradas en dashboards, alertas y visualización
  ya no serán lo esencial en la era de la IA,
  y solo sobrevivirán los bucles de retroalimentación rápidos y las plataformas de colaboración entre IA y personas

4 comentarios

redlasha 2025-06-14

Así como la observabilidad no fue el fin del monitoreo, los LLM probablemente tampoco sean el fin de la observabilidad.
Así como la observabilidad evolucionó sobre una base de monitoreo avanzado, el análisis con LLM también evolucionará sobre una base de observabilidad avanzada.

ethanhur 2025-06-13

Tengo expectativas de que el área de Observability se va a innovar rápidamente gracias a los LLM, pero el título sí está bien clickbait jajaja

crawler 2025-06-13

Promocionar su propio servicio diciendo que “se acerca su fin” da un poco de vergüenza ajena...

En lo personal, espero que los vision LLM sigan avanzando y se usen para tareas de monitoreo.
Hace poco vi una publicación de un padre que usaba un VLM para revisar mientras su hijo dormía si no había nada fuera de lo normal, y me pareció bastante interesante.

GN⁺ 2025-06-13

Opiniones de Hacker News

Siento que, colectivamente, estamos subvalorando demasiado el valor del determinismo y, al mismo tiempo, subestimando los costos que trae el no determinismo. Hace poco probé otro producto con un discurso de ventas parecido, y esto intenta hacer RCA de mis incidentes correlacionando gráficas. El resultado termina pareciéndose a la página de Spurious Correlations: cuando lo ves directamente, es obvio y hasta gracioso
- Debería ser más conocido que los datos de series temporales son realmente vulnerables a las correlaciones espurias. El valor de r² tampoco significa mucho. Peor todavía es interpretar las gráficas “a ojo”: si los datos cambian con el tiempo, hay que usar métricas adecuadas para ese contexto
- Tal vez estoy entendiendo mal el punto, pero incluso en apps basadas en LLM sí se puede implementar una UX determinista en momentos realmente importantes si se diseña bien. El LLM puede generar, cuando haga falta, una especificación determinista de lo que debe hacer, y esa tarea o acción se puede registrar. La idea sería guardar la especificación junto con la conversación para que el usuario pueda volver a ejecutarla en cualquier momento, y que la IA pueda sugerir cómo corregirla si falla. Se parece al flujo de usar IA para programar. Solo que aquí hay que acotar más el dominio de la especificación y pensar mejor cómo recuperar especificaciones fallidas. Es algo viable sin exigirle al usuario que aprenda un lenguaje de especificación aparte
Como alguien que hace bien RCA, me preocupa que colegas que ya se sienten avergonzados terminen empeorando las cosas por confiar tal cual en herramientas que dan resultados incorrectos un 10% del tiempo, pero con muchísima seguridad. Me preocupa que, cuando de verdad no sepan algo, se apoyen todavía más en la herramienta porque así no tienen que decir públicamente que no lo saben. Sería menos grave si, después de llegar a una conclusión, la herramienta buscara datos que contradigan esa interpretación y expresara con más claridad la incertidumbre o la falta de evidencia sólida
- Esa parte se puede mejorar bastante con un buen system prompt. De hecho, he creado prompts/instrucciones personalizadas para lograr que un LLM dé respuestas más rigurosas y mejor fundamentadas por defecto, y la experiencia ha sido bastante buena. El prompt que uso en ChatGPT es este: "Prioriza sustancia, claridad y profundidad. Trata toda propuesta, diseño y conclusión como una hipótesis y cuestiónala con dureza. Expón pronto supuestos ocultos, trade-offs y casos de falla. Omite elogios innecesarios si no tienen base. Si hay incertidumbre, menciónala claramente. Propón siempre perspectivas alternativas. Solo afirma con contundencia las afirmaciones fácticas cuando haya citas o una base firme. Si dependes de razonamiento o información incompleta, dilo explícitamente. Prioriza la exactitud por encima de la confianza." Con algo así, la calidad y la profundidad de las respuestas realmente mejoran mucho
La narrativa de que “New Relic lideró la revolución de Rails, Datadog el auge de AWS y Honeycomb lideró OpenTelemetry” es una interpretación sesgada. OpenTelemetry (OTel) nació cuando OpenCensus, iniciado por Google, y OpenTracing, iniciado por LightStep, se fusionaron oficialmente. Google, LightStep, Microsoft, Uber y otras organizaciones participaron en la gobernanza inicial. Es cierto que Honeycomb impulsó muchísimo el código, la comunidad y la adopción técnica, pero decir que “lo lideró” es exagerado
- Lo dice alguien que adoptó Honeycomb hace poco: de verdad es una herramienta impresionante. Especialmente gracias a la auto-instrumentación de otel, puedes obtener insights en cuestión de horas. También se nota que sus dashboards y capacidades de consulta vienen de una filosofía profunda de Observability. Todo nuestro equipo quedó impactado con lo pulida que está la herramienta. Datadog da más la impresión de estar centrado en marketing y en cumplir el checklist de “observability”
Dejando de lado el “discurso de ventas”, esta sí es una de las aplicaciones donde los LLM realmente aportan valor. Hasta ahora, el monitoreo y la observabilidad eran territorio de los SRE de grandes empresas, y para organizaciones pequeñas la barrera era altísima, al menos desde la perspectiva de IT. Elegir métricas significativas, definir heartbeats y baselines, todo eso requería tiempo, herramientas especializadas, entornos de desarrollo amplios y hasta procesos de validación de cambios, así que los equipos de IT comunes ni se lo planteaban. Ahora, gracias a LLM entrenados sobre las herramientas más populares, incluso equipos de IT con poco presupuesto o poca capacidad pueden implementar sistemas de observabilidad “reales” basados en frameworks y herramientas abiertas. Ya no hace falta una solución de suscripción llena de fuegos artificiales. Para armar dashboards y configurar monitoreo útil, los LLM son una bendición. Si eres alguien de IT que sabe leer manuales y hacer troubleshooting sin tener que profundizar una por una en todas las suites de productos que impulsa el CIO, la utilidad es enorme. Si además a las alertas de PagerDuty se les agregan sugerencias mínimas sobre la causa, para una SMB/SME eso sí sería una revolución de la observabilidad
- Descubrir métricas realmente significativas no es algo que el LLM pueda hacer, pero el resto, como heartbeats o baselines, ya era terreno que se podía automatizar suficientemente con ConvNet (redes neuronales convolucionales) desde hace mucho tiempo. Las preocupaciones sobre validación de cambios o controles de estabilidad en despliegues quedan fuera del alcance de las herramientas de observabilidad
- También espero un impacto enorme para equipos pequeños de SRE. En nuestro equipo somos 2 administrando cientos de servidores bare metal, y cuando hay una falla el proceso de ir acotando la causa es muy estresante. Incluso hemos pensado en construir algo nosotros mismos, como una herramienta tipo MCP (Master Control Program). Varias veces hemos tenido problemas que llevaban mucho tiempo latentes y recién explotaban como error, y en esos casos un LLM sí podría ayudar bastante
El título se siente demasiado sensacionalista. No es que las herramientas de observabilidad existentes se vuelvan inútiles. Más bien podría reducirse el tiempo que pasas armando gráficas y mirándolas constantemente. Es parecido al efecto de los LLM en otras áreas. Sí, te ayudan a hacer más rápido tareas que ya sabes hacer o incluso a aprender cómo hacerlas, pero no reemplazan por completo una tecnología específica
- Hoy ya es la segunda vez que escucho esa conclusión de “acelerar tareas que ya sabes hacer” y “ayudarte a aprender cosas nuevas”. Inferir con el punto 2 y aumentar de forma extrema la eficiencia del punto 1: esa parece ser la dirección más productiva hacia adelante
- El título es sensacionalista, pero el mensaje es claro: el moat o barrera de entrada se está haciendo más pequeño
- A este fenómeno lo llaman el “efecto Charity Majors”
En el demo dicen: “Esto no es un ejemplo artificial. Le hicimos al agente LLM exactamente las mismas preguntas que hacemos a los usuarios en el demo, y encontró la respuesta correcta de inmediato, sin prompts adicionales, entrenamiento ni guía”. Pero en la práctica ese escenario ya está incluido en el demo, y la solución ya existe. Más bien deberían haber usado un ejemplo artificial para mostrar si el modelo puede generalizar a una situación nueva que no esté exactamente en sus datos de entrenamiento. Es cierto que la capacidad real del LLM puede ser útil, pero para hacer una afirmación tan extrema como “el fin de la observabilidad”, la herramienta tendría que demostrar capacidad de generalización
No creo que sea “el fin de la observabilidad”. Pero tampoco diría que los puntos del artículo sean completamente absurdos. Sí parece bastante probable que surja una nueva capa de agentes de IA capaces de asumir varios roles dentro de SRE, incluido RCA. Aun así, incluso si eso se vuelve realidad, probablemente seguiría haciendo falta la mayor parte —o quizá toda— la pila actual de observabilidad. Además, mientras no se resuelvan de raíz los problemas de alucinación, confianza y estabilidad de los LLM, seguirá haciendo falta intervención humana para el análisis profundo de problemas
La estrategia de negocio de “con un poco de esfuerzo, la IA puede hacer todo lo que hacía un experto” es una estrategia de negocio realmente atractiva. Da tristeza decirlo, pero hoy podrías copiar y pegar esa frase en el 80% de las startups de IA y no sonaría fuera de lugar
- Sé que suena a burla, pero esos “expertos que sí resuelven” son recursos <i>extremadamente</i> caros. Si esta automatización de verdad se logra, también se entiende por qué abundan tantas startups de IA medio improvisadas
Este artículo se siente como si lo hubiera escrito completamente una IA. “La IA termina con este paradigma, ya lo está haciendo, y va a cambiar de raíz hasta cómo diseñamos y operamos sistemas” — no veo cómo interpretar parte de los datos equivale a hablar del “fin de la observabilidad”
La idea de que “ya no hace falta ver datos en gráficas ni UI” tiene límites muy reales. Cuando al LLM le va bien, es excelente, pero cuando falla, tiene que entrar una persona a revisar directamente las visualizaciones, como las gráficas. Las gráficas y la visualización ya son difíciles, pero recolectar los datos reales o diseñar consultas complejas y esquemas de almacenamiento es todavía más difícil. La observabilidad solo “desaparecerá” cuando exista una inteligencia artificial real capaz de juzgar casi todo de manera casi perfecta. Y cuando eso ocurra, la estructura completa de la sociedad cambiará en una transformación cultural total —si no una desaparición, sí una transición dolorosa—. Que la IA está cambiando el panorama de la observabilidad es totalmente cierto. Ya está ocurriendo, pero todavía falta camino por recorrer