Por qué ya no se puede recomendar Grafana

(henrikgerdes.me)

22 puntos por GN⁺ 2025-11-17 | 5 comentarios | Compartir por WhatsApp

La suite de productos de Grafana retira o reemplaza con frecuencia componentes clave en ciclos cortos, lo que crea una estructura difícil de operar a largo plazo
Cada vez que se adopta una nueva solución, la forma de configuración, el DSL, los charts de Helm y los Operators cambian repetidamente, generando un entorno difícil de mantener de forma estable
Como la compatibilidad de CRD con el ecosistema de Prometheus Operator no es completa, ServiceMonitor y PodMonitor funcionan, pero funciones clave como AlertmanagerConfig quedan con vacíos de soporte
Mimir 3.0 añade de forma obligatoria una dependencia de Apache Kafka, aumentando mucho la complejidad del clúster y la carga operativa
En Grafana Cloud y en toda la suite de Mimir, Loki y Grafana, la ubicación de configuraciones y endpoints puede cambiar fácilmente, por lo que se repite una estructura difícil de construir una vez y usar durante mucho tiempo

Cambios estructurales frecuentes en la suite de Grafana

Funciones clave como Grafana Agent, Flow Mode y OnCall han sido retiradas o reemplazadas repetidamente en un plazo de 1 a 3 años
- La UI de Grafana basada en Angular migró a React y una parte importante de los dashboards existentes se rompió
- Algunos charts de Helm ya no reciben mantenimiento

Mayor complejidad por la adopción de Alloy

Grafana Alloy, presentado como all-in-one, reemplazó al Agent anterior, pero tuvo problemas iniciales de estabilidad
- Usa su propio DSL (similar a HCL), rompiendo la continuidad con el flujo previo basado en YAML
- Con la incorporación de Alloy Operator, los componentes se volvieron aún más complejos

Alineación incompleta con el ecosistema de Prometheus Operator

Soporta ServiceMonitor y PodMonitor, que son el estándar de monitoreo en K8s, pero
- PrometheusRules requiere configuración adicional
- AlertmanagerConfig no está soportado
- Como Mimir usa su propio Alertmanager, aparecen diferencias de versión e incompatibilidades de detalle

Introducción de la dependencia de Kafka en Mimir 3.0

Aunque buscaba una escalabilidad mayor que antes,
- al añadir Kafka como requisito obligatorio en la configuración central, la dificultad operativa aumentó considerablemente
- pasar de una sola instalación con Helm a coordinar múltiples componentes hizo que la complejidad creciera exponencialmente

Un ecosistema difícil de usar de forma estable

El endpoint de ingesta de Grafana Cloud se volvió más difícil de encontrar con la introducción de un nuevo sistema de administración
El ciclo de actualización y retiro de componentes importantes es rápido, por lo que no encaja con organizaciones que buscan un monitoreo “aburrido y estable”
Más que un problema de la tecnología en sí, la forma de gestionar el producto y la velocidad de cambio actúan como factores clave que reducen la confiabilidad

5 comentarios

ifmkl 2025-11-18

El panel que ofrece InfluxDB por defecto también sirve bastante bien para usarlo de forma sencilla.

dongho42 2025-11-18

Coincido en que Grafana deja bastante que desear, pero ¿habrá alguna otra solución que recomienden y que soporte tantas fuentes de datos como Grafana?

cysl0 2025-11-18

No es que realmente haya alternativas.

savvykang 2025-11-18

Parece que en Grafana también había mucha gente que quería ascender o adornar su currículum.

GN⁺ 2025-11-17

Opinión de Hacker News

Yo también estoy considerando seriamente abandonar Grafana por completo por las mismas razones que el autor
Cansa tener que rehacer dashboards cada año, reconfigurar alertas y ponerse al día con nuevas funciones
Solo quisiera que me avisara cuando el servicio se cae, y mientras no cambien las fuentes de datos ni las métricas, quisiera mantener la misma definición de dashboard durante 10 años
Antes solo había 4 o 5 enlaces principales en la barra lateral, pero ahora hay demasiados submenús dentro de menús y hasta cuesta encontrar las funciones básicas (dashboards, alertas)
Es demasiado ineficiente tener que aprender de nuevo una UI que veo apenas una vez al mes
Cuando la vida útil de los servicios es de apenas 2 o 3 años y vas apilando varios productos, al final solo sientes que crece una montaña de deuda técnica
Es doloroso vivir en una realidad donde cada trimestre hay que reemplazar algo grande
Mimir es un sistema diseñado para manejar métricas a una escala completamente distinta
En ese nivel, Kafka realmente sí es necesario
Pero la mayoría de los usuarios no necesita ese nivel de escalabilidad
Si no estás ejecutando Mimir en un clúster de Kubernetes dedicado, entonces está sobrediseñado
Lo realista es simplemente usar Prometheus
- Recomiendo Victoria Metrics
  Funciona sorprendentemente bien incluso en modo de instancia única, y es muy fácil de escalar
  Lo he usado en varias organizaciones y proyectos personales, y siempre me ha dejado satisfecho
- Me parece curioso afirmar que “no hay escalabilidad open source equivalente”
  Pero Amazon Managed Prometheus de AWS está basado en Cortex, y OpenObserve ya opera a escala de petabytes
- Tengo curiosidad por saber qué solución prefieren para monitorear apps pequeñas
  Lo ideal sería algo que se despliegue como un solo binario, sea compatible con OpenTelemetry y permita migrar después a otro proveedor de OTEL
Si alguien armara una solución nueva basada en OTEL, tengo curiosidad por cuál sería la alternativa más prometedora a Prometheus/Grafana
- Nosotros también empezamos con kube-prometheus-stack, pero no nos gustó PromQL
  Para manejar logs y traces hacían falta más componentes complejos
  Entonces encontramos GreptimeDB, que permite manejo unificado de métricas, logs y traces
  Recolectamos con OpenTelemetry y visualizamos con Grafana
  Poder crear dashboards con SQL encaja muy bien con las capacidades del equipo
  Como ingeniero de plataforma, la estructura simple me deja bastante satisfecho
- Recomiendo OpenObserve
  Fue creado para resolver la complejidad de Grafana y Elastic, y puede manejar logs, métricas, traces, dashboards y alertas en un solo contenedor
  (El autor es maintainer principal de OpenObserve)
- Últimamente en la empresa estamos migrando de Grafana a SigNoz
  Es open source, se desarrolla activamente y la comunicación del equipo es buena
- SigNoz es un proyecto open source nativo de OpenTelemetry
  Muchos usuarios se están cambiando para evitar la complejidad de Grafana, donde hay que lidiar directamente con varios backends
  (El autor es maintainer de SigNoz)
No entiendo por qué los desarrolladores cambian la configuración cada semana para perseguir la última tecnología
Yo uso la combinación Grafana + Prometheus desde 2017 y todavía funciona bien
Solo actualizo a versiones LTS una vez cada 1 o 2 años
Los dashboards siguen siendo perfectos y no hay ningún problema
Para la mayoría de la gente, esta combinación aburrida pero estable es la mejor opción
- Me pregunto cómo resolvieron el fin del soporte de Angular
  Quisiera preguntar si acaso siguen usando una versión vieja tal cual
¿Habrá algún constructor de dashboards open source que pueda reemplazar a Grafana? En la empresa también lo usamos ampliamente
- Perses parece la alternativa más prometedora
  O también se pueden usar las plantillas de consola de Prometheus o los dashboards integrados de VictoriaMetrics, aunque las funciones son mucho más limitadas
- Parece que la queja del autor va más contra otros productos de esa empresa que contra Grafana en sí
  Los dashboards de Grafana en sí son bastante cómodos cuando se usan con la combinación VictoriaMetrics + ClickHouse
- Antes, incluso antes de Grafana, había varias alternativas FOSS, pero la mayoría desapareció
  Apenas recuerdo nombres como RRD y Nagios
- OpenSearch Dashboards también es una alternativa, pero para visualización pura Grafana sigue siendo mejor
- Nosotros reemplazamos por completo el stack de Loki con la combinación Graylog + ElasticSearch
El cambio constante de Grafana más bien terminó por volverme inmune
En cada major release se rompen dashboards o cambia la UI, pero uno ya lo toma como algo normal
El verdadero problema es el lock-in de PromQL en Prometheus
Si cambias el nombre de una métrica, hay que modificar todas las reglas, alertas y dashboards
PromQL casi nunca arroja errores aparte de fallas de sintaxis, así que hay que validarlo con herramientas como pint
- El problema de PromQL es responsabilidad de Prometheus más que de Grafana
En despliegues de servidor único, suelo usar Prometheus Pushgateway + Grafana como plantilla de docker-compose
Es simple y funciona bien, pero cuando el volumen de métricas crece, la complejidad explota
Si Prometheus hubiera mantenido un formato de transporte más eficiente, este problema sería menor
Si hubiera existido un formato binario de métricas compacto en vez del formato de texto, habría podido manejar sin problemas millones de labels
SigNoz es una buena opción y se desarrolla activamente
- Yo también coincido con SigNoz
  Antes gastaba mucho en plataformas cloud de observabilidad, pero ahora levanto SigNoz self-hosted en una caja de Hetzner y resuelvo todo con $10 al mes
Tanto Prometheus como Grafana apuntaban a ser soluciones full-stack, y luego apareció OTEL y complicó el panorama
- Todavía no termino de entender cómo encaja OTEL dentro del stack open source de monitoreo
  OTEL es un protocolo para métricas, traces y logs, pero no existe una sola base de datos que soporte todo eso
  La mayoría termina combinando Prometheus (métricas) + OpenSearch (logs)
  Al final, OTEL termina exigiendo reemplazar y reconfigurar recolectores