22 puntos por GN⁺ 2025-11-17 | 5 comentarios | Compartir por WhatsApp
  • La suite de productos de Grafana retira o reemplaza con frecuencia componentes clave en ciclos cortos, lo que crea una estructura difícil de operar a largo plazo
  • Cada vez que se adopta una nueva solución, la forma de configuración, el DSL, los charts de Helm y los Operators cambian repetidamente, generando un entorno difícil de mantener de forma estable
  • Como la compatibilidad de CRD con el ecosistema de Prometheus Operator no es completa, ServiceMonitor y PodMonitor funcionan, pero funciones clave como AlertmanagerConfig quedan con vacíos de soporte
  • Mimir 3.0 añade de forma obligatoria una dependencia de Apache Kafka, aumentando mucho la complejidad del clúster y la carga operativa
  • En Grafana Cloud y en toda la suite de Mimir, Loki y Grafana, la ubicación de configuraciones y endpoints puede cambiar fácilmente, por lo que se repite una estructura difícil de construir una vez y usar durante mucho tiempo

Cambios estructurales frecuentes en la suite de Grafana

  • Funciones clave como Grafana Agent, Flow Mode y OnCall han sido retiradas o reemplazadas repetidamente en un plazo de 1 a 3 años
    • La UI de Grafana basada en Angular migró a React y una parte importante de los dashboards existentes se rompió
    • Algunos charts de Helm ya no reciben mantenimiento

Mayor complejidad por la adopción de Alloy

  • Grafana Alloy, presentado como all-in-one, reemplazó al Agent anterior, pero tuvo problemas iniciales de estabilidad
    • Usa su propio DSL (similar a HCL), rompiendo la continuidad con el flujo previo basado en YAML
    • Con la incorporación de Alloy Operator, los componentes se volvieron aún más complejos

Alineación incompleta con el ecosistema de Prometheus Operator

  • Soporta ServiceMonitor y PodMonitor, que son el estándar de monitoreo en K8s, pero
    • PrometheusRules requiere configuración adicional
    • AlertmanagerConfig no está soportado
    • Como Mimir usa su propio Alertmanager, aparecen diferencias de versión e incompatibilidades de detalle

Introducción de la dependencia de Kafka en Mimir 3.0

  • Aunque buscaba una escalabilidad mayor que antes,
    • al añadir Kafka como requisito obligatorio en la configuración central, la dificultad operativa aumentó considerablemente
    • pasar de una sola instalación con Helm a coordinar múltiples componentes hizo que la complejidad creciera exponencialmente

Un ecosistema difícil de usar de forma estable

  • El endpoint de ingesta de Grafana Cloud se volvió más difícil de encontrar con la introducción de un nuevo sistema de administración
  • El ciclo de actualización y retiro de componentes importantes es rápido, por lo que no encaja con organizaciones que buscan un monitoreo “aburrido y estable
  • Más que un problema de la tecnología en sí, la forma de gestionar el producto y la velocidad de cambio actúan como factores clave que reducen la confiabilidad

5 comentarios

 
ifmkl 2025-11-18

El panel que ofrece InfluxDB por defecto también sirve bastante bien para usarlo de forma sencilla.

 
dongho42 2025-11-18

Coincido en que Grafana deja bastante que desear, pero ¿habrá alguna otra solución que recomienden y que soporte tantas fuentes de datos como Grafana?

 
cysl0 2025-11-18

No es que realmente haya alternativas.

 
savvykang 2025-11-18

Parece que en Grafana también había mucha gente que quería ascender o adornar su currículum.

 
GN⁺ 2025-11-17
Opinión de Hacker News
  • Yo también estoy considerando seriamente abandonar Grafana por completo por las mismas razones que el autor
    Cansa tener que rehacer dashboards cada año, reconfigurar alertas y ponerse al día con nuevas funciones
    Solo quisiera que me avisara cuando el servicio se cae, y mientras no cambien las fuentes de datos ni las métricas, quisiera mantener la misma definición de dashboard durante 10 años
    Antes solo había 4 o 5 enlaces principales en la barra lateral, pero ahora hay demasiados submenús dentro de menús y hasta cuesta encontrar las funciones básicas (dashboards, alertas)
    Es demasiado ineficiente tener que aprender de nuevo una UI que veo apenas una vez al mes

  • Cuando la vida útil de los servicios es de apenas 2 o 3 años y vas apilando varios productos, al final solo sientes que crece una montaña de deuda técnica
    Es doloroso vivir en una realidad donde cada trimestre hay que reemplazar algo grande

  • Mimir es un sistema diseñado para manejar métricas a una escala completamente distinta
    En ese nivel, Kafka realmente sí es necesario
    Pero la mayoría de los usuarios no necesita ese nivel de escalabilidad
    Si no estás ejecutando Mimir en un clúster de Kubernetes dedicado, entonces está sobrediseñado
    Lo realista es simplemente usar Prometheus

    • Recomiendo Victoria Metrics
      Funciona sorprendentemente bien incluso en modo de instancia única, y es muy fácil de escalar
      Lo he usado en varias organizaciones y proyectos personales, y siempre me ha dejado satisfecho
    • Me parece curioso afirmar que “no hay escalabilidad open source equivalente”
      Pero Amazon Managed Prometheus de AWS está basado en Cortex, y OpenObserve ya opera a escala de petabytes
    • Tengo curiosidad por saber qué solución prefieren para monitorear apps pequeñas
      Lo ideal sería algo que se despliegue como un solo binario, sea compatible con OpenTelemetry y permita migrar después a otro proveedor de OTEL
  • Si alguien armara una solución nueva basada en OTEL, tengo curiosidad por cuál sería la alternativa más prometedora a Prometheus/Grafana

    • Nosotros también empezamos con kube-prometheus-stack, pero no nos gustó PromQL
      Para manejar logs y traces hacían falta más componentes complejos
      Entonces encontramos GreptimeDB, que permite manejo unificado de métricas, logs y traces
      Recolectamos con OpenTelemetry y visualizamos con Grafana
      Poder crear dashboards con SQL encaja muy bien con las capacidades del equipo
      Como ingeniero de plataforma, la estructura simple me deja bastante satisfecho
    • Recomiendo OpenObserve
      Fue creado para resolver la complejidad de Grafana y Elastic, y puede manejar logs, métricas, traces, dashboards y alertas en un solo contenedor
      (El autor es maintainer principal de OpenObserve)
    • Últimamente en la empresa estamos migrando de Grafana a SigNoz
      Es open source, se desarrolla activamente y la comunicación del equipo es buena
    • SigNoz es un proyecto open source nativo de OpenTelemetry
      Muchos usuarios se están cambiando para evitar la complejidad de Grafana, donde hay que lidiar directamente con varios backends
      (El autor es maintainer de SigNoz)
  • No entiendo por qué los desarrolladores cambian la configuración cada semana para perseguir la última tecnología
    Yo uso la combinación Grafana + Prometheus desde 2017 y todavía funciona bien
    Solo actualizo a versiones LTS una vez cada 1 o 2 años
    Los dashboards siguen siendo perfectos y no hay ningún problema
    Para la mayoría de la gente, esta combinación aburrida pero estable es la mejor opción

    • Me pregunto cómo resolvieron el fin del soporte de Angular
      Quisiera preguntar si acaso siguen usando una versión vieja tal cual
  • ¿Habrá algún constructor de dashboards open source que pueda reemplazar a Grafana? En la empresa también lo usamos ampliamente

    • Perses parece la alternativa más prometedora
      O también se pueden usar las plantillas de consola de Prometheus o los dashboards integrados de VictoriaMetrics, aunque las funciones son mucho más limitadas
    • Parece que la queja del autor va más contra otros productos de esa empresa que contra Grafana en sí
      Los dashboards de Grafana en sí son bastante cómodos cuando se usan con la combinación VictoriaMetrics + ClickHouse
    • Antes, incluso antes de Grafana, había varias alternativas FOSS, pero la mayoría desapareció
      Apenas recuerdo nombres como RRD y Nagios
    • OpenSearch Dashboards también es una alternativa, pero para visualización pura Grafana sigue siendo mejor
    • Nosotros reemplazamos por completo el stack de Loki con la combinación Graylog + ElasticSearch
  • El cambio constante de Grafana más bien terminó por volverme inmune
    En cada major release se rompen dashboards o cambia la UI, pero uno ya lo toma como algo normal
    El verdadero problema es el lock-in de PromQL en Prometheus
    Si cambias el nombre de una métrica, hay que modificar todas las reglas, alertas y dashboards
    PromQL casi nunca arroja errores aparte de fallas de sintaxis, así que hay que validarlo con herramientas como pint

    • El problema de PromQL es responsabilidad de Prometheus más que de Grafana
  • En despliegues de servidor único, suelo usar Prometheus Pushgateway + Grafana como plantilla de docker-compose
    Es simple y funciona bien, pero cuando el volumen de métricas crece, la complejidad explota
    Si Prometheus hubiera mantenido un formato de transporte más eficiente, este problema sería menor
    Si hubiera existido un formato binario de métricas compacto en vez del formato de texto, habría podido manejar sin problemas millones de labels

  • SigNoz es una buena opción y se desarrolla activamente

    • Yo también coincido con SigNoz
      Antes gastaba mucho en plataformas cloud de observabilidad, pero ahora levanto SigNoz self-hosted en una caja de Hetzner y resuelvo todo con $10 al mes
  • Tanto Prometheus como Grafana apuntaban a ser soluciones full-stack, y luego apareció OTEL y complicó el panorama

    • Todavía no termino de entender cómo encaja OTEL dentro del stack open source de monitoreo
      OTEL es un protocolo para métricas, traces y logs, pero no existe una sola base de datos que soporte todo eso
      La mayoría termina combinando Prometheus (métricas) + OpenSearch (logs)
      Al final, OTEL termina exigiendo reemplazar y reconfigurar recolectores