Vector - pipeline de datos de observability de alto rendimiento de código abierto

xguru · 2024-03-19T10:16:01+09:00

Una plataforma de pipeline de datos de observability de alto rendimiento de extremo a extremo (agente y agregador) que permite a los usuarios controlar sus datos observables Puede recopilar, transformar y enrutar logs y métricas para enviarlos a cualquier proveedor que quieras hoy, así como a otros proveedores que podrías querer en el futuro Reduce costos, ofrece nuevo enriquecimiento de datos, seguridad de datos, es de código abierto y presume velocidades de hasta 10 veces más rápidas que otras alternativas Principios Confiabilidad - Construido con Rust; la confiabilidad es un objetivo central de diseño De extremo a extremo - Se despliega como Agent o Aggregator. Vector es una plataforma completa Integración - Logs, métricas (beta), trazas (próximamente). Una sola herramienta para todos los datos Casos de uso Reducir el costo total de observability Cambiar de proveedor sin interrumpir los flujos de trabajo Mejorar la calidad de los datos y los insights Unificar agentes y eliminar la fatiga por agentes Mejorar el rendimiento y la confiabilidad general de la observability Comunidad Startups y grandes empresas como Atlassian, T-Mobile, Comcast, Zendesk, Discord, Fastly, CVS, Trivago, Tuple, Douban, Visa, Mambu, Blockfi, Claranet e Instacart dependen de Vector Vector se descarga más de 100,000 veces al día El mayor usuario de Vector procesa más de 30 TB de datos al día Vector cuenta con más de 100 contribuidores y sigue creciendo

(github.com/vectordotdev)

13 puntos por xguru 2024-03-19 | 2 comentarios | Compartir por WhatsApp

Una plataforma de pipeline de datos de observability de alto rendimiento de extremo a extremo (agente y agregador) que permite a los usuarios controlar sus datos observables
Puede recopilar, transformar y enrutar logs y métricas para enviarlos a cualquier proveedor que quieras hoy, así como a otros proveedores que podrías querer en el futuro
Reduce costos, ofrece nuevo enriquecimiento de datos, seguridad de datos, es de código abierto y presume velocidades de hasta 10 veces más rápidas que otras alternativas

Principios

Confiabilidad - Construido con Rust; la confiabilidad es un objetivo central de diseño
De extremo a extremo - Se despliega como Agent o Aggregator. Vector es una plataforma completa
Integración - Logs, métricas (beta), trazas (próximamente). Una sola herramienta para todos los datos

Casos de uso

Reducir el costo total de observability
Cambiar de proveedor sin interrumpir los flujos de trabajo
Mejorar la calidad de los datos y los insights
Unificar agentes y eliminar la fatiga por agentes
Mejorar el rendimiento y la confiabilidad general de la observability

Comunidad

Startups y grandes empresas como Atlassian, T-Mobile, Comcast, Zendesk, Discord, Fastly, CVS, Trivago, Tuple, Douban, Visa, Mambu, Blockfi, Claranet e Instacart dependen de Vector
Vector se descarga más de 100,000 veces al día
El mayor usuario de Vector procesa más de 30 TB de datos al día
Vector cuenta con más de 100 contribuidores y sigue creciendo

2 comentarios

softer 2025-02-14

Guardián del pipeline de logs

xguru 2024-03-19

Opiniones en Hacker News

Evaluación positiva del software Vector
- Vector es un excelente software para operar pipelines de logs de varios GB/s.
- El agente de Vector recopila logs de pod y de journald como DaemonSets, y los envía a un agregador central de Vector (Deployment) usando el protocolo protobuf de Vector.
- Soporta varios almacenes (s3, gcs/bigquery, loki, prom).
- La documentación está bien hecha, aunque puede ser difícil encontrar ejemplos de patrones comunes; aun así, eso está mejorando con el tiempo y a medida que aumenta la base de usuarios.
- Un buen tip es buscar en Google vector dev para obtener mejores resultados.
- Recientemente se añadió una contribución que maneja mejor los contadores como alternativa a Prometheus pushgateway.
Visión y expectativas sobre los sistemas de almacenamiento de logs
- Un sistema de procesamiento y almacenamiento de logs está casi listo, y se espera que a mediano y largo plazo evolucione hacia un sistema de almacenamiento de logs consultable.
- Los logs se procesan con herramientas como Vector y se almacenan en object storage en formatos de archivo ampliamente entendidos.
- Los objetos de logs se registran en un almacén de metadatos para que puedan buscarse.
- Herramientas como Delta Lake o Iceberg pueden funcionar tanto a gran como a pequeña escala.
- Varios pipelines de procesamiento de logs pueden hacer commit al mismo almacenamiento.
- Herramientas de alto rendimiento como Clickhouse, DuckDB y Spark pueden leerlos.
- Como se usan formatos estándar, es posible cambiar de herramienta o usar varias al mismo tiempo.
Confiabilidad y utilidad de Vector
- Vector es mucho más confiable que beats o que forwarders específicos de ciertos vendors (chronicle forwarder, fdr).
- VRL es útil para “preparsear” logs a gran escala como aws cloudtrail e imperva abp.
Experiencia de uso y recomendación de Vector
- Hay experiencia usando Vector, y se recomienda porque su configuración es simple y el lenguaje vrl es lo bastante potente.
- La función check del CLI ayuda a detectar problemas de configuración.
- Se destaca que no presenta problemas de rendimiento y que es eficiente en el uso de recursos.
La versatilidad de Vector
- Vector va más allá de ser simplemente “de alto rendimiento”; es como una navaja suiza para logs y métricas.
- Se usa para tareas diversas como convertir logs en métricas, transformar métricas a otros formatos, enviarlas a otros almacenes de datos y filtrarlas.
- Es la primera opción para recolectar, agregar, filtrar y preprocesar datos de observabilidad.
Interés y expectativas sobre Vector
- Se supo de Vector después de configurar un nuevo pipeline con fluent-bit.
- Vector tiene muchas funciones interesantes, y si hubiera tiempo, se probaría cuanto antes.
- Parece que sería interesante probarlo en un proyecto nuevo.
Alcance de aplicación y posibilidades de Vector
- Lo que más se ha visto sobre Vector son ejemplos y discusiones orientados a bases de datos o aplicaciones complejas multi-tenant.
- Surge la duda de si alguien lo ha usado en sistemas distribuidos como vehículos autónomos para agregar logs operativos, estado del sistema y las entradas y salidas de cada aplicación.
Casos reales de uso y posibilidades adicionales de Vector
- Se está usando Vector para enviar logs, reemplazando una configuración de logstash que no lograba hacer lo que se necesitaba.
- Apenas se está empezando a comprender el potencial de Vector, y hay ganas de usarlo más.
- Se busca información sobre usos de Vector más allá del envío de logs.
Problemas de confianza respecto a Datadog
- No inspira confianza que Datadog administre Vector, ya que parece un competidor de OTEL.
Funciones de Vector y plan de observar su evolución
- Vector es interesante, pero por ahora no puede usarse porque no tiene tracing.
- El plan es observar Vector durante los próximos meses, con la expectativa de que aparezcan buenas funciones aprovechables.