3 puntos por GN⁺ 2023-08-09 | 1 comentarios | Compartir por WhatsApp
  • Este artículo presenta WarpStream, una plataforma de streaming de datos compatible con el protocolo de Kafka, construida directamente sobre S3.
  • WarpStream se ofrece como un único binario sin estado escrito en Go, lo que elimina la necesidad de gestionar discos locales, reequilibrar brokers y operar ZooKeeper.
  • La plataforma reduce de forma significativa los costos de infraestructura al transmitir datos directamente a S3, y en la nube es entre 5 y 10 veces más barata que Kafka.
  • El artículo critica la idoneidad de Kafka para las cargas de trabajo modernas y destaca los altos costos de ancho de banda entre zonas de disponibilidad y la sobrecarga operativa.
  • La arquitectura de WarpStream es diferente a la de Kafka. En lugar de brokers, hay "agentes" sin estado que pueden actuar como "líder" de cualquier tema, confirmar offsets para cualquier grupo de consumidores o funcionar como coordinador del clúster.
  • En WarpStream, todo el almacenamiento se descarga a un almacenamiento de objetos como S3, lo que permite una escalabilidad sencilla y una recuperación rápida ante fallos.
  • WarpStream separa los datos y los metadatos, y almacena los metadatos de todos los "clústeres virtuales" en una base de datos de metadatos personalizada.
  • La plataforma reduce de forma importante el costo total de la mayoría de las cargas de trabajo de Kafka entre 5 y 10 veces, pero tiene una latencia más alta: un P99 de aproximadamente 400 ms para solicitudes de producción y cerca de 1 segundo del productor al consumidor.
  • WarpStream se encuentra actualmente en etapa de vista previa para desarrolladores y todavía no está listo para uso en producción.
  • Los creadores de WarpStream consideran que la UX para desarrolladores de Kafka es un problema, y señalan en particular la abstracción de bajo nivel de las particiones. Planean resolver esto en futuras actualizaciones de WarpStream.
  • El artículo concluye invitando a los lectores a probar WarpStream y compartir su retroalimentación.

1 comentarios

 
GN⁺ 2023-08-09
Opiniones de Hacker News
  • Un artículo sobre la naturaleza dicotómica de Kafka como tecnología de streaming de datos
  • Debate sobre si la mayoría de las empresas tecnológicas usan Kafka
  • La eficiencia en costos de enviar cada mensaje directamente a S3 y los problemas de operar un clúster de Kafka en cada AZ
  • Introducción por parte de Ryan Worl, cofundador y CTO de WarpStream, un sistema de streaming compatible con el protocolo de Kafka construido directamente sobre S3
  • Se destaca la eficiencia en costos de WarpStream, la ausencia de necesidad de operar discos/nodos con estado, la falta de necesidad de rebalanceo de datos o de ZooKeeper, y la reducción de los cargos de ancho de banda entre AZ
  • Críticas al costo de operar Kafka en máquinas virtuales separadas en proveedores de nube
  • Discusión sobre el uso de adaptadores de almacenamiento en servicios administrados de Hadoop/Kafka en la nube bien diseñados para aprovechar la redundancia del proveedor
  • Quejas de algunos usuarios sobre la afirmación del artículo de que Kafka requiere un equipo experto y un gran presupuesto
  • Se enfatiza que en Kafka sí se puede cambiar la cantidad de particiones
  • Debate sobre la afirmación del artículo de que operar Kafka requiere un gran equipo de ingeniería
  • Dudas sobre cómo WarpStream administra el servicio, si usa proveedores de nube o bare metal, y si usa foundationdb para el almacén de metadatos
  • Discusión sobre el potencial de la API de Kafka y la posibilidad de abstraer la complejidad de la administración del clúster
  • El ahorro de costos al mover tráfico de ML a gran escala hacia S3; un usuario reporta una reducción de costos de alrededor del 90%
  • Propuesta de cambiar el título del artículo a "Kafka ha muerto. Larga vida al rey WarpStream." para reflejar la adopción de una nueva tecnología