YTsaurus - Sistema open source de almacenamiento y procesamiento a escala de exabytes

xguru · 2023-03-25T10:19:01+09:00

Plataforma open source de big data distribuida para almacenamiento y procesamiento, publicada por Yandex Casos de uso: procesamiento por lotes, análisis ad hoc, OLTP, aprendizaje automático, almacenamiento de metadatos, pipelines ETL Ecosistema multi-tenant Confiabilidad y seguridad: sin SPOF. Replicación automatizada entre servidores. Actualizaciones sin pérdida del progreso Escalabilidad Escalable hasta 1 millón de núcleos de CPU y miles de GPU Soporta más de 10 mil nodos. Escalado automático de servidores hacia arriba y hacia abajo Soporte para distintos medios de almacenamiento hasta datos a escala de exabytes Funcionalidades ricas Amplio modelo de MapReduce Transacciones ACID distribuidas Proporciona varios SDK (C++, Python, Java, Go) y API Aislamiento seguro para recursos de cómputo y almacenamiento UI fácil de usar CHYT powered by ClickHouse Dialecto SQL familiar y funciones similares Consultas analíticas rápidas Integración con soluciones BI populares (JDBC/ODBC) SPYT powered by Apache Spark Herramientas para crear procesos ETL Soporte para múltiples clústeres independientes de distintos tamaños Migración sencilla desde soluciones existentes

(ytsaurus.tech)

9 puntos por xguru 2023-03-25 | 1 comentarios | Compartir por WhatsApp

Plataforma open source de big data distribuida para almacenamiento y procesamiento, publicada por Yandex
- Casos de uso: procesamiento por lotes, análisis ad hoc, OLTP, aprendizaje automático, almacenamiento de metadatos, pipelines ETL
Ecosistema multi-tenant
Confiabilidad y seguridad: sin SPOF. Replicación automatizada entre servidores. Actualizaciones sin pérdida del progreso
Escalabilidad
- Escalable hasta 1 millón de núcleos de CPU y miles de GPU
- Soporta más de 10 mil nodos. Escalado automático de servidores hacia arriba y hacia abajo
- Soporte para distintos medios de almacenamiento hasta datos a escala de exabytes
Funcionalidades ricas
- Amplio modelo de MapReduce
- Transacciones ACID distribuidas
- Proporciona varios SDK (C++, Python, Java, Go) y API
- Aislamiento seguro para recursos de cómputo y almacenamiento
- UI fácil de usar
CHYT powered by ClickHouse
- Dialecto SQL familiar y funciones similares
- Consultas analíticas rápidas
- Integración con soluciones BI populares (JDBC/ODBC)
SPYT powered by Apache Spark
- Herramientas para crear procesos ETL
- Soporte para múltiples clústeres independientes de distintos tamaños
- Migración sencilla desde soluciones existentes

1 comentarios

xguru 2023-03-25

Artículo introductorio sobre la historia del propio proyecto open source y las tecnologías usadas internamente: YTsaurus: Exabyte-Scale Storage and Processing System Is Now Open Source

Dicen que lleva casi 10 años de desarrollo.
Usaron MapReduce desde 2006, pero al toparse con sus límites en 2009, comenzaron el proyecto YT en 2010.
Cypress (Storage) + MapReduce + tablas K-V dinámicas + YQL + CHYT + SPYT
El código principal del servidor está en C++

YTsaurus - Sistema open source de almacenamiento y procesamiento a escala de exabytes

Lecturas relacionadas

1 comentarios