9 puntos por xguru 2023-03-25 | 1 comentarios | Compartir por WhatsApp
  • Plataforma open source de big data distribuida para almacenamiento y procesamiento, publicada por Yandex
    • Casos de uso: procesamiento por lotes, análisis ad hoc, OLTP, aprendizaje automático, almacenamiento de metadatos, pipelines ETL
  • Ecosistema multi-tenant
  • Confiabilidad y seguridad: sin SPOF. Replicación automatizada entre servidores. Actualizaciones sin pérdida del progreso
  • Escalabilidad
    • Escalable hasta 1 millón de núcleos de CPU y miles de GPU
    • Soporta más de 10 mil nodos. Escalado automático de servidores hacia arriba y hacia abajo
    • Soporte para distintos medios de almacenamiento hasta datos a escala de exabytes
  • Funcionalidades ricas
    • Amplio modelo de MapReduce
    • Transacciones ACID distribuidas
    • Proporciona varios SDK (C++, Python, Java, Go) y API
    • Aislamiento seguro para recursos de cómputo y almacenamiento
    • UI fácil de usar
  • CHYT powered by ClickHouse
    • Dialecto SQL familiar y funciones similares
    • Consultas analíticas rápidas
    • Integración con soluciones BI populares (JDBC/ODBC)
  • SPYT powered by Apache Spark
    • Herramientas para crear procesos ETL
    • Soporte para múltiples clústeres independientes de distintos tamaños
    • Migración sencilla desde soluciones existentes

1 comentarios

 
xguru 2023-03-25

Artículo introductorio sobre la historia del propio proyecto open source y las tecnologías usadas internamente: YTsaurus: Exabyte-Scale Storage and Processing System Is Now Open Source

  • Dicen que lleva casi 10 años de desarrollo.
  • Usaron MapReduce desde 2006, pero al toparse con sus límites en 2009, comenzaron el proyecto YT en 2010.
  • Cypress (Storage) + MapReduce + tablas K-V dinámicas + YQL + CHYT + SPYT
  • El código principal del servidor está en C++