- Framework de Python para construir pipelines de datos de manera eficiente
- Promueve la modularidad y la colaboración para crear pipelines complejos con componentes simples y reutilizables
- Diseñado para funcionar sin problemas con múltiples bibliotecas o frameworks de procesamiento de datos
- Usa Pydantic para ofrecer una sólida verificación de tipos, validación de datos y gestión de configuración
- Garantiza una ejecución predecible de los pipelines mediante código bien probado y un conjunto amplio de funciones
Qué diferencia a Koheesio de otras bibliotecas
- Diseño especializado para pipelines de datos, integración con PySpark, transformación de datos, tareas ETL, validación de datos y procesamiento de datos a gran escala
- Ofrece funciones de Reader, Writer y Transformation para todo tipo de tareas de procesamiento de datos
- Fomenta la colaboración y la innovación dentro de la comunidad de ingeniería de datos
Componentes principales de Koheesio
- Step: unidad básica de trabajo de Koheesio, que representa una sola tarea dentro de un pipeline de datos. Recibe entradas y genera salidas
- Context: clase de configuración que establece el entorno de una tarea. Permite compartir variables entre tareas y ajustar el comportamiento de la tarea según el entorno
- Logger: clase que registra mensajes en distintos niveles
1 comentarios
Opiniones de Hacker News