Koheesio - Framework open source de Nike para construir pipelines de datos

xguru · 2024-06-05T09:37:10+09:00

Framework de Python para construir pipelines de datos de manera eficiente Promueve la modularidad y la colaboración para crear pipelines complejos con componentes simples y reutilizables Diseñado para funcionar sin problemas con múltiples bibliotecas o frameworks de procesamiento de datos Usa Pydantic para ofrecer una sólida verificación de tipos, validación de datos y gestión de configuración Garantiza una ejecución predecible de los pipelines mediante código bien probado y un conjunto amplio de funciones Qué diferencia a Koheesio de otras bibliotecas Diseño especializado para pipelines de datos, integración con PySpark, transformación de datos, tareas ETL, validación de datos y procesamiento de datos a gran escala Ofrece funciones de Reader, Writer y Transformation para todo tipo de tareas de procesamiento de datos Fomenta la colaboración y la innovación dentro de la comunidad de ingeniería de datos Componentes principales de Koheesio Step: unidad básica de trabajo de Koheesio, que representa una sola tarea dentro de un pipeline de datos. Recibe entradas y genera salidas Context: clase de configuración que establece el entorno de una tarea. Permite compartir variables entre tareas y ajustar el comportamiento de la tarea según el entorno Logger: clase que registra mensajes en distintos niveles

Framework de Python para construir pipelines de datos de manera eficiente
Promueve la modularidad y la colaboración para crear pipelines complejos con componentes simples y reutilizables
Diseñado para funcionar sin problemas con múltiples bibliotecas o frameworks de procesamiento de datos
Usa Pydantic para ofrecer una sólida verificación de tipos, validación de datos y gestión de configuración
Garantiza una ejecución predecible de los pipelines mediante código bien probado y un conjunto amplio de funciones

Qué diferencia a Koheesio de otras bibliotecas

Diseño especializado para pipelines de datos, integración con PySpark, transformación de datos, tareas ETL, validación de datos y procesamiento de datos a gran escala
Ofrece funciones de Reader, Writer y Transformation para todo tipo de tareas de procesamiento de datos
Fomenta la colaboración y la innovación dentro de la comunidad de ingeniería de datos

Componentes principales de Koheesio

Step: unidad básica de trabajo de Koheesio, que representa una sola tarea dentro de un pipeline de datos. Recibe entradas y genera salidas
Context: clase de configuración que establece el entorno de una tarea. Permite compartir variables entre tareas y ajustar el comportamiento de la tarea según el entorno
Logger: clase que registra mensajes en distintos niveles

1 comentarios

xguru 2024-06-06

Opiniones de Hacker News

Me da curiosidad cómo es realmente la ingeniería de datos en Nike. Me llegan con frecuencia ofertas de contratista mal pagadas por culpa de mi perfil de LinkedIn. Estos roles apuntan a personas con experiencia dentro de EE. UU., pero la paga es baja. También es posible que estos roles sean una estafa.
Esta herramienta puede ser útil en entornos con muchos desarrolladores con poca experiencia. Un grupo de 2 o 3 desarrolladores crea la herramienta, y un equipo más grande realiza tareas ETL simples. El equipo de herramientas carga con la presión de resolver nuevos requisitos.
El tipado fuerte entorpece los problemas de ingeniería de datos. Los lenguajes dinámicos ayudan a reducir la complejidad del código y el mantenimiento. Insistir en frameworks tipados se basa más en experiencia académica que en experiencia de la industria.
He trabajado con ETL, Spark, Storm y otros, pero no entiendo la propuesta de valor de esta librería. No soy especialista en ingeniería de datos, pero esperaba ver la utilidad de esta herramienta.
Hace falta una mejor explicación de qué es esta herramienta y por qué debería usarse. Ver enlace.
Hace unas semanas escribí un pipeline de datos usando Apache Beam. Koheesio comparte algunas funciones, pero Apache Beam es superior.
Se parece a Luigi. ¡Bien!
Recomiendo revisar CloudQuery. Es un framework ELT basado en Arrow. (el propio autor)
Koheesio dice que no compite con otras librerías, pero en la práctica sí compite. La orquestación de workflows es una categoría madura. Usar Python no es una gran ventaja.
Me pregunto si han visto la librería dlt. Ofrece EL fácil de usar en Python. Tengo curiosidad por las diferencias entre Koheesio y dlt, y por si pueden complementarse.