9 puntos por xguru 2024-06-05 | 1 comentarios | Compartir por WhatsApp
  • Framework de Python para construir pipelines de datos de manera eficiente
  • Promueve la modularidad y la colaboración para crear pipelines complejos con componentes simples y reutilizables
  • Diseñado para funcionar sin problemas con múltiples bibliotecas o frameworks de procesamiento de datos
  • Usa Pydantic para ofrecer una sólida verificación de tipos, validación de datos y gestión de configuración
  • Garantiza una ejecución predecible de los pipelines mediante código bien probado y un conjunto amplio de funciones

Qué diferencia a Koheesio de otras bibliotecas

  • Diseño especializado para pipelines de datos, integración con PySpark, transformación de datos, tareas ETL, validación de datos y procesamiento de datos a gran escala
  • Ofrece funciones de Reader, Writer y Transformation para todo tipo de tareas de procesamiento de datos
  • Fomenta la colaboración y la innovación dentro de la comunidad de ingeniería de datos

Componentes principales de Koheesio

  • Step: unidad básica de trabajo de Koheesio, que representa una sola tarea dentro de un pipeline de datos. Recibe entradas y genera salidas
  • Context: clase de configuración que establece el entorno de una tarea. Permite compartir variables entre tareas y ajustar el comportamiento de la tarea según el entorno
  • Logger: clase que registra mensajes en distintos niveles

1 comentarios

 
xguru 2024-06-06
Opiniones de Hacker News
  • Me da curiosidad cómo es realmente la ingeniería de datos en Nike. Me llegan con frecuencia ofertas de contratista mal pagadas por culpa de mi perfil de LinkedIn. Estos roles apuntan a personas con experiencia dentro de EE. UU., pero la paga es baja. También es posible que estos roles sean una estafa.
  • Esta herramienta puede ser útil en entornos con muchos desarrolladores con poca experiencia. Un grupo de 2 o 3 desarrolladores crea la herramienta, y un equipo más grande realiza tareas ETL simples. El equipo de herramientas carga con la presión de resolver nuevos requisitos.
  • El tipado fuerte entorpece los problemas de ingeniería de datos. Los lenguajes dinámicos ayudan a reducir la complejidad del código y el mantenimiento. Insistir en frameworks tipados se basa más en experiencia académica que en experiencia de la industria.
  • He trabajado con ETL, Spark, Storm y otros, pero no entiendo la propuesta de valor de esta librería. No soy especialista en ingeniería de datos, pero esperaba ver la utilidad de esta herramienta.
  • Hace falta una mejor explicación de qué es esta herramienta y por qué debería usarse. Ver enlace.
  • Hace unas semanas escribí un pipeline de datos usando Apache Beam. Koheesio comparte algunas funciones, pero Apache Beam es superior.
  • Se parece a Luigi. ¡Bien!
  • Recomiendo revisar CloudQuery. Es un framework ELT basado en Arrow. (el propio autor)
  • Koheesio dice que no compite con otras librerías, pero en la práctica sí compite. La orquestación de workflows es una categoría madura. Usar Python no es una gran ventaja.
  • Me pregunto si han visto la librería dlt. Ofrece EL fácil de usar en Python. Tengo curiosidad por las diferencias entre Koheesio y dlt, y por si pueden complementarse.