- En la era de los modelos a gran escala, la calidad de los datos determina el límite superior del rendimiento del modelo
- Una guía open source que ofrece conocimiento sistemático de ingeniería de datos para lograrlo
- Abarca todo el proceso, incluyendo limpieza de datos de preentrenamiento, alineación multimodal, pipelines de datos para RAG y generación de datos sintéticos
- Consta de 5 partes y 13 capítulos. Además, incluye 5 proyectos capstone prácticos, código ejecutable y diseños de arquitectura para apoyar el aprendizaje aplicado
- Usa un stack tecnológico moderno como Ray, Spark, CLIP y DVC para procesar datos de texto, imagen y video
- Puede servir como referencia práctica para quienes construyen pipelines de datos de IA, como investigadores de LLM, ingenieros de datos y especialistas en MLOps
Introducción
- En la era de los modelos a gran escala, la calidad de los datos determina los límites del rendimiento del modelo
- Fue creado para compensar la falta de materiales sistemáticos sobre ingeniería de datos para LLM
- El libro cubre todo el stack tecnológico, desde la limpieza de datos de preentrenamiento hasta la alineación multimodal, RAG y la generación de datos sintéticos
- Extracción de corpus de alta calidad a partir de grandes volúmenes de datos ruidosos como Common Crawl
- Recolección, limpieza y alineación de datos de imagen-texto, video y audio
- Generación automática de datos para SFT, RLHF y CoT
- Construcción de pipelines RAG, incluyendo parsing de documentos empresariales y segmentación por unidades semánticas
- Ofrece aprendizaje práctico mediante 5 proyectos capstone end-to-end
- Disponible en línea: https://datascale-ai.github.io/data_engineering_book/en/
Estructura del libro
- La estructura general es un pipeline completo de ingeniería de datos, desde los datos en bruto hasta la aplicación
- Está compuesto por 6 partes, 13 capítulos y 5 proyectos
- Parte 1: Infraestructura y conceptos clave
- Parte 2: Ingeniería de datos de texto para preentrenamiento
- Parte 3: Ingeniería de datos multimodales
- Parte 4: Ingeniería de datos de alineación y datos sintéticos
- Parte 5: Ingeniería de datos a nivel de aplicación
- Parte 6: Proyectos capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)
Características principales
Teoría integral
- Refleja de forma transversal la filosofía de Data-Centric AI
- Cubre todo el ciclo de vida de los datos para LLM, desde preentrenamiento → ajuste fino → RLHF → RAG
- Incluye temas avanzados como leyes de escalado, evaluación de calidad de datos y alineación multimodal
Stack tecnológico moderno
- Computación distribuida: Ray Data, Spark
- Almacenamiento de datos: Parquet, WebDataset, Vector Databases
- Procesamiento de texto: Trafilatura, KenLM, MinHash LSH
- Procesamiento multimodal: CLIP, ColPali, img2dataset
- Control de versiones de datos: DVC, LakeFS
Proyectos capstone enriquecidos
- Mini-C4: construcción de un corpus de texto de alta calidad con Trafilatura + Ray + MinHash
- Legal Expert SFT: dataset de instrucciones de dominio basado en Self-Instruct + CoT
- LLaVA Multimodal: creación de un dataset de instrucciones visuales con alineación Bbox e intercalado de múltiples imágenes
- Math Textbook: construcción de un dataset de razonamiento con Evol-Instruct + validación en sandbox
- Financial Report RAG: implementación de un sistema multimodal de preguntas y respuestas con ColPali + Qwen-VL
Desarrollo local
- Entorno requerido: Python 3.8 o superior, MkDocs Material, mkdocs-static-i18n
- Instalación y vista previa
- Clonar el repositorio con
git clone e instalar las dependencias
- Ejecutar
mkdocs serve para una vista previa local (con soporte para alternar entre chino e inglés)
- Build del sitio estático: al ejecutar
mkdocs build, el resultado se genera en el directorio site/
Estructura del proyecto
- La carpeta
docs/ incluye contenido en chino (zh/) e inglés (en/)
- Está organizada con directorios de recursos como
images/, stylesheets/ y javascripts/
.github/workflows/ incluye la configuración de CI/CD
- La configuración del sitio se gestiona con
mkdocs.yml
- La licencia es MIT License
Público objetivo
- Ingenieros de investigación y desarrollo de LLM, ingenieros de datos, ingenieros de MLOps, PM técnicos de IA e investigadores de pipelines de datos para LLM
Licencia
1 comentarios
Comentarios de Hacker News
Estoy leyendo este libro con muchísimo agradecimiento. La calidad de la traducción es muy alta
Soy completamente principiante en entrenamiento de LLM y estoy experimentando con una nueva arquitectura para generar código Python en Apple Silicon
Pero me frustra que las herramientas de datos estén enfocadas en texto general o imágenes, y no en código
Como SGlang no corre en MacOS, no puedo hacer generación de datos sintéticos usando salida con restricciones EBNF
Estoy descargando por mi cuenta un corpus de código Python y resolviendo problemas de APFS, sharding, clasificación, limpieza y mezcla personalizadas, y me sorprende que no existan datasets preetiquetados para código
Si es un libro sobre ingeniería de datos para LLM, también debería mencionar categorías emergentes como los formatos de almacenamiento para todo el ciclo de vida de ML
Por ejemplo, Lance es un almacenamiento columnar optimizado tanto para cargas analíticas como para workloads vectoriales, con soporte para versionado y acceso aleatorio
Eso es muy importante para muestreo, filtrado eficiente y manejo de datos multimodales (por ejemplo, video)
Ejemplos similares son vortex y nimble de Meta
Creo que el título ‘Data Engineering for LLMs’ sería más adecuado
Puede que sea un problema de la traducción, pero la explicación inicial de “Modern Data Stack” no me dio mucha confianza
La parte de 1_2_data_infra.md fue algo ambigua, pero
después las secciones de limpieza de datos y pipeline de RAG fueron mucho más claras
La versión en inglés está en README_en.md
La publicación había caído en el filtro de spam, pero el autor me avisó por correo y lo invité a compartir el contexto en los comentarios. Ahora eso ya está reflejado arriba
Me pareció muy interesante y lo guardé en marcadores. Pero me pregunto si el README fue escrito con ChatGPT
Me llamó la atención la frase “Data is the new oil, but only if you know how to refine it.”
Como el petróleo tampoco sirve si no se refina, tal vez sonaría más natural como “Los datos son el nuevo petróleo y solo generan valor cuando se refinan”
Me pareció interesante la sección ‘Vector DB vs Keyword Search’. Tengo curiosidad por dónde ponen la línea divisoria en los experimentos del pipeline de RAG
En nuestra experiencia, la búsqueda por palabras clave como BM25 fue fuerte para nombres de entidades e ID, mientras que la búsqueda vectorial fue fuerte para consultas conceptuales. Me pregunto si el libro también cubre búsqueda híbrida o reranking
La clave es el reranking. No basta con combinar resultados; hay que volver a puntuarlos con un cross-encoder (por ejemplo, Cohere o un modelo personalizado)
El momento en que la búsqueda puramente semántica resulta ventajosa es cuando la consulta gira más en torno a conceptos abstractos
Las imágenes de cada capítulo están en inglés (excepto las de README_en.md)
Parquet por sí solo no basta para la ingeniería de datos moderna. También deberían incluirse Delta e Iceberg