15 puntos por GN⁺ 2026-02-16 | 1 comentarios | Compartir por WhatsApp
  • En la era de los modelos a gran escala, la calidad de los datos determina el límite superior del rendimiento del modelo
  • Una guía open source que ofrece conocimiento sistemático de ingeniería de datos para lograrlo
  • Abarca todo el proceso, incluyendo limpieza de datos de preentrenamiento, alineación multimodal, pipelines de datos para RAG y generación de datos sintéticos
  • Consta de 5 partes y 13 capítulos. Además, incluye 5 proyectos capstone prácticos, código ejecutable y diseños de arquitectura para apoyar el aprendizaje aplicado
  • Usa un stack tecnológico moderno como Ray, Spark, CLIP y DVC para procesar datos de texto, imagen y video
  • Puede servir como referencia práctica para quienes construyen pipelines de datos de IA, como investigadores de LLM, ingenieros de datos y especialistas en MLOps

Introducción

  • En la era de los modelos a gran escala, la calidad de los datos determina los límites del rendimiento del modelo
    • Fue creado para compensar la falta de materiales sistemáticos sobre ingeniería de datos para LLM
  • El libro cubre todo el stack tecnológico, desde la limpieza de datos de preentrenamiento hasta la alineación multimodal, RAG y la generación de datos sintéticos
    • Extracción de corpus de alta calidad a partir de grandes volúmenes de datos ruidosos como Common Crawl
    • Recolección, limpieza y alineación de datos de imagen-texto, video y audio
    • Generación automática de datos para SFT, RLHF y CoT
    • Construcción de pipelines RAG, incluyendo parsing de documentos empresariales y segmentación por unidades semánticas
  • Ofrece aprendizaje práctico mediante 5 proyectos capstone end-to-end
  • Disponible en línea: https://datascale-ai.github.io/data_engineering_book/en/

Estructura del libro

  • La estructura general es un pipeline completo de ingeniería de datos, desde los datos en bruto hasta la aplicación
  • Está compuesto por 6 partes, 13 capítulos y 5 proyectos
    • Parte 1: Infraestructura y conceptos clave
    • Parte 2: Ingeniería de datos de texto para preentrenamiento
    • Parte 3: Ingeniería de datos multimodales
    • Parte 4: Ingeniería de datos de alineación y datos sintéticos
    • Parte 5: Ingeniería de datos a nivel de aplicación
    • Parte 6: Proyectos capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Características principales

Teoría integral

  • Refleja de forma transversal la filosofía de Data-Centric AI
  • Cubre todo el ciclo de vida de los datos para LLM, desde preentrenamiento → ajuste fino → RLHF → RAG
  • Incluye temas avanzados como leyes de escalado, evaluación de calidad de datos y alineación multimodal

Stack tecnológico moderno

  • Computación distribuida: Ray Data, Spark
  • Almacenamiento de datos: Parquet, WebDataset, Vector Databases
  • Procesamiento de texto: Trafilatura, KenLM, MinHash LSH
  • Procesamiento multimodal: CLIP, ColPali, img2dataset
  • Control de versiones de datos: DVC, LakeFS

Proyectos capstone enriquecidos

  • Mini-C4: construcción de un corpus de texto de alta calidad con Trafilatura + Ray + MinHash
  • Legal Expert SFT: dataset de instrucciones de dominio basado en Self-Instruct + CoT
  • LLaVA Multimodal: creación de un dataset de instrucciones visuales con alineación Bbox e intercalado de múltiples imágenes
  • Math Textbook: construcción de un dataset de razonamiento con Evol-Instruct + validación en sandbox
  • Financial Report RAG: implementación de un sistema multimodal de preguntas y respuestas con ColPali + Qwen-VL

Desarrollo local

  • Entorno requerido: Python 3.8 o superior, MkDocs Material, mkdocs-static-i18n
  • Instalación y vista previa
    • Clonar el repositorio con git clone e instalar las dependencias
    • Ejecutar mkdocs serve para una vista previa local (con soporte para alternar entre chino e inglés)
  • Build del sitio estático: al ejecutar mkdocs build, el resultado se genera en el directorio site/

Estructura del proyecto

  • La carpeta docs/ incluye contenido en chino (zh/) e inglés (en/)
  • Está organizada con directorios de recursos como images/, stylesheets/ y javascripts/
  • .github/workflows/ incluye la configuración de CI/CD
  • La configuración del sitio se gestiona con mkdocs.yml
  • La licencia es MIT License

Público objetivo

  • Ingenieros de investigación y desarrollo de LLM, ingenieros de datos, ingenieros de MLOps, PM técnicos de IA e investigadores de pipelines de datos para LLM

Licencia

  • Se aplica la MIT License

1 comentarios

 
GN⁺ 2026-02-16
Comentarios de Hacker News
  • Estoy leyendo este libro con muchísimo agradecimiento. La calidad de la traducción es muy alta
    Soy completamente principiante en entrenamiento de LLM y estoy experimentando con una nueva arquitectura para generar código Python en Apple Silicon
    Pero me frustra que las herramientas de datos estén enfocadas en texto general o imágenes, y no en código
    Como SGlang no corre en MacOS, no puedo hacer generación de datos sintéticos usando salida con restricciones EBNF
    Estoy descargando por mi cuenta un corpus de código Python y resolviendo problemas de APFS, sharding, clasificación, limpieza y mezcla personalizadas, y me sorprende que no existan datasets preetiquetados para código

  • Si es un libro sobre ingeniería de datos para LLM, también debería mencionar categorías emergentes como los formatos de almacenamiento para todo el ciclo de vida de ML
    Por ejemplo, Lance es un almacenamiento columnar optimizado tanto para cargas analíticas como para workloads vectoriales, con soporte para versionado y acceso aleatorio
    Eso es muy importante para muestreo, filtrado eficiente y manejo de datos multimodales (por ejemplo, video)
    Ejemplos similares son vortex y nimble de Meta

  • Creo que el título ‘Data Engineering for LLMs’ sería más adecuado

    • Buena observación. En contenido, ‘Data Engineering for LLMs’ es mucho más preciso, así que se lo pasaré de inmediato al líder del proyecto
  • Puede que sea un problema de la traducción, pero la explicación inicial de “Modern Data Stack” no me dio mucha confianza
    La parte de 1_2_data_infra.md fue algo ambigua, pero
    después las secciones de limpieza de datos y pipeline de RAG fueron mucho más claras

    • Gracias por el feedback honesto
  • La versión en inglés está en README_en.md

    • ¡Gracias! Reemplacé el enlace superior por ese. La URL enviada originalmente era data_engineering_book
      La publicación había caído en el filtro de spam, pero el autor me avisó por correo y lo invité a compartir el contexto en los comentarios. Ahora eso ya está reflejado arriba
    • Gracias por compartir el enlace directo
  • Me pareció muy interesante y lo guardé en marcadores. Pero me pregunto si el README fue escrito con ChatGPT

    • Sí. Somos un equipo chino y usamos GPT para la traducción al inglés. Gracias por señalar que se sintió como una especie de ‘calidez falsa’. En adelante vamos a pulirlo con un tono más neutral y conciso
    • Yo también lo sentí así. Había muchas tablas de resumen y un tono artificial, así que daba mucho la impresión de haber sido escrito por un LLM. Aunque no hubiera sido GPT, necesita una reescritura completa
  • Me llamó la atención la frase “Data is the new oil, but only if you know how to refine it.”
    Como el petróleo tampoco sirve si no se refina, tal vez sonaría más natural como “Los datos son el nuevo petróleo y solo generan valor cuando se refinan

  • Me pareció interesante la sección ‘Vector DB vs Keyword Search’. Tengo curiosidad por dónde ponen la línea divisoria en los experimentos del pipeline de RAG
    En nuestra experiencia, la búsqueda por palabras clave como BM25 fue fuerte para nombres de entidades e ID, mientras que la búsqueda vectorial fue fuerte para consultas conceptuales. Me pregunto si el libro también cubre búsqueda híbrida o reranking

    • Buena pregunta. En producción real, el enfoque híbrido de BM25+vector fue efectivo en la mayoría de los casos. En una proporción aproximada de 70/30, las palabras clave llevaban ventaja para coincidencias exactas
      La clave es el reranking. No basta con combinar resultados; hay que volver a puntuarlos con un cross-encoder (por ejemplo, Cohere o un modelo personalizado)
      El momento en que la búsqueda puramente semántica resulta ventajosa es cuando la consulta gira más en torno a conceptos abstractos
    • Gracias por la observación. Vamos a cubrir ese patrón en futuras actualizaciones. Ahora mismo estamos en las vacaciones del Año Nuevo Lunar, así que puede haber algo de retraso
  • Las imágenes de cada capítulo están en inglés (excepto las de README_en.md)

    • ¡Gracias por avisar! Noté esa diferencia y corregí de inmediato los diagramas en README_en.md. Ahora deberían mostrarse correctamente
  • Parquet por sí solo no basta para la ingeniería de datos moderna. También deberían incluirse Delta e Iceberg

    • ¡Gracias por el feedback! Se lo pasé al responsable de esa sección. Ahora mismo estamos en las vacaciones del Año Nuevo Lunar, así que la actualización puede tardar un poco. Te deseo un feliz año nuevo