Ingeniería de datos para modelos a gran escala: arquitectura, algoritmos y proyectos

(github.com/datascale-ai)

15 puntos por GN⁺ 2026-02-16 | 1 comentarios | Compartir por WhatsApp

En la era de los modelos a gran escala, la calidad de los datos determina el límite superior del rendimiento del modelo
Una guía open source que ofrece conocimiento sistemático de ingeniería de datos para lograrlo
Abarca todo el proceso, incluyendo limpieza de datos de preentrenamiento, alineación multimodal, pipelines de datos para RAG y generación de datos sintéticos
Consta de 5 partes y 13 capítulos. Además, incluye 5 proyectos capstone prácticos, código ejecutable y diseños de arquitectura para apoyar el aprendizaje aplicado
Usa un stack tecnológico moderno como Ray, Spark, CLIP y DVC para procesar datos de texto, imagen y video
Puede servir como referencia práctica para quienes construyen pipelines de datos de IA, como investigadores de LLM, ingenieros de datos y especialistas en MLOps

Introducción

En la era de los modelos a gran escala, la calidad de los datos determina los límites del rendimiento del modelo
- Fue creado para compensar la falta de materiales sistemáticos sobre ingeniería de datos para LLM
El libro cubre todo el stack tecnológico, desde la limpieza de datos de preentrenamiento hasta la alineación multimodal, RAG y la generación de datos sintéticos
- Extracción de corpus de alta calidad a partir de grandes volúmenes de datos ruidosos como Common Crawl
- Recolección, limpieza y alineación de datos de imagen-texto, video y audio
- Generación automática de datos para SFT, RLHF y CoT
- Construcción de pipelines RAG, incluyendo parsing de documentos empresariales y segmentación por unidades semánticas
Ofrece aprendizaje práctico mediante 5 proyectos capstone end-to-end
Disponible en línea: https://datascale-ai.github.io/data_engineering_book/en/

Estructura del libro

La estructura general es un pipeline completo de ingeniería de datos, desde los datos en bruto hasta la aplicación
Está compuesto por 6 partes, 13 capítulos y 5 proyectos
- Parte 1: Infraestructura y conceptos clave
- Parte 2: Ingeniería de datos de texto para preentrenamiento
- Parte 3: Ingeniería de datos multimodales
- Parte 4: Ingeniería de datos de alineación y datos sintéticos
- Parte 5: Ingeniería de datos a nivel de aplicación
- Parte 6: Proyectos capstone (Mini-C4, Legal SFT, LLaVA, Math/Code, Financial RAG)

Características principales

Teoría integral

Refleja de forma transversal la filosofía de Data-Centric AI
Cubre todo el ciclo de vida de los datos para LLM, desde preentrenamiento → ajuste fino → RLHF → RAG
Incluye temas avanzados como leyes de escalado, evaluación de calidad de datos y alineación multimodal

Stack tecnológico moderno

Computación distribuida: Ray Data, Spark
Almacenamiento de datos: Parquet, WebDataset, Vector Databases
Procesamiento de texto: Trafilatura, KenLM, MinHash LSH
Procesamiento multimodal: CLIP, ColPali, img2dataset
Control de versiones de datos: DVC, LakeFS

Proyectos capstone enriquecidos

Mini-C4: construcción de un corpus de texto de alta calidad con Trafilatura + Ray + MinHash
Legal Expert SFT: dataset de instrucciones de dominio basado en Self-Instruct + CoT
LLaVA Multimodal: creación de un dataset de instrucciones visuales con alineación Bbox e intercalado de múltiples imágenes
Math Textbook: construcción de un dataset de razonamiento con Evol-Instruct + validación en sandbox
Financial Report RAG: implementación de un sistema multimodal de preguntas y respuestas con ColPali + Qwen-VL

Desarrollo local

Entorno requerido: Python 3.8 o superior, MkDocs Material, mkdocs-static-i18n
Instalación y vista previa
- Clonar el repositorio con git clone e instalar las dependencias
- Ejecutar mkdocs serve para una vista previa local (con soporte para alternar entre chino e inglés)
Build del sitio estático: al ejecutar mkdocs build, el resultado se genera en el directorio site/

Estructura del proyecto

La carpeta docs/ incluye contenido en chino (zh/) e inglés (en/)
Está organizada con directorios de recursos como images/, stylesheets/ y javascripts/
.github/workflows/ incluye la configuración de CI/CD
La configuración del sitio se gestiona con mkdocs.yml
La licencia es MIT License

Público objetivo

Ingenieros de investigación y desarrollo de LLM, ingenieros de datos, ingenieros de MLOps, PM técnicos de IA e investigadores de pipelines de datos para LLM

Licencia

Se aplica la MIT License

Disponible en línea: https://datascale-ai.github.io/data_engineering_book/en/

1 comentarios

GN⁺ 2026-02-16

Comentarios de Hacker News

Estoy leyendo este libro con muchísimo agradecimiento. La calidad de la traducción es muy alta
Soy completamente principiante en entrenamiento de LLM y estoy experimentando con una nueva arquitectura para generar código Python en Apple Silicon
Pero me frustra que las herramientas de datos estén enfocadas en texto general o imágenes, y no en código
Como SGlang no corre en MacOS, no puedo hacer generación de datos sintéticos usando salida con restricciones EBNF
Estoy descargando por mi cuenta un corpus de código Python y resolviendo problemas de APFS, sharding, clasificación, limpieza y mezcla personalizadas, y me sorprende que no existan datasets preetiquetados para código
Si es un libro sobre ingeniería de datos para LLM, también debería mencionar categorías emergentes como los formatos de almacenamiento para todo el ciclo de vida de ML
Por ejemplo, Lance es un almacenamiento columnar optimizado tanto para cargas analíticas como para workloads vectoriales, con soporte para versionado y acceso aleatorio
Eso es muy importante para muestreo, filtrado eficiente y manejo de datos multimodales (por ejemplo, video)
Ejemplos similares son vortex y nimble de Meta
Creo que el título ‘Data Engineering for LLMs’ sería más adecuado
- Buena observación. En contenido, ‘Data Engineering for LLMs’ es mucho más preciso, así que se lo pasaré de inmediato al líder del proyecto
Puede que sea un problema de la traducción, pero la explicación inicial de “Modern Data Stack” no me dio mucha confianza
La parte de 1_2_data_infra.md fue algo ambigua, pero
después las secciones de limpieza de datos y pipeline de RAG fueron mucho más claras
- Gracias por el feedback honesto
La versión en inglés está en README_en.md
- ¡Gracias! Reemplacé el enlace superior por ese. La URL enviada originalmente era data_engineering_book
  La publicación había caído en el filtro de spam, pero el autor me avisó por correo y lo invité a compartir el contexto en los comentarios. Ahora eso ya está reflejado arriba
- Gracias por compartir el enlace directo
Me pareció muy interesante y lo guardé en marcadores. Pero me pregunto si el README fue escrito con ChatGPT
- Sí. Somos un equipo chino y usamos GPT para la traducción al inglés. Gracias por señalar que se sintió como una especie de ‘calidez falsa’. En adelante vamos a pulirlo con un tono más neutral y conciso
- Yo también lo sentí así. Había muchas tablas de resumen y un tono artificial, así que daba mucho la impresión de haber sido escrito por un LLM. Aunque no hubiera sido GPT, necesita una reescritura completa
Me llamó la atención la frase “Data is the new oil, but only if you know how to refine it.”
Como el petróleo tampoco sirve si no se refina, tal vez sonaría más natural como “Los datos son el nuevo petróleo y solo generan valor cuando se refinan”
Me pareció interesante la sección ‘Vector DB vs Keyword Search’. Tengo curiosidad por dónde ponen la línea divisoria en los experimentos del pipeline de RAG
En nuestra experiencia, la búsqueda por palabras clave como BM25 fue fuerte para nombres de entidades e ID, mientras que la búsqueda vectorial fue fuerte para consultas conceptuales. Me pregunto si el libro también cubre búsqueda híbrida o reranking
- Buena pregunta. En producción real, el enfoque híbrido de BM25+vector fue efectivo en la mayoría de los casos. En una proporción aproximada de 70/30, las palabras clave llevaban ventaja para coincidencias exactas
  La clave es el reranking. No basta con combinar resultados; hay que volver a puntuarlos con un cross-encoder (por ejemplo, Cohere o un modelo personalizado)
  El momento en que la búsqueda puramente semántica resulta ventajosa es cuando la consulta gira más en torno a conceptos abstractos
- Gracias por la observación. Vamos a cubrir ese patrón en futuras actualizaciones. Ahora mismo estamos en las vacaciones del Año Nuevo Lunar, así que puede haber algo de retraso
Las imágenes de cada capítulo están en inglés (excepto las de README_en.md)
- ¡Gracias por avisar! Noté esa diferencia y corregí de inmediato los diagramas en README_en.md. Ahora deberían mostrarse correctamente
Parquet por sí solo no basta para la ingeniería de datos moderna. También deberían incluirse Delta e Iceberg
- ¡Gracias por el feedback! Se lo pasé al responsable de esa sección. Ahora mismo estamos en las vacaciones del Año Nuevo Lunar, así que la actualización puede tardar un poco. Te deseo un feliz año nuevo

Ingeniería de datos para modelos a gran escala: arquitectura, algoritmos y proyectos

Introducción

Estructura del libro

Características principales

Teoría integral

Stack tecnológico moderno

Proyectos capstone enriquecidos

Desarrollo local

Estructura del proyecto

Público objetivo

Licencia

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News