Manual de ciencia de datos con Python

(jakevdp.github.io)

43 puntos por GN⁺ 2025-12-04 | 2 comentarios | Compartir por WhatsApp

Un manual en línea que cubre las herramientas y técnicas esenciales de la ciencia de datos basada en Python, con todo el contenido disponible públicamente en el sitio web y en GitHub
Se ofrece en formato de cuadernos Jupyter, lo que permite un aprendizaje práctico, con código y texto incluidos en conjunto
El texto se distribuye bajo licencia CC-BY-NC-ND y los ejemplos de código bajo licencia MIT, lo que permite un uso libre no comercial
Cubre de forma sistemática las bibliotecas clave para análisis de datos y aprendizaje automático como IPython, NumPy, Pandas, Matplotlib y Scikit-Learn
Es un recurso útil tanto para principiantes como para profesionales para aprender el flujo de trabajo estándar del ecosistema de Python

Descripción general

Este sitio contiene el contenido completo de Python Data Science Handbook de Jake VanderPlas
- El libro original fue publicado por O’Reilly, y la versión web está disponible gratis
- Todo el contenido se ofrece en forma de cuadernos Jupyter en el repositorio de GitHub
El texto se distribuye bajo licencia CC-BY-NC-ND y los ejemplos de código bajo licencia MIT
- Se permite el uso no comercial y la reutilización del código
Si al lector le resulta útil, puede apoyar al autor comprando la edición original

Estructura del contenido

El libro está compuesto por 5 capítulos principales y un apéndice

Capítulo 1: IPython – más allá de Python convencional

Explica las funciones y el uso del entorno IPython
- Incluye sistema de ayuda, atajos de teclado, comandos mágicos e integración con comandos de shell
- También cubre historial de ejecución de código, depuración y medición de rendimiento

Capítulo 2: Introducción a NumPy

Trata los fundamentos del cálculo numérico usando arreglos de NumPy
- Incluye tipos de datos, broadcasting, máscaras booleanas, ordenamiento y arreglos estructurados
- Explica cómo usar operaciones basadas en arreglos y funciones de agregación

Capítulo 3: Manipulación de datos con Pandas

Cubre los objetos principales y las funciones de procesamiento de datos de Pandas
- Incluye indexación, manejo de valores faltantes, agrupación, tablas dinámicas y series temporales
- También presenta operaciones de alto rendimiento con eval() y query()

Capítulo 4: Visualización con Matplotlib

Explica métodos de visualización de datos con Matplotlib y Seaborn
- Incluye varios tipos de gráficos como líneas, dispersión, histogramas y gráficos de densidad
- Cubre funciones avanzadas como leyendas, barras de color, hojas de estilo, gráficos 3D y visualización de datos geográficos

Capítulo 5: Aprendizaje automático

Trata los conceptos básicos y algoritmos de aprendizaje automático con énfasis en Scikit-Learn
- Incluye procedimientos clave como hiperparámetros, validación de modelos e ingeniería de características
- Explica modelos principales como Naive Bayes, regresión lineal, SVM, random forest, PCA, k-means y GMM
- Presenta casos de aplicación reales mediante un ejemplo de pipeline de reconocimiento facial

Apéndice: Código de las figuras

Reúne el código de visualización usado en el texto principal
- Permite reproducir y modificar cada figura

Importancia práctica

Ofrece a quienes aprenden ciencia de datos una comprensión integrada del ecosistema de Python
Su formato de cuadernos prácticos permite usarlo en educación, investigación y prototipado
Al publicarse con licencias de código abierto, facilita la expansión continua y las contribuciones de la comunidad

2 comentarios

aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Análisis de datos con bibliotecas de Python
Es un libro escrito por Wes McKinney, creador de pandas, y también es una buena opción como libro introductorio a la ciencia de datos. Yo lo vi cuando recién salió la segunda edición... y ahora que lo busqué, resulta que ya salió la tercera edición.

GN⁺ 2025-12-04

Opiniones en Hacker News

Me gustó muchísimo la charla Statistics for Hackers de Jake VanderPlas
Ver material de la presentación
- Gracias por compartirla. Me hizo recordar cuánto reduce errores pensar en frecuencias en lugar de probabilidades
  Por ejemplo, si la prevalencia de una enfermedad es de 1/10,000 y la precisión de la prueba es de 99%, un resultado positivo no significa que haya un 99% de probabilidad de tener la enfermedad
Este tipo de libros siempre resulta interesante
Cubre de forma amplia pero superficial temas variados como manipulación de datos, visualización y machine learning, y cada uno de esos temas podría ser un libro por sí solo
Es difícil equilibrar la enseñanza de programación con la introducción a conceptos y teoría, pero este libro parece lograr un buen balance como texto de entrada
Este libro fue increíblemente útil cuando empecé en data science en 2017~2018
Jake era un gran profesor
Es interesante que hayan elegido Pandas en el contexto actual
Probablemente el enfoque fue más en transmitir conceptos generales que en herramientas más recientes
- Como el libro se publicó originalmente en 2016, es muy probable que siga siendo la 1.ª edición
- Sigo pensando que Pandas es el estándar de la industria. Polars o Spark están más enfocados en rendimiento para data engineering, y no son tan adecuados para cubrir data science en general
- El libro ya tiene bastante tiempo, así que quizá no sea correcto decir “hoy en día”
- No entiendo muy bien cuál sería el problema con Pandas
En mi primer trabajo consulté un blog sobre Kernel Density Estimation (KDE), y fue tremendamente útil
Desde entonces me gusta el trabajo de Jake
La versión en línea del libro está disponible en learningds.org
La licencia es CC-BY-NC-ND
No entiendo muy bien por qué a la gente no le gusta Pandas
No es una herramienta perfecta, pero en nuestro codebase tenemos miles de líneas de código en Pandas y casi nunca nos ha provocado bugs de producción
Operamos de forma estable usando wrappers de esquema estático y type checkers junto con Pandas
- Me da curiosidad si es un wrapper de esquema hecho por ustedes o si hay algún paquete en PyPI que valga la pena recomendar
Era un gran escritor y extraño su blog
En especial me impresionó su texto sobre tablas dinámicas, y parece que ese contenido ahora está incluido en el libro
- También es el creador de la librería de visualización para Python Altair (basada en Vega-Lite)
  Se puede ver en el sitio oficial de Altair
Este libro fue escrito hace 8 años, pero sí existe una 2.ª edición del mismo autor
- Hay una versión en notebooks de la 2.ª edición en el repositorio de GitHub
  Aparece como “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”
  Se puede comparar con la edición de 2016 del enlace original
Fue uno de los pocos libros que sí leí completo de principio a fin mientras aprendía data science en 2020~2021
Incluso ahora sigue siendo recomendable