- Un manual en línea que cubre las herramientas y técnicas esenciales de la ciencia de datos basada en Python, con todo el contenido disponible públicamente en el sitio web y en GitHub
- Se ofrece en formato de cuadernos Jupyter, lo que permite un aprendizaje práctico, con código y texto incluidos en conjunto
- El texto se distribuye bajo licencia CC-BY-NC-ND y los ejemplos de código bajo licencia MIT, lo que permite un uso libre no comercial
- Cubre de forma sistemática las bibliotecas clave para análisis de datos y aprendizaje automático como IPython, NumPy, Pandas, Matplotlib y Scikit-Learn
- Es un recurso útil tanto para principiantes como para profesionales para aprender el flujo de trabajo estándar del ecosistema de Python
Descripción general
- Este sitio contiene el contenido completo de Python Data Science Handbook de Jake VanderPlas
- El libro original fue publicado por O’Reilly, y la versión web está disponible gratis
- Todo el contenido se ofrece en forma de cuadernos Jupyter en el repositorio de GitHub
- El texto se distribuye bajo licencia CC-BY-NC-ND y los ejemplos de código bajo licencia MIT
- Se permite el uso no comercial y la reutilización del código
- Si al lector le resulta útil, puede apoyar al autor comprando la edición original
Estructura del contenido
- El libro está compuesto por 5 capítulos principales y un apéndice
Capítulo 1: IPython – más allá de Python convencional
- Explica las funciones y el uso del entorno IPython
- Incluye sistema de ayuda, atajos de teclado, comandos mágicos e integración con comandos de shell
- También cubre historial de ejecución de código, depuración y medición de rendimiento
Capítulo 2: Introducción a NumPy
- Trata los fundamentos del cálculo numérico usando arreglos de NumPy
- Incluye tipos de datos, broadcasting, máscaras booleanas, ordenamiento y arreglos estructurados
- Explica cómo usar operaciones basadas en arreglos y funciones de agregación
Capítulo 3: Manipulación de datos con Pandas
- Cubre los objetos principales y las funciones de procesamiento de datos de Pandas
- Incluye indexación, manejo de valores faltantes, agrupación, tablas dinámicas y series temporales
- También presenta operaciones de alto rendimiento con
eval() y query()
Capítulo 4: Visualización con Matplotlib
- Explica métodos de visualización de datos con Matplotlib y Seaborn
- Incluye varios tipos de gráficos como líneas, dispersión, histogramas y gráficos de densidad
- Cubre funciones avanzadas como leyendas, barras de color, hojas de estilo, gráficos 3D y visualización de datos geográficos
Capítulo 5: Aprendizaje automático
- Trata los conceptos básicos y algoritmos de aprendizaje automático con énfasis en Scikit-Learn
- Incluye procedimientos clave como hiperparámetros, validación de modelos e ingeniería de características
- Explica modelos principales como Naive Bayes, regresión lineal, SVM, random forest, PCA, k-means y GMM
- Presenta casos de aplicación reales mediante un ejemplo de pipeline de reconocimiento facial
Apéndice: Código de las figuras
- Reúne el código de visualización usado en el texto principal
- Permite reproducir y modificar cada figura
Importancia práctica
- Ofrece a quienes aprenden ciencia de datos una comprensión integrada del ecosistema de Python
- Su formato de cuadernos prácticos permite usarlo en educación, investigación y prototipado
- Al publicarse con licencias de código abierto, facilita la expansión continua y las contribuciones de la comunidad
2 comentarios
https://product.kyobobook.co.kr/detail/S000201558138
Análisis de datos con bibliotecas de Python
Es un libro escrito por Wes McKinney, creador de pandas, y también es una buena opción como libro introductorio a la ciencia de datos. Yo lo vi cuando recién salió la segunda edición... y ahora que lo busqué, resulta que ya salió la tercera edición.
Opiniones en Hacker News
Me gustó muchísimo la charla Statistics for Hackers de Jake VanderPlas
Ver material de la presentación
Por ejemplo, si la prevalencia de una enfermedad es de 1/10,000 y la precisión de la prueba es de 99%, un resultado positivo no significa que haya un 99% de probabilidad de tener la enfermedad
Este tipo de libros siempre resulta interesante
Cubre de forma amplia pero superficial temas variados como manipulación de datos, visualización y machine learning, y cada uno de esos temas podría ser un libro por sí solo
Es difícil equilibrar la enseñanza de programación con la introducción a conceptos y teoría, pero este libro parece lograr un buen balance como texto de entrada
Este libro fue increíblemente útil cuando empecé en data science en 2017~2018
Jake era un gran profesor
Es interesante que hayan elegido Pandas en el contexto actual
Probablemente el enfoque fue más en transmitir conceptos generales que en herramientas más recientes
En mi primer trabajo consulté un blog sobre Kernel Density Estimation (KDE), y fue tremendamente útil
Desde entonces me gusta el trabajo de Jake
La versión en línea del libro está disponible en learningds.org
La licencia es CC-BY-NC-ND
No entiendo muy bien por qué a la gente no le gusta Pandas
No es una herramienta perfecta, pero en nuestro codebase tenemos miles de líneas de código en Pandas y casi nunca nos ha provocado bugs de producción
Operamos de forma estable usando wrappers de esquema estático y type checkers junto con Pandas
Era un gran escritor y extraño su blog
En especial me impresionó su texto sobre tablas dinámicas, y parece que ese contenido ahora está incluido en el libro
Se puede ver en el sitio oficial de Altair
Este libro fue escrito hace 8 años, pero sí existe una 2.ª edición del mismo autor
Aparece como “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”
Se puede comparar con la edición de 2016 del enlace original
Fue uno de los pocos libros que sí leí completo de principio a fin mientras aprendía data science en 2020~2021
Incluso ahora sigue siendo recomendable