43 puntos por GN⁺ 2025-12-04 | 2 comentarios | Compartir por WhatsApp
  • Un manual en línea que cubre las herramientas y técnicas esenciales de la ciencia de datos basada en Python, con todo el contenido disponible públicamente en el sitio web y en GitHub
  • Se ofrece en formato de cuadernos Jupyter, lo que permite un aprendizaje práctico, con código y texto incluidos en conjunto
  • El texto se distribuye bajo licencia CC-BY-NC-ND y los ejemplos de código bajo licencia MIT, lo que permite un uso libre no comercial
  • Cubre de forma sistemática las bibliotecas clave para análisis de datos y aprendizaje automático como IPython, NumPy, Pandas, Matplotlib y Scikit-Learn
  • Es un recurso útil tanto para principiantes como para profesionales para aprender el flujo de trabajo estándar del ecosistema de Python

Descripción general

  • Este sitio contiene el contenido completo de Python Data Science Handbook de Jake VanderPlas
    • El libro original fue publicado por O’Reilly, y la versión web está disponible gratis
    • Todo el contenido se ofrece en forma de cuadernos Jupyter en el repositorio de GitHub
  • El texto se distribuye bajo licencia CC-BY-NC-ND y los ejemplos de código bajo licencia MIT
    • Se permite el uso no comercial y la reutilización del código
  • Si al lector le resulta útil, puede apoyar al autor comprando la edición original

Estructura del contenido

  • El libro está compuesto por 5 capítulos principales y un apéndice

Capítulo 1: IPython – más allá de Python convencional

  • Explica las funciones y el uso del entorno IPython
    • Incluye sistema de ayuda, atajos de teclado, comandos mágicos e integración con comandos de shell
    • También cubre historial de ejecución de código, depuración y medición de rendimiento

Capítulo 2: Introducción a NumPy

  • Trata los fundamentos del cálculo numérico usando arreglos de NumPy
    • Incluye tipos de datos, broadcasting, máscaras booleanas, ordenamiento y arreglos estructurados
    • Explica cómo usar operaciones basadas en arreglos y funciones de agregación

Capítulo 3: Manipulación de datos con Pandas

  • Cubre los objetos principales y las funciones de procesamiento de datos de Pandas
    • Incluye indexación, manejo de valores faltantes, agrupación, tablas dinámicas y series temporales
    • También presenta operaciones de alto rendimiento con eval() y query()

Capítulo 4: Visualización con Matplotlib

  • Explica métodos de visualización de datos con Matplotlib y Seaborn
    • Incluye varios tipos de gráficos como líneas, dispersión, histogramas y gráficos de densidad
    • Cubre funciones avanzadas como leyendas, barras de color, hojas de estilo, gráficos 3D y visualización de datos geográficos

Capítulo 5: Aprendizaje automático

  • Trata los conceptos básicos y algoritmos de aprendizaje automático con énfasis en Scikit-Learn
    • Incluye procedimientos clave como hiperparámetros, validación de modelos e ingeniería de características
    • Explica modelos principales como Naive Bayes, regresión lineal, SVM, random forest, PCA, k-means y GMM
    • Presenta casos de aplicación reales mediante un ejemplo de pipeline de reconocimiento facial

Apéndice: Código de las figuras

  • Reúne el código de visualización usado en el texto principal
    • Permite reproducir y modificar cada figura

Importancia práctica

  • Ofrece a quienes aprenden ciencia de datos una comprensión integrada del ecosistema de Python
  • Su formato de cuadernos prácticos permite usarlo en educación, investigación y prototipado
  • Al publicarse con licencias de código abierto, facilita la expansión continua y las contribuciones de la comunidad

2 comentarios

 
aer0700 2025-12-06

https://product.kyobobook.co.kr/detail/S000201558138
Análisis de datos con bibliotecas de Python
Es un libro escrito por Wes McKinney, creador de pandas, y también es una buena opción como libro introductorio a la ciencia de datos. Yo lo vi cuando recién salió la segunda edición... y ahora que lo busqué, resulta que ya salió la tercera edición.

 
GN⁺ 2025-12-04
Opiniones en Hacker News
  • Me gustó muchísimo la charla Statistics for Hackers de Jake VanderPlas
    Ver material de la presentación

    • Gracias por compartirla. Me hizo recordar cuánto reduce errores pensar en frecuencias en lugar de probabilidades
      Por ejemplo, si la prevalencia de una enfermedad es de 1/10,000 y la precisión de la prueba es de 99%, un resultado positivo no significa que haya un 99% de probabilidad de tener la enfermedad
  • Este tipo de libros siempre resulta interesante
    Cubre de forma amplia pero superficial temas variados como manipulación de datos, visualización y machine learning, y cada uno de esos temas podría ser un libro por sí solo
    Es difícil equilibrar la enseñanza de programación con la introducción a conceptos y teoría, pero este libro parece lograr un buen balance como texto de entrada

  • Este libro fue increíblemente útil cuando empecé en data science en 2017~2018
    Jake era un gran profesor

  • Es interesante que hayan elegido Pandas en el contexto actual
    Probablemente el enfoque fue más en transmitir conceptos generales que en herramientas más recientes

    • Como el libro se publicó originalmente en 2016, es muy probable que siga siendo la 1.ª edición
    • Sigo pensando que Pandas es el estándar de la industria. Polars o Spark están más enfocados en rendimiento para data engineering, y no son tan adecuados para cubrir data science en general
    • El libro ya tiene bastante tiempo, así que quizá no sea correcto decir “hoy en día”
    • No entiendo muy bien cuál sería el problema con Pandas
  • En mi primer trabajo consulté un blog sobre Kernel Density Estimation (KDE), y fue tremendamente útil
    Desde entonces me gusta el trabajo de Jake

  • La versión en línea del libro está disponible en learningds.org
    La licencia es CC-BY-NC-ND

  • No entiendo muy bien por qué a la gente no le gusta Pandas
    No es una herramienta perfecta, pero en nuestro codebase tenemos miles de líneas de código en Pandas y casi nunca nos ha provocado bugs de producción
    Operamos de forma estable usando wrappers de esquema estático y type checkers junto con Pandas

    • Me da curiosidad si es un wrapper de esquema hecho por ustedes o si hay algún paquete en PyPI que valga la pena recomendar
  • Era un gran escritor y extraño su blog
    En especial me impresionó su texto sobre tablas dinámicas, y parece que ese contenido ahora está incluido en el libro

    • También es el creador de la librería de visualización para Python Altair (basada en Vega-Lite)
      Se puede ver en el sitio oficial de Altair
  • Este libro fue escrito hace 8 años, pero sí existe una 2.ª edición del mismo autor

    • Hay una versión en notebooks de la 2.ª edición en el repositorio de GitHub
      Aparece como “Python Data Science Handbook, 2nd edition, by Jake VanderPlas (O’Reilly). Copyright 2023…”
      Se puede comparar con la edición de 2016 del enlace original
  • Fue uno de los pocos libros que sí leí completo de principio a fin mientras aprendía data science en 2020~2021
    Incluso ahora sigue siendo recomendable