6 puntos por GN⁺ 2025-06-16 | 1 comentarios | Compartir por WhatsApp
  • Un libro para principiantes e intermedios que aborda los fundamentos de la visión por computadora desde la perspectiva del procesamiento de imágenes y el aprendizaje automático
  • Cada capítulo está organizado de forma breve y clara para enfocarse en los conceptos clave
  • Explica los cambios posteriores a la revolución del deep learning y el proceso de reconfiguración de las ideas clásicas junto con la experiencia de escribir el libro
  • A lo largo de 15 partes, cubre temas generales de visión por computadora como procesamiento de imágenes, redes neuronales, modelos generativos, procesamiento de secuencias y comprensión de escenas
  • Su estructura se centra en la teoría esencial y la construcción de intuición, más que en tendencias de investigación recientes o aplicaciones específicas

Prólogo

  • Dedicado a todos los píxeles

Acerca de este libro

  • Este libro aborda los temas centrales de la visión por computadora desde la perspectiva del procesamiento de imágenes y el aprendizaje automático
  • Incluye diversos recursos de visualización para desarrollar la intuición del lector
  • Su público principal son estudiantes de licenciatura y posgrado que se inician en visión por computadora, aunque también resulta útil para profesionales con experiencia
  • Originalmente buscaba abarcar una gran cantidad de contenido, pero debido a la amplitud del campo de la visión por computadora, cada capítulo se limitó a 5 páginas o menos para enfocarse en los conceptos clave
  • Comparte con honestidad la experiencia de haber querido escribir un libro corto, pero haber terminado con una obra mucho más extensa

El proceso de escritura del libro

  • Muestra con datos la no linealidad entre la intención inicial y el proceso real de escritura, que tomó más de 10 años hasta completarse
  • Durante la escritura ocurrió la revolución del deep learning (2012), lo que dio paso a un proceso de fusión entre métodos tradicionales y enfoques modernos
  • Debido a la popularidad inicial del deep learning, algunas ideas previas quedaron temporalmente olvidadas, pero con el tiempo los conceptos esenciales volvieron a valorarse
  • Menciona que el recorrido de escritura fue difícil, pero que aprendió mucho al realizar personalmente diversos ejemplos y experimentos
  • Muestra de forma visual cómo cambiaron los principales acontecimientos en visión por computadora e IA junto con el momento de escritura del libro

Estructura del libro

  • El campo de la visión por computadora ha experimentado avances rápidos durante los últimos más de 10 años, y aunque los métodos actuales parecen totalmente distintos a los del pasado, se enfatiza la continuidad histórica
  • A lo largo del libro se repiten la importancia de un tema y una perspectiva unificados, así como de múltiples puntos de vista
  • El libro está compuesto por 15 partes, y cada una se enfoca en un tema coherente de la visión por computadora

Introducción a cada parte

  • Part I: motivación de los problemas de visión por computadora, contexto social e introducción a las bases matemáticas
  • Part II: proceso de generación de imágenes
  • Part III: explicación de conceptos básicos de aprendizaje automático mediante ejemplos de imágenes
  • Part IV: introducción al procesamiento de señales e imágenes
  • Part V: filtros lineales útiles (kernel gaussiano, filtro binario, derivadas de imagen, laplaciano, filtros temporales) y sus aplicaciones
  • Part VI: representación de imágenes multiescala
  • Part VII: redes neuronales para visión por computadora (redes neuronales convolucionales, redes neuronales recurrentes, transformers)
  • Part VIII: modelos estadísticos de imágenes y modelos de grafos
  • Part IX: enfoque moderno centrado en modelos generativos y aprendizaje de representaciones (como embeddings vectoriales)
  • Part X: retos que surgen al construir sistemas de visión basados en aprendizaje
  • Part XI: herramientas geométricas para la reconstrucción de estructura 3D
  • Part XII: procesamiento de secuencias y medición de movimiento
  • Part XIII: comprensión de escenas y detección de objetos
  • Part XIV: consejos para investigadores junior sobre presentaciones, redacción de artículos y mentalidad efectiva para investigar
  • Part XV: intento de resolver los problemas planteados en Part I mediante las diversas metodologías tratadas en el libro

Contenido que no se cubre

  • No aborda las tendencias más recientes en visión por computadora ni diversas áreas de aplicación práctica (análisis de formas, seguimiento de objetos, análisis de acciones, reconocimiento facial, etc.)
  • Para esas aplicaciones más específicas, es más efectivo consultar artículos de conferencias o libros especializados

Agradecimientos

  • Expresa agradecimiento a profesores, estudiantes y colegas que influyeron en distintas actividades de enseñanza e investigación en visión por computadora
  • Menciona agradecimientos concretos por colaboraciones diversas, como materiales de clase de varias conferencias, experimentos, apoyo por capítulos y diseño de portada
  • Cada autor también agradece a su familia y personas cercanas por el apoyo constante

Información de cita

  • Proporciona un formato BibTeX que puede usarse para citar el libro

Recursos para docentes

  • La edición impresa del libro puede comprarse en MIT Press
  • También ofrece en línea diapositivas de clase relacionadas con el libro

Referencias

  • Proporciona una lista de obras clásicas y recientes relevantes sobre visión por computadora, aprendizaje automático, procesamiento de señales, geometría y ciencia de la visión

1 comentarios

 
GN⁺ 2025-06-16
Comentarios de Hacker News
  • Hay una parte interesante en el libro "On Research, Writing and Speaking". "Esto se ve difícil." Sí, lo es. Ya no basta con ser inteligente para destacar. Comparto la idea de que en el posgrado avanza más quien se esfuerza de verdad.

    • Es una reflexión realmente perspicaz. En algún punto, todos se dan cuenta de que el conocimiento por sí solo no basta. Mucha gente siente ese muro al entrar a la universidad. Pero en la universidad el alcance del estudio está definido, así que de algún modo puedes sostenerte solo con capacidad. En cambio, en un doctorado no hay límite para cuánto puedes aprender. No hay una cantidad de lectura fijada ni existe eso de “fuera del temario”. Hay que estudiar, experimentar, leer papers y hacer tanto como uno sea capaz, sin límite. No se trata solo de ser listo; también hace falta entender habilidades blandas, redes de contacto y el contexto de la comunidad. Hay que reunirse, comer y hacer networking con la gente de la comunidad, y mantenerse en contacto. También necesitas motivarte por tu cuenta y gestionar plazos y rutinas. A diferencia de la motivación que te dan las clases y exámenes formales, aquí solo funciona si tú mismo te administras. Los criterios son ambiguos y las expectativas, infinitas. Además, a diferencia de antes, puedes vivir experiencias de rechazo. El doctorado es una etapa dura que obliga a cualquiera a enfrentar sus límites. Si el objetivo fuera simplemente graduarse, quizá podría pasarse por encima de muchas cosas, pero normalmente quienes aspiran a una carrera académica terminan teniendo metas mucho más grandes.
  • Piden la opinión de alguien del sector sobre si, con los cambios tecnológicos de los últimos dos años, el contenido tradicional de machine learning, especialmente en visión por computadora, sigue siendo válido.

    • Sigue siendo muy válido. Incluso las técnicas más recientes, en el fondo, son avances construidos sobre las mismas bases. De hecho, conviene leer más sobre conceptos fundamentales y algoritmos tradicionales. Hay que conocer bien técnicas clásicas como Hough transform, canny edge, sift y Harris corner para poder llamarse realmente experto. Ahí es donde se nota la diferencia frente a desarrolladores que solo memorizan palabras clave de tecnologías de moda y conectan APIs sin más.

    • Incluso hoy, en sistemas donde la aceleración por GPU es difícil, las técnicas “clásicas” de visión por computadora siguen siendo indispensables. Yo trabajo resolviendo problemas de Simultaneous localization and mapping en entornos con recursos limitados. Pienso leer sin falta el capítulo de Structure from Motion.

  • En la parte de "Writing this book" alguien comenta que podría parecer que un LLM escribió dos tercios del manuscrito. Opina que quizá en realidad quiere decir que, como ahora hay mucho más que escribir por culpa de los LLM, el contenido del libro creció, así que sería mejor aclararlo.

    • Yo no lo interpreté así. Más bien parece que menos de un tercio del libro fue escrito después de la llegada de ChatGPT. Se siente más como una gráfica con los principales eventos del campo de ML/AI marcados sobre ella.
  • Recomiendan el siguiente libro como otra buena opción en visión por computadora:

    Computer Vision, Fifth Edition
    E.R. Davies
    Academic Press
    ISBN-13 978-0128092842
    
    • Como otro texto de referencia importante, también recomiendan "Computer Vision 2nd Ed" (2022) de Szeliski https://szeliski.org/Book/. El libro de Forsyth & Ponce también es bueno, aunque ya tiene sus años. Si te interesa 3D, Multiple View Geometry de Hartley & Zisserman sigue siendo un clásico.
  • Elogian muchísimo que este libro esté disponible gratis; dicen que cuesta creerlo.

    • Totalmente cierto. Me pregunto si alguien encontró una forma de descargarlo en PDF. Para estudiar, personalmente siento que es indispensable poder dejar notas o materiales de referencia.

    • La comunidad de machine learning, visión por computadora y robótica tiene una cultura impresionante de publicar libros de texto gratis en línea. Incluso materiales de primer nivel en estas áreas se pueden conseguir gratuitamente en internet. En otros campos, profesores de EE. UU. te exigen comprar la edición más reciente y eso implica costos altos, pero aquí se abre el acceso a los mejores recursos para países en desarrollo y, en realidad, para cualquiera en el mundo. También suelen publicar mucho material de clase y videos.

  • Piden recomendaciones de buenos libros sobre machine vision. Consideran que la clave de una machine vision efectiva, e incluso de la visión por computadora en general, está en la elección de la cámara, la óptica y la iluminación. Si la calidad de la imagen de entrada no es buena, creen que la salida inevitablemente también será mala.

    • Me gustaría saber si alguien puede compartir casos o ejemplos de uso donde esos factores realmente hayan marcado una diferencia.