Fundamentos de la visión por computadora (2024)

(visionbook.mit.edu)

6 puntos por GN⁺ 2025-06-16 | 1 comentarios | Compartir por WhatsApp

Foundations of Computer Vision es un libro introductorio de visión por computadora que aborda conjuntamente el procesamiento de imágenes y el aprendizaje automático, dirigido no solo a estudiantes de licenciatura y posgrado que se inician, sino también a profesionales con experiencia
Tras proponerse por primera vez a MIT Press en noviembre de 2010, su redacción continuó durante más de 10 años, y el objetivo de crear capítulos breves y esenciales siguió expandiéndose en medio de los cambios del campo
La revolución del deep learning de 2012 proporcionó herramientas para conectar ideas antiguas con implementaciones reales, y conceptos iniciales que habían quedado relegados volvieron a cobrar importancia con el tiempo
El libro se compone de 15 Partes que cubren formación de imágenes, aprendizaje, procesamiento de señales e imágenes, filtros, representaciones multiescala, redes neuronales, modelos generativos, geometría 3D, movimiento, comprensión de escenas y consejos para investigadores
Más que abarcar todos los avances más recientes en visión por computadora o profundizar en análisis de forma, seguimiento de objetos, estimación de pose humana o reconocimiento facial, se centra en los conceptos fundamentales necesarios para comprender diversas aplicaciones

Para qué lectores es este libro

Foundations of Computer Vision trata temas fundamentales de visión por computadora desde las perspectivas del procesamiento de imágenes y el aprendizaje automático
Su público principal son estudiantes de licenciatura y posgrado que se incorporan a la visión por computadora, aunque también busca ser útil para profesionales con experiencia
Incluye muchas visualizaciones para construir intuición sobre los conceptos
Al principio se pensó como un libro grande que cubriera ampliamente el campo, pero como el alcance de la visión por computadora es demasiado amplio, se reorientó hacia un libro más pequeño
- Se intentó limitar cada capítulo a 5 páginas o menos
- Esta restricción llevó a centrarse en los conceptos importantes necesarios para entender cada tema
- Al final, tampoco se logró el objetivo de escribir un libro corto

Un proceso de escritura de más de 10 años

La idea del libro se propuso por primera vez a MIT Press el 24 de noviembre de 2010
La escritura no avanzó de forma lineal, y el tamaño del manuscrito no solo creció, sino que en algún momento disminuyó antes de volver a aumentar
El trabajo completo tomó más de 10 años
Durante el proceso se crearon y refinaron muchos ejemplos, con el objetivo de que el lector aprenda reproduciéndolos por sí mismo

Ideas antiguas que siguen vivas después del deep learning

La visión por computadora ha cambiado mucho en los últimos 10 años, pero los métodos actuales tienen raíces profundas en la historia pasada de la visión por computadora y la IA
Aunque algunos nombres hayan cambiado y hayan aparecido ideas nuevas, los métodos actuales no están desconectados de los conceptos anteriores
El libro enfatiza los temas unificadores que hay detrás de varios conceptos
Una de las metáforas centrales es la de múltiples vistas (views)
- Observar una escena física real desde distintos ángulos, sensores o momentos en el tiempo
- Reunir varias vistas para comprender la realidad subyacente
- El libro también adopta una estructura que combina múltiples perspectivas para encontrar los fundamentos de la visión por computadora
La revolución del deep learning de 2012 reforzó aún más las bases de la visión por computadora y proporcionó herramientas para convertir muchas ideas propuestas en los inicios del campo en implementaciones funcionales
Después del deep learning, algunas ideas tempranas quedaron olvidadas por un tiempo, pero con el paso de los años muchas han regresado

El alcance del libro a través de sus 15 Partes

La mayoría de los capítulos suponen comprensión de temas tratados antes, por lo que conviene leerlos en orden
Parte I: temas motivacionales que introducen los problemas de visión y los sitúan en un contexto social, sistemas de visión simples y herramientas matemáticas básicas
Parte II: el proceso de formación de imágenes
Parte III: fundamentos del aprendizaje usando ejemplos de visión y conceptos de aplicación amplia
Parte IV: introducción al procesamiento de señales e imágenes que sirve de base para la visión por computadora
Parte V: filtros lineales y sus aplicaciones, como Gaussian kernels, binomial filters, image derivatives, Laplacian filter y temporal filters
Parte VI: representaciones de imágenes multiescala
Parte VII: redes neuronales para visión
- convolutional neural networks
- recurrent neural networks
- transformers
- se enfoca en los principios principales más que en arquitecturas específicas
Parte VIII: modelos estadísticos de imágenes y modelos gráficos
Parte IX: dos enfoques de modelado poderosos en la era de las redes neuronales
- el modelado generativo aborda modelos estadísticos de imágenes para la formación de imágenes naturales y la creación de imágenes sintéticas que sigan reglas geométricas apropiadas
- el aprendizaje de representaciones busca abstracciones útiles de las imágenes, como embeddings vectoriales
Parte X: desafíos que surgen al construir sistemas de visión basados en aprendizaje
Parte XI: herramientas geométricas y usos para reconstruir la estructura del mundo 3D a partir de imágenes 2D
Parte XII: procesamiento de secuencias y medición del movimiento
Parte XIII: comprensión de escenas y detección de objetos
Parte XIV: consejos para investigadores jóvenes sobre presentaciones, redacción de artículos y actitud eficaz para investigar
Parte XV: regreso al sistema visual simple presentado en la Parte I para aplicar las técnicas del libro a problemas de juguete

Lo que deliberadamente no cubre en profundidad

No ofrece una revisión de los avances más recientes de la visión por computadora actual
No profundiza en muchas aplicaciones como análisis de forma, seguimiento de objetos, estimación de pose humana o reconocimiento facial
Para estos temas de aplicación, es más adecuado estudiar artículos recientes de conferencias de visión por computadora y monografías especializadas
El enfoque del libro no está en los resultados más recientes de las aplicaciones en general, sino en los conceptos fundamentales

Libros relacionados mencionados junto con este

Como libros generales de visión por computadora, se mencionan los siguientes
- Computer Vision: A Modern Approach
- Computer Vision: Algorithms and Applications de Rick Szeliski
Las bases físicas están bien cubiertas en Robot Vision de Horn
Vision de David Marr se evalúa como un libro que llevó al autor a iniciarse en visión por computadora, destacado por su intuición y su escritura
La geometría de visión con múltiples cámaras se trata en detalle en Multiple View Geometry in Computer Vision de Hartley y Zisserman
En relación con la geometría 3D, se mencionan Solid Shape de Koenderink, Three-Dimensional Computer Vision de Faugeras y Introductory Techniques for 3D Computer Vision de Trucco y Verri
Como textos sobre aprendizaje, se mencionan libros de Mackay, Bishop, Murphy y Goodfellow·Bengio·Courville
Los modelos probabilísticos de visión están bien cubiertos en el libro de Prince
Para la percepción visual humana, se destaca Vision Science: Photons to Phenomenology de Steve Palmer
Para visión de bajo nivel, se menciona Signal Processing for Computer Vision de Granlund y Knutsson, y para visión de alto nivel, High-level Vision de Ullman
Como libro sobre luz y visión, se menciona Light and Color in the Outdoors de Minnaert

Información de cita y materiales de clase

La entrada BibTeX para citar el libro incluye la siguiente información
- title: Foundations of Computer Vision
- author: Torralba, A. and Isola, P. and Freeman, W.T.
- isbn: 9780262378666
- lccn: 2023024589
- series: Adaptive Computation and Machine Learning series
- year: 2024
- publisher: MIT Press
La edición impresa puede comprarse en MIT Press
Las diapositivas para docentes pueden descargarse desde Dropbox

1 comentarios

GN⁺ 2025-06-16

Opiniones en Hacker News

Hay un pasaje interesante en On Research, Writing and Speaking: “Suena como trabajo duro”. Exacto. A estas alturas ya no se trata de ser inteligente. Llegado este punto, todos a tu alrededor también son inteligentes. En el posgrado, la gente que trabaja duro es la que se adelanta
- Sin duda es una observación perspicaz. Todo el mundo llega a una etapa en la que sobrevivir solo con inteligencia ya no alcanza
  Muchas personas se dan cuenta de esto al entrar a la universidad, pero en pregrado lo que hay que aprender está claro y tiene un límite, así que uno puede aguantar hasta cierto punto. En cambio, en un doctorado casi no hay techo, no hay un número fijo de papers que leer cada semana, ni existe eso de “esto no entra en el examen”. No es que el rendimiento de ser más inteligente se aplane; simplemente no hay techo. Puedes leer más, seguir el aluvión de literatura y mejorar continuamente los experimentos y los métodos
  También hacen falta habilidades blandas y red de contactos. Hay que ir a conferencias para entender hacia dónde se mueve la comunidad, conocer gente y tomar café o cenar con ella. En lugar de esperar instrucciones como en pregrado, debes moverte por tu cuenta, ser lo bastante escéptico y crítico con los métodos existentes, y a la vez proponer ideas nuevas que sean relevantes e interesantes para que la comunidad las entienda y acepte
  Sin la sincronización externa que dan las clases y los exámenes, tienes que gestionar tu propio tiempo y establecer plazos y rutinas. En la práctica, estas cosas no tienen techo y las expectativas son ambiguas. Incluso si hiciste un trabajo suficientemente exhaustivo, puedes enfrentarte por primera vez a un rechazo porque un revisor no lo considera novedoso o porque no encaja bien con la moda del momento
  Al final, un doctorado puede empujar a cualquiera hasta sus límites mentales. Es frustrante y, para muchos doctorandos, una etapa notoriamente dura. Claro que si el único objetivo es obtener el título, también es posible una estrategia de “aguantar”, pero quienes apuntan a una carrera académica normalmente esperan más que el mínimo, y más aún quienes en pregrado lograban salir adelante con buenas calificaciones
- En tercer año de pregrado sentía que, aunque me esforzara, no podía seguir el ritmo de las clases. Era un programa de ingeniería al que se entraba con un promedio de notas de secundaria de alrededor del 90%, y era tan difícil que para segundo año el 75% de los estudiantes había abandonado
- Me habría gustado que alguien me hubiera contado esto en el posgrado. Me tomó demasiado tiempo aprender cómo ser un estudiante de posgrado exitoso y, sinceramente, recién lo entendí bien después de terminar la escuela
Otro buen libro en esta área es: Computer Vision, Fifth Edition, E.R. Davies, Academic Press, ISBN-13 978-0128092842
- Otro libro de referencia es Computer Vision 2nd Ed de Szeliski, edición 2022: https://szeliski.org/Book/
  Forsyth & Ponce también es bueno, pero ya quedó algo antiguo. Para 3D, el clásico sigue siendo Multiple View Geometry de Hartley & Zisserman
Me sorprende que este libro esté disponible gratis. Agradezco a quien lo haya abierto, ya sea el autor o la editorial
- En las comunidades de aprendizaje automático, visión por computadora y robótica hay una cultura realmente buena de publicar libros gratis en línea. Se pueden consultar gratuitamente algunos de los mejores textos de estas áreas
  Contrasta bastante con otras disciplinas en Estados Unidos, donde los profesores prácticamente exigen comprar la edición más reciente de un libro de texto por cientos de dólares. Gracias a esto, personas de países con menos recursos económicos también pueden acceder a los mejores materiales desde cualquier lugar del mundo. También es común que se compartan en línea materiales de clase y videos
- Totalmente, y me sumo al agradecimiento. Eso sí, me pregunto si alguien encontró una forma de descargarlo en PDF. Creo que al leer material de estudio uno debería poder tomar notas y marcar referencias
La sección “Writing this book” puede leerse accidentalmente como si se hubiera usado un LLM en 2/3 del manuscrito
Probablemente quiera decir que el LLM aportó mucho más material sobre el cual escribir, pero sería bueno aclararlo
- No lo leo así. En realidad, ChatGPT fue la primera herramienta que pudo ayudar con la escritura, y menos de 1/3 de este libro se escribió después de que ChatGPT se hiciera público
  A simple vista parece que el gráfico marca eventos importantes en el campo del aprendizaje automático/inteligencia artificial
Como alguien que trabaja en esta área, me pregunto qué tan vigente sigue siendo este contenido. Desde afuera, parece que buena parte del aprendizaje automático, incluida la visión por computadora, quedó completamente sacudida por los avances de los últimos dos años
- Sigue siendo muy vigente. Entre las técnicas recientes no hay nada verdaderamente revolucionario; todas se apoyan en los mismos fundamentos. De hecho, creo que también conviene leer libros más antiguos
  Hay muchas aplicaciones reales y rentables de visión por computadora construidas con métodos clásicos como transformada de Hough, bordes de Canny, SIFT y esquinas de Harris. Hay que conocerlos para parecer un profesional serio, y no alguien que solo suelta palabras de moda y conecta APIs sin entender lo básico
- Sigue siendo muy relevante. Fuera del ámbito académico, la mayor parte de la visión por computadora que se usa todavía se basa en contenidos antiguos o en algoritmos clásicos de visión por computadora
  No hay tantas oportunidades de usar los modelos y técnicas más recientes como uno pensaría. Por lo general no son tan relevantes, solo encajan en casos extremadamente específicos o simplemente no se necesita ese nivel de complejidad
- En especial en sistemas donde no es fácil usar aceleración por GPU, todavía hay muchos problemas que deben resolverse con visión por computadora “clásica”. Como trabajo en SLAM, localización y mapeo simultáneos, en plataformas con recursos de cómputo limitados, definitivamente voy a leer el capítulo de Structure from Motion
Me pregunto si existe algún curso de visión por computadora basado en este libro. Me gustaría saber si hay materiales como videos
Me gustaría recibir recomendaciones de buenos libros sobre visión de máquina. Creo que la base de una visión de máquina efectiva, e incluso de la visión por computadora, está en elegir la cámara, la óptica y la iluminación correctas. Si la entrada es mala, la salida también lo será, así que las imágenes de alta calidad son esenciales
- Me pregunto si podrías dar uno o dos casos de uso en los que estos factores realmente hayan marcado una gran diferencia

Fundamentos de la visión por computadora (2024)

Para qué lectores es este libro

Un proceso de escritura de más de 10 años

Ideas antiguas que siguen vivas después del deep learning

El alcance del libro a través de sus 15 Partes

Lo que deliberadamente no cubre en profundidad

Libros relacionados mencionados junto con este

Información de cita y materiales de clase

Lecturas relacionadas

1 comentarios

Opiniones en Hacker News