El oído no realiza una transformada de Fourier (2024)

(dissonances.blog)

4 puntos por GN⁺ 2025-10-31 | 1 comentarios | Compartir por WhatsApp

La cóclea (cochlea) procesa el sonido al recibir vibraciones generadas por cambios en la presión del aire mediante una estructura física que separa las frecuencias
Cada posición de la membrana basilar (basilar membrane) resuena con una frecuencia específica: las frecuencias altas responden en la base rígida y las bajas en el extremo flexible
En este proceso, las células ciliadas (hair cell) abren y cierran canales iónicos según la vibración para convertirla en señales eléctricas, y las fibras nerviosas filtran la información temporal y frecuencial
Sin embargo, estos filtros mantienen la resolución temporal, a diferencia de una transformada de Fourier, y en la práctica funcionan con una forma intermedia entre wavelet y Gabor
Esta estructura es una estrategia de codificación eficiente (efficient coding) que reduce la información redundante de los sonidos naturales, y el lenguaje humano ocupa un espacio tiempo-frecuencia distintivo

Estructura de separación de frecuencias de la cóclea

La membrana timpánica (tympanic membrane) vibra según los cambios en la presión del aire, y los huesecillos del oído medio amplifican esa vibración y la transmiten al líquido de la cóclea
- La vibración se desplaza a lo largo de la membrana basilar (basilar membrane), resonando con frecuencias específicas según las propiedades físicas de cada posición
- La base es rígida y ligera, por lo que responde a frecuencias altas, mientras que el extremo es flexible y pesado, por lo que responde a frecuencias bajas
La frecuencia de resonancia de la membrana basilar disminuye de forma logarítmica (logarithmic) en el espacio
- Esto coincide con la característica de que la percepción humana del pitch cambia de manera logarítmica

Transducción mecanoeléctrica de las células ciliadas

Las células ciliadas (hair cell) sobre la membrana basilar vibran según la frecuencia correspondiente a esa posición, y ese movimiento induce la apertura y cierre de canales iónicos
- La estructura en forma de resorte en el extremo de las células ciliadas actúa como una “trapdoor”, liberando neurotransmisores de acuerdo con la frecuencia de la vibración
Mediante este proceso, la vibración mecánica se transforma en una señal eléctrica que se transmite al nervio auditivo

Filtros auditivos y resolución tiempo-frecuencia

Las fibras del nervio auditivo actúan como filtros que extraen información temporal y frecuencial
- Los filtros concentrados en intervalos cortos tienen alta resolución temporal, pero una distribución de frecuencias no uniforme
- Los filtros extendidos en el tiempo tienen alta resolución frecuencial, pero difuminan la información temporal
La transformada de Fourier (Fourier transform) no conserva información temporal y, como en la figura de la derecha, tiene una distribución uniforme de frecuencias, pero esto difiere de los filtros reales del oído
Los filtros de la cóclea tienen una forma intermedia entre wavelets y filtros de Gabor, y
- en la región de altas frecuencias aumentan la resolución temporal
- en la región de bajas frecuencias aumentan la resolución frecuencial, con una estructura de compensación mutua

Codificación eficiente y análisis de sonidos naturales

El estudio de Lewicki (2002) plantea que esta estructura de filtros es una estrategia para reducir la redundancia de los sonidos naturales
- Mediante ICA (Independent Component Analysis) para maximizar la independencia, compara sonidos ambientales, vocalizaciones animales y voz humana
- Los sonidos ambientales y la voz humana producen resultados cercanos a filtros tipo wavelet, mientras que las vocalizaciones animales se acercan a filtros tipo Fourier
El lenguaje humano ocupa un espacio tiempo-frecuencia propio, y
- algunos investigadores mencionan la posibilidad de que el lenguaje haya evolucionado para llenar regiones no ocupadas por los sonidos naturales preexistentes

Codificación ecológica y procesamiento sensorial

Los sistemas sensoriales forman métodos de codificación adecuados al entorno, y la audición se presenta como un ejemplo de ello
- Esta representación ecológicamente relevante (ecologically-relevant representation) se basa en la interacción entre conducta y entorno
Al final del texto se indica que en la siguiente clase el enfoque se desplazará hacia los cálculos biofísicos a nivel neuronal
En conjunto, el oído funciona como un sistema de filtrado eficiente y adaptativo, no como una transformada de Fourier

1 comentarios

GN⁺ 2025-10-31

Comentarios en Hacker News

En resumen, el oído no realiza una transformada de Fourier (Fourier Transform), sino una transformación de frecuencia localizada en el tiempo que cae en algún punto entre wavelets y la transformada de Gabor
Esto se debe a que los sonidos están localizados en el tiempo
También se presenta la teoría de que el lenguaje humano evolucionó para ocupar una región antes vacía en el espacio de duración de envolvente–frecuencia
Es posible que la cóclea humana esté optimizada para la voz humana
- Este artículo se siente como si armara un hombre de paja muy grande
  Nadie que sepa de procesamiento de señales diría que el oído hace una transformada de Fourier sobre un tiempo infinito
  En la práctica, el oído hace algo parecido a una FFT (Fast Fourier Transform), es decir, calcula la intensidad por frecuencia
  Las transformadas wavelet o de Gabor son matemáticamente distintas, pero al final producen un resultado 95–99% igual
  Así que, para explicarlo de forma simple, se puede decir que el oído realiza una transformada discreta de Fourier con ventana
- En frecuencias altas se sacrifica resolución en frecuencia para ganar resolución temporal, y en frecuencias bajas ocurre lo contrario
  Esto puede explicarse con el principio de incertidumbre tiempo-frecuencia
  Es más fácil entender el banco de filtros del oído como un conjunto arbitrario de filtros basado en resultados fisiológicos
  El tamaño del animal también influye: cuanto más pequeño es, más capaz es de emitir y oír sonidos en el rango ultrasónico
- Si las características de la cóclea humana están adaptadas a la voz humana, quizá eso podría aprovecharse en la masterización de diálogos para cine o TV para hacer que las voces se entiendan mejor
- Cuesta imaginar que el oído haga una transformada de Fourier real, porque entonces habría que esperar toda la vida. Como oímos en tiempo real, claramente no es así
- Si uno extiende más esta idea, ciertas palabras y fonemas ocuparían regiones específicas dentro del espacio de compromiso frecuencia–tiempo
  Por ejemplo, una alerta como “viene un tigre” y un “sonido para calmar a un bebé” estarían en regiones distintas
El título es algo clickbait, y el contenido, en sentido estricto, también es incorrecto
Las transformadas de Gabor o wavelet son generalizaciones de la transformada de Fourier y ofrecen análisis espectral a lo largo del tiempo
El oído de hecho hace algo muy Fourier-ish
- Estoy de acuerdo con que es clickbait, pero estrictamente hablando no está mal
  La transformada de Fourier es infinita y continua, mientras que la DFT es finita y discreta
  La audición humana podría verse como algo más cercano a una serie de Fourier (Fourier Series)
  Las wavelets son otro enfoque, que usa formas de onda deformadas en vez de senoidales
  Al final, en términos cotidianos, el oído sí hace un procesamiento “tipo Fourier”
- Este texto es una entrada de journal club escrita por un estudiante de posgrado que presenta el paper de Lewicki de 2002
  El resumen del paper dice explícitamente que “si se optimiza para vocalizaciones animales, se parece a una transformada de Fourier; si se optimiza para sonidos ambientales no biológicos, se parece a una transformada wavelet”
Si quieres profundizar más, vale la pena revisar el modelo CARFAC de Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression)
Se le considera una de las investigaciones más precisas para modelar digitalmente la audición humana
El PDF de su libro puede verse aquí
- Excelente recurso. Gracias
La idea de que la voz humana ocupa regiones menos congestionadas del espectro va en la misma línea que el libro 『The Great Animal Orchestra』
Enlace al libro
Trata de cómo distintas especies evolucionaron para ocupar cada una su propio nicho acústico
Pero es algo triste que la destrucción del hábitat esté debilitando ese fenómeno
- Las aves también evolucionaron para elegir los horarios en que mejor se les puede oír
  En la ciudad, cantan temprano antes de que aparezca el ruido del tráfico; en el bosque, más tarde, cuando baja el ruido de los insectos
- Cuando desaparecen los rasgos evolutivos que daban ventaja en la naturaleza, su lugar lo ocupan rasgos adaptados al entorno urbano
  En vez de diversidad espacial, también podría evolucionar una diversidad temporal
Hay cierta confusión terminológica, pero la transformada de Fourier supone un intervalo de tiempo infinito
En un intervalo finito, la serie de Fourier es una expresión más precisa
El funcionamiento real del oído aplica una función de ponderación temporal, así que queda en algún punto intermedio entre serie y transformada de Fourier
El texto acierta al señalar eso
- En última instancia, el oído no realiza una sola transformada de Fourier, sino múltiples transformaciones con un compromiso entre resolución temporal y en frecuencia
  También es posible que la voz humana y la estructura auditiva hayan coevolucionado
- El título es un poco provocador, pero resulta interesante porque aborda bien la implementación fisiológica detallada de la audición humana, por ejemplo el mecanismo de transducción de las células ciliadas de la cóclea
El oído no realiza una transformada de Fourier sobre tiempo infinito
En cambio, hace una transformación discreta con ventana, análoga al principio de incertidumbre entre tiempo y frecuencia
Una ventana larga mejora la resolución en frecuencia y empeora la temporal, y una corta hace lo contrario
La cóclea humana funciona de modo que en bajas frecuencias mejora la resolución en frecuencia para distinguir formantes (formants), y en altas frecuencias mejora la resolución temporal para detectar oclusivas (plosives)
- Creo que no se refería al “principio de exclusión de Pauli”, sino al principio de incertidumbre de Heisenberg
- El oído no toma muestras de datos; funciona como un proceso mecánico continuo
- Pensar en la STFT (transformada de Fourier de corto tiempo) ayuda a entenderlo
La membrana basilar es una estructura biológica asombrosa
En procesamiento de audio por computadora, la FFT es útil, pero tiene limitaciones para modelar la audición humana basada en la percepción temporal
Es interesante el video que muestra los tip links de las células ciliadas y los canales iónicos
Video relacionado
Si esa estructura se daña, puede producirse tinnitus
Además, el oído tiene una función de amplificación activa, y hasta es posible hacer vibrar células mediante señales eléctricas
El video de arriba termina con un tono muy agudo, así que conviene tener cuidado si estás usando audífonos
Dado que la corteza de asociación auditiva del lóbulo parietal distingue frecuencias, entre el oído y el cerebro existe una transformación tiempo-frecuencia
Como la activación de las neuronas es discreta, se trata de una transformación discreta que ocurre dentro de un tiempo finito
Una forma simple de extender una señal finita a una infinita es suponer que se repite infinitamente hacia el pasado y el futuro

El oído no realiza una transformada de Fourier (2024)

Estructura de separación de frecuencias de la cóclea

Transducción mecanoeléctrica de las células ciliadas

Filtros auditivos y resolución tiempo-frecuencia

Codificación eficiente y análisis de sonidos naturales

Codificación ecológica y procesamiento sensorial

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News