- La cóclea (cochlea) procesa el sonido al recibir vibraciones generadas por cambios en la presión del aire mediante una estructura física que separa las frecuencias
- Cada posición de la membrana basilar (basilar membrane) resuena con una frecuencia específica: las frecuencias altas responden en la base rígida y las bajas en el extremo flexible
- En este proceso, las células ciliadas (hair cell) abren y cierran canales iónicos según la vibración para convertirla en señales eléctricas, y las fibras nerviosas filtran la información temporal y frecuencial
- Sin embargo, estos filtros mantienen la resolución temporal, a diferencia de una transformada de Fourier, y en la práctica funcionan con una forma intermedia entre wavelet y Gabor
- Esta estructura es una estrategia de codificación eficiente (efficient coding) que reduce la información redundante de los sonidos naturales, y el lenguaje humano ocupa un espacio tiempo-frecuencia distintivo
Estructura de separación de frecuencias de la cóclea
- La membrana timpánica (tympanic membrane) vibra según los cambios en la presión del aire, y los huesecillos del oído medio amplifican esa vibración y la transmiten al líquido de la cóclea
- La vibración se desplaza a lo largo de la membrana basilar (basilar membrane), resonando con frecuencias específicas según las propiedades físicas de cada posición
- La base es rígida y ligera, por lo que responde a frecuencias altas, mientras que el extremo es flexible y pesado, por lo que responde a frecuencias bajas
- La frecuencia de resonancia de la membrana basilar disminuye de forma logarítmica (logarithmic) en el espacio
- Esto coincide con la característica de que la percepción humana del pitch cambia de manera logarítmica
Transducción mecanoeléctrica de las células ciliadas
- Las células ciliadas (hair cell) sobre la membrana basilar vibran según la frecuencia correspondiente a esa posición, y ese movimiento induce la apertura y cierre de canales iónicos
- La estructura en forma de resorte en el extremo de las células ciliadas actúa como una “trapdoor”, liberando neurotransmisores de acuerdo con la frecuencia de la vibración
- Mediante este proceso, la vibración mecánica se transforma en una señal eléctrica que se transmite al nervio auditivo
Filtros auditivos y resolución tiempo-frecuencia
- Las fibras del nervio auditivo actúan como filtros que extraen información temporal y frecuencial
- Los filtros concentrados en intervalos cortos tienen alta resolución temporal, pero una distribución de frecuencias no uniforme
- Los filtros extendidos en el tiempo tienen alta resolución frecuencial, pero difuminan la información temporal
- La transformada de Fourier (Fourier transform) no conserva información temporal y, como en la figura de la derecha, tiene una distribución uniforme de frecuencias, pero esto difiere de los filtros reales del oído
- Los filtros de la cóclea tienen una forma intermedia entre wavelets y filtros de Gabor, y
- en la región de altas frecuencias aumentan la resolución temporal
- en la región de bajas frecuencias aumentan la resolución frecuencial, con una estructura de compensación mutua
Codificación eficiente y análisis de sonidos naturales
- El estudio de Lewicki (2002) plantea que esta estructura de filtros es una estrategia para reducir la redundancia de los sonidos naturales
- Mediante ICA (Independent Component Analysis) para maximizar la independencia, compara sonidos ambientales, vocalizaciones animales y voz humana
- Los sonidos ambientales y la voz humana producen resultados cercanos a filtros tipo wavelet, mientras que las vocalizaciones animales se acercan a filtros tipo Fourier
- El lenguaje humano ocupa un espacio tiempo-frecuencia propio, y
- algunos investigadores mencionan la posibilidad de que el lenguaje haya evolucionado para llenar regiones no ocupadas por los sonidos naturales preexistentes
Codificación ecológica y procesamiento sensorial
- Los sistemas sensoriales forman métodos de codificación adecuados al entorno, y la audición se presenta como un ejemplo de ello
- Esta representación ecológicamente relevante (ecologically-relevant representation) se basa en la interacción entre conducta y entorno
- Al final del texto se indica que en la siguiente clase el enfoque se desplazará hacia los cálculos biofísicos a nivel neuronal
- En conjunto, el oído funciona como un sistema de filtrado eficiente y adaptativo, no como una transformada de Fourier
1 comentarios
Comentarios en Hacker News
En resumen, el oído no realiza una transformada de Fourier (Fourier Transform), sino una transformación de frecuencia localizada en el tiempo que cae en algún punto entre wavelets y la transformada de Gabor
Esto se debe a que los sonidos están localizados en el tiempo
También se presenta la teoría de que el lenguaje humano evolucionó para ocupar una región antes vacía en el espacio de duración de envolvente–frecuencia
Es posible que la cóclea humana esté optimizada para la voz humana
Nadie que sepa de procesamiento de señales diría que el oído hace una transformada de Fourier sobre un tiempo infinito
En la práctica, el oído hace algo parecido a una FFT (Fast Fourier Transform), es decir, calcula la intensidad por frecuencia
Las transformadas wavelet o de Gabor son matemáticamente distintas, pero al final producen un resultado 95–99% igual
Así que, para explicarlo de forma simple, se puede decir que el oído realiza una transformada discreta de Fourier con ventana
Esto puede explicarse con el principio de incertidumbre tiempo-frecuencia
Es más fácil entender el banco de filtros del oído como un conjunto arbitrario de filtros basado en resultados fisiológicos
El tamaño del animal también influye: cuanto más pequeño es, más capaz es de emitir y oír sonidos en el rango ultrasónico
Por ejemplo, una alerta como “viene un tigre” y un “sonido para calmar a un bebé” estarían en regiones distintas
El título es algo clickbait, y el contenido, en sentido estricto, también es incorrecto
Las transformadas de Gabor o wavelet son generalizaciones de la transformada de Fourier y ofrecen análisis espectral a lo largo del tiempo
El oído de hecho hace algo muy Fourier-ish
La transformada de Fourier es infinita y continua, mientras que la DFT es finita y discreta
La audición humana podría verse como algo más cercano a una serie de Fourier (Fourier Series)
Las wavelets son otro enfoque, que usa formas de onda deformadas en vez de senoidales
Al final, en términos cotidianos, el oído sí hace un procesamiento “tipo Fourier”
El resumen del paper dice explícitamente que “si se optimiza para vocalizaciones animales, se parece a una transformada de Fourier; si se optimiza para sonidos ambientales no biológicos, se parece a una transformada wavelet”
Si quieres profundizar más, vale la pena revisar el modelo CARFAC de Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression)
Se le considera una de las investigaciones más precisas para modelar digitalmente la audición humana
El PDF de su libro puede verse aquí
La idea de que la voz humana ocupa regiones menos congestionadas del espectro va en la misma línea que el libro 『The Great Animal Orchestra』
Enlace al libro
Trata de cómo distintas especies evolucionaron para ocupar cada una su propio nicho acústico
Pero es algo triste que la destrucción del hábitat esté debilitando ese fenómeno
En la ciudad, cantan temprano antes de que aparezca el ruido del tráfico; en el bosque, más tarde, cuando baja el ruido de los insectos
En vez de diversidad espacial, también podría evolucionar una diversidad temporal
Hay cierta confusión terminológica, pero la transformada de Fourier supone un intervalo de tiempo infinito
En un intervalo finito, la serie de Fourier es una expresión más precisa
El funcionamiento real del oído aplica una función de ponderación temporal, así que queda en algún punto intermedio entre serie y transformada de Fourier
El texto acierta al señalar eso
También es posible que la voz humana y la estructura auditiva hayan coevolucionado
El oído no realiza una transformada de Fourier sobre tiempo infinito
En cambio, hace una transformación discreta con ventana, análoga al principio de incertidumbre entre tiempo y frecuencia
Una ventana larga mejora la resolución en frecuencia y empeora la temporal, y una corta hace lo contrario
La cóclea humana funciona de modo que en bajas frecuencias mejora la resolución en frecuencia para distinguir formantes (formants), y en altas frecuencias mejora la resolución temporal para detectar oclusivas (plosives)
La membrana basilar es una estructura biológica asombrosa
En procesamiento de audio por computadora, la FFT es útil, pero tiene limitaciones para modelar la audición humana basada en la percepción temporal
Es interesante el video que muestra los tip links de las células ciliadas y los canales iónicos
Video relacionado
Si esa estructura se daña, puede producirse tinnitus
Además, el oído tiene una función de amplificación activa, y hasta es posible hacer vibrar células mediante señales eléctricas
El video de arriba termina con un tono muy agudo, así que conviene tener cuidado si estás usando audífonos
Dado que la corteza de asociación auditiva del lóbulo parietal distingue frecuencias, entre el oído y el cerebro existe una transformación tiempo-frecuencia
Como la activación de las neuronas es discreta, se trata de una transformación discreta que ocurre dentro de un tiempo finito
Una forma simple de extender una señal finita a una infinita es suponer que se repite infinitamente hacia el pasado y el futuro