4 puntos por GN⁺ 2025-10-31 | 1 comentarios | Compartir por WhatsApp
  • La cóclea (cochlea) procesa el sonido al recibir vibraciones generadas por cambios en la presión del aire mediante una estructura física que separa las frecuencias
  • Cada posición de la membrana basilar (basilar membrane) resuena con una frecuencia específica: las frecuencias altas responden en la base rígida y las bajas en el extremo flexible
  • En este proceso, las células ciliadas (hair cell) abren y cierran canales iónicos según la vibración para convertirla en señales eléctricas, y las fibras nerviosas filtran la información temporal y frecuencial
  • Sin embargo, estos filtros mantienen la resolución temporal, a diferencia de una transformada de Fourier, y en la práctica funcionan con una forma intermedia entre wavelet y Gabor
  • Esta estructura es una estrategia de codificación eficiente (efficient coding) que reduce la información redundante de los sonidos naturales, y el lenguaje humano ocupa un espacio tiempo-frecuencia distintivo

Estructura de separación de frecuencias de la cóclea

  • La membrana timpánica (tympanic membrane) vibra según los cambios en la presión del aire, y los huesecillos del oído medio amplifican esa vibración y la transmiten al líquido de la cóclea
    • La vibración se desplaza a lo largo de la membrana basilar (basilar membrane), resonando con frecuencias específicas según las propiedades físicas de cada posición
    • La base es rígida y ligera, por lo que responde a frecuencias altas, mientras que el extremo es flexible y pesado, por lo que responde a frecuencias bajas
  • La frecuencia de resonancia de la membrana basilar disminuye de forma logarítmica (logarithmic) en el espacio
    • Esto coincide con la característica de que la percepción humana del pitch cambia de manera logarítmica

Transducción mecanoeléctrica de las células ciliadas

  • Las células ciliadas (hair cell) sobre la membrana basilar vibran según la frecuencia correspondiente a esa posición, y ese movimiento induce la apertura y cierre de canales iónicos
    • La estructura en forma de resorte en el extremo de las células ciliadas actúa como una “trapdoor”, liberando neurotransmisores de acuerdo con la frecuencia de la vibración
  • Mediante este proceso, la vibración mecánica se transforma en una señal eléctrica que se transmite al nervio auditivo

Filtros auditivos y resolución tiempo-frecuencia

  • Las fibras del nervio auditivo actúan como filtros que extraen información temporal y frecuencial
    • Los filtros concentrados en intervalos cortos tienen alta resolución temporal, pero una distribución de frecuencias no uniforme
    • Los filtros extendidos en el tiempo tienen alta resolución frecuencial, pero difuminan la información temporal
  • La transformada de Fourier (Fourier transform) no conserva información temporal y, como en la figura de la derecha, tiene una distribución uniforme de frecuencias, pero esto difiere de los filtros reales del oído
  • Los filtros de la cóclea tienen una forma intermedia entre wavelets y filtros de Gabor, y
    • en la región de altas frecuencias aumentan la resolución temporal
    • en la región de bajas frecuencias aumentan la resolución frecuencial, con una estructura de compensación mutua

Codificación eficiente y análisis de sonidos naturales

  • El estudio de Lewicki (2002) plantea que esta estructura de filtros es una estrategia para reducir la redundancia de los sonidos naturales
    • Mediante ICA (Independent Component Analysis) para maximizar la independencia, compara sonidos ambientales, vocalizaciones animales y voz humana
    • Los sonidos ambientales y la voz humana producen resultados cercanos a filtros tipo wavelet, mientras que las vocalizaciones animales se acercan a filtros tipo Fourier
  • El lenguaje humano ocupa un espacio tiempo-frecuencia propio, y
    • algunos investigadores mencionan la posibilidad de que el lenguaje haya evolucionado para llenar regiones no ocupadas por los sonidos naturales preexistentes

Codificación ecológica y procesamiento sensorial

  • Los sistemas sensoriales forman métodos de codificación adecuados al entorno, y la audición se presenta como un ejemplo de ello
    • Esta representación ecológicamente relevante (ecologically-relevant representation) se basa en la interacción entre conducta y entorno
  • Al final del texto se indica que en la siguiente clase el enfoque se desplazará hacia los cálculos biofísicos a nivel neuronal
  • En conjunto, el oído funciona como un sistema de filtrado eficiente y adaptativo, no como una transformada de Fourier

1 comentarios

 
GN⁺ 2025-10-31
Comentarios en Hacker News
  • En resumen, el oído no realiza una transformada de Fourier (Fourier Transform), sino una transformación de frecuencia localizada en el tiempo que cae en algún punto entre wavelets y la transformada de Gabor
    Esto se debe a que los sonidos están localizados en el tiempo
    También se presenta la teoría de que el lenguaje humano evolucionó para ocupar una región antes vacía en el espacio de duración de envolvente–frecuencia
    Es posible que la cóclea humana esté optimizada para la voz humana

    • Este artículo se siente como si armara un hombre de paja muy grande
      Nadie que sepa de procesamiento de señales diría que el oído hace una transformada de Fourier sobre un tiempo infinito
      En la práctica, el oído hace algo parecido a una FFT (Fast Fourier Transform), es decir, calcula la intensidad por frecuencia
      Las transformadas wavelet o de Gabor son matemáticamente distintas, pero al final producen un resultado 95–99% igual
      Así que, para explicarlo de forma simple, se puede decir que el oído realiza una transformada discreta de Fourier con ventana
    • En frecuencias altas se sacrifica resolución en frecuencia para ganar resolución temporal, y en frecuencias bajas ocurre lo contrario
      Esto puede explicarse con el principio de incertidumbre tiempo-frecuencia
      Es más fácil entender el banco de filtros del oído como un conjunto arbitrario de filtros basado en resultados fisiológicos
      El tamaño del animal también influye: cuanto más pequeño es, más capaz es de emitir y oír sonidos en el rango ultrasónico
    • Si las características de la cóclea humana están adaptadas a la voz humana, quizá eso podría aprovecharse en la masterización de diálogos para cine o TV para hacer que las voces se entiendan mejor
    • Cuesta imaginar que el oído haga una transformada de Fourier real, porque entonces habría que esperar toda la vida. Como oímos en tiempo real, claramente no es así
    • Si uno extiende más esta idea, ciertas palabras y fonemas ocuparían regiones específicas dentro del espacio de compromiso frecuencia–tiempo
      Por ejemplo, una alerta como “viene un tigre” y un “sonido para calmar a un bebé” estarían en regiones distintas
  • El título es algo clickbait, y el contenido, en sentido estricto, también es incorrecto
    Las transformadas de Gabor o wavelet son generalizaciones de la transformada de Fourier y ofrecen análisis espectral a lo largo del tiempo
    El oído de hecho hace algo muy Fourier-ish

    • Estoy de acuerdo con que es clickbait, pero estrictamente hablando no está mal
      La transformada de Fourier es infinita y continua, mientras que la DFT es finita y discreta
      La audición humana podría verse como algo más cercano a una serie de Fourier (Fourier Series)
      Las wavelets son otro enfoque, que usa formas de onda deformadas en vez de senoidales
      Al final, en términos cotidianos, el oído sí hace un procesamiento “tipo Fourier”
    • Este texto es una entrada de journal club escrita por un estudiante de posgrado que presenta el paper de Lewicki de 2002
      El resumen del paper dice explícitamente que “si se optimiza para vocalizaciones animales, se parece a una transformada de Fourier; si se optimiza para sonidos ambientales no biológicos, se parece a una transformada wavelet”
  • Si quieres profundizar más, vale la pena revisar el modelo CARFAC de Richard Lyon (Cascade of Asymmetric Resonators with Fast-Acting Compression)
    Se le considera una de las investigaciones más precisas para modelar digitalmente la audición humana
    El PDF de su libro puede verse aquí

    • Excelente recurso. Gracias
  • La idea de que la voz humana ocupa regiones menos congestionadas del espectro va en la misma línea que el libro 『The Great Animal Orchestra』
    Enlace al libro
    Trata de cómo distintas especies evolucionaron para ocupar cada una su propio nicho acústico
    Pero es algo triste que la destrucción del hábitat esté debilitando ese fenómeno

    • Las aves también evolucionaron para elegir los horarios en que mejor se les puede oír
      En la ciudad, cantan temprano antes de que aparezca el ruido del tráfico; en el bosque, más tarde, cuando baja el ruido de los insectos
    • Cuando desaparecen los rasgos evolutivos que daban ventaja en la naturaleza, su lugar lo ocupan rasgos adaptados al entorno urbano
      En vez de diversidad espacial, también podría evolucionar una diversidad temporal
  • Hay cierta confusión terminológica, pero la transformada de Fourier supone un intervalo de tiempo infinito
    En un intervalo finito, la serie de Fourier es una expresión más precisa
    El funcionamiento real del oído aplica una función de ponderación temporal, así que queda en algún punto intermedio entre serie y transformada de Fourier
    El texto acierta al señalar eso

    • En última instancia, el oído no realiza una sola transformada de Fourier, sino múltiples transformaciones con un compromiso entre resolución temporal y en frecuencia
      También es posible que la voz humana y la estructura auditiva hayan coevolucionado
    • El título es un poco provocador, pero resulta interesante porque aborda bien la implementación fisiológica detallada de la audición humana, por ejemplo el mecanismo de transducción de las células ciliadas de la cóclea
  • El oído no realiza una transformada de Fourier sobre tiempo infinito
    En cambio, hace una transformación discreta con ventana, análoga al principio de incertidumbre entre tiempo y frecuencia
    Una ventana larga mejora la resolución en frecuencia y empeora la temporal, y una corta hace lo contrario
    La cóclea humana funciona de modo que en bajas frecuencias mejora la resolución en frecuencia para distinguir formantes (formants), y en altas frecuencias mejora la resolución temporal para detectar oclusivas (plosives)

    • Creo que no se refería al “principio de exclusión de Pauli”, sino al principio de incertidumbre de Heisenberg
    • El oído no toma muestras de datos; funciona como un proceso mecánico continuo
    • Pensar en la STFT (transformada de Fourier de corto tiempo) ayuda a entenderlo
  • La membrana basilar es una estructura biológica asombrosa
    En procesamiento de audio por computadora, la FFT es útil, pero tiene limitaciones para modelar la audición humana basada en la percepción temporal

  • Es interesante el video que muestra los tip links de las células ciliadas y los canales iónicos
    Video relacionado
    Si esa estructura se daña, puede producirse tinnitus
    Además, el oído tiene una función de amplificación activa, y hasta es posible hacer vibrar células mediante señales eléctricas

  • El video de arriba termina con un tono muy agudo, así que conviene tener cuidado si estás usando audífonos

  • Dado que la corteza de asociación auditiva del lóbulo parietal distingue frecuencias, entre el oído y el cerebro existe una transformación tiempo-frecuencia
    Como la activación de las neuronas es discreta, se trata de una transformación discreta que ocurre dentro de un tiempo finito
    Una forma simple de extender una señal finita a una infinita es suponer que se repite infinitamente hacia el pasado y el futuro