OpenAI cobra por minuto, así que acelera el audio para ahorrar tiempo

(george.mand.is)

16 puntos por GN⁺ 2025-06-26 | 2 comentarios | Compartir por WhatsApp

La tarifa de transcripción de audio de OpenAI se calcula según la duración del audio de entrada
Si conviertes el audio a 2x o 3x con herramientas como ffmpeg antes de subirlo, puedes reducir tiempo de procesamiento y costo sin perder calidad de transcripción
En pruebas reales, al acelerar un audio de 40 minutos a 2x y 3x, el costo se redujo entre 23% y 33%
El modelo gpt-4o-transcribe solo admite audios de menos de 25 minutos, así que subir la velocidad es una solución alternativa útil
Hasta 2x o 3x la calidad del resultado se mantiene, pero a 4x la precisión de la transcripción cae de forma drástica

Resumen introductorio

Una forma simple de aprovechar con más eficiencia la política de precios de transcripción y audio de OpenAI
Una estrategia para ahorrar tanto dinero como tiempo al aumentar la velocidad de conversión del audio y procesar el mismo contenido en menos tiempo
Si conviertes un archivo de audio para que vaya 2x o 3x más rápido con una herramienta de código abierto como ffmpeg y luego lo subes a la API de OpenAI, puedes reducir precio y tiempo requerido sin pérdida de calidad
Este método es especialmente útil para audios largos, sobre todo por el límite de 25 minutos de entrada del modelo gpt-4o-transcribe

Método clave para ahorrar tiempo y costo en transcripción

El servicio de transcripción de audio de OpenAI cobra en función de la duración del audio que recibe
Por eso, si aceleras previamente el archivo de voz 2x o 3x con ffmpeg u otra herramienta antes de subirlo, se reduce mucho la cantidad de tokens de entrada y también el tiempo de procesamiento de la transcripción
Al aplicar esto en la práctica, para un audio de 40 minutos el costo de tokens de entrada se reduce en más de 33% (con 3x queda en $0.07 y con 2x en $0.09)
El costo de tokens de salida se mantiene casi igual independientemente de la velocidad del audio (porque se asigna automáticamente según la longitud del resumen generado)
A 2x y 3x la precisión de la transcripción es estable, pero a 4x el modelo ya no logra reconocer bien el contenido

Ejemplo de script usado

Se requieren las siguientes herramientas de código abierto:

yt-dlp : extraer audio de YouTube y otros sitios
ffmpeg : convertir audio y ajustar velocidad
llm : automatizar el resumen de texto

Flujo de trabajo completo de referencia:

extraer el audio con yt-dlp,
convertir el audio a 2x o 3x con ffmpeg y guardarlo como mp3
subir el mp3 a la API de OpenAI (gpt-4o-transcribe) y obtener el texto transcrito
ingresar ese texto resultante en llm para generar automáticamente el resumen deseado

Experiencia real y pruebas

Al principio se intentó obtener la transcripción automática de YouTube, pero hubo un error de descarga porque yt-dlp estaba en una versión antigua (2025.04.03)
Después de actualizar el programa ya funcionó normalmente, pero en el proceso se terminó probando la vía de extracción manual + aceleración con ffmpeg → procesamiento con la API de OpenAI
Al correr Whisper localmente en una M3 MacBook Air surgieron problemas de consumo de batería y velocidad de ejecución, así que descargar ese trabajo a la nube (API de OpenAI) resultó más rápido y eficiente

Calidad de transcripción y características del algoritmo

Incluso si aumentas la velocidad del audio a 2x o 3x, del mismo modo que una persona puede escuchar rápidamente la voz original, el modelo de IA también logra reconocer casi toda la información esencial
Igual que al optimizar el tamaño de un archivo de imagen (formatos con pérdida o sin pérdida), aunque se pierda una parte de la información auditiva —como palabras aisladas a velocidades altas— eso no afecta demasiado el resumen ni la comprensión general
Así como el cerebro puede compensar textos con errores ortográficos o palabras omitidas, el algoritmo de transcripción también consigue extraer la mayor parte de la información importante incluso con audio acelerado

Comparación real de costos y nivel de ahorro

Tomando como base gpt-4o-transcribe de OpenAI, el costo según la velocidad del audio se calcula así
- 2x (1,186 segundos): $0.09
- 3x (791 segundos): $0.07
- si el audio de entrada es largo (por ejemplo, 2,372 segundos original), no puede procesarse por los requisitos del modelo
- en Whisper-1 la tarifa es de $0.006/min, y usando este método el ahorro puede llegar a aproximadamente 67%
El costo de tokens de salida es casi igual sin importar la velocidad de entrada (por el efecto de la ventana de contexto del modelo y la forma de resumir)
Al aplicar 4x, el resultado de salida se degrada gravemente, con frases repetidas y otros errores

Recomendaciones y conclusión

Si quieres usar la transcripción de voz de OpenAI de forma rápida y barata, acelerar el audio a 2x o 3x es lo más eficiente
Una velocidad demasiado alta (4x) sí presenta problemas de precisión
Es un método simple y fácil de ejecutar, y favorece tanto el mantenimiento de la calidad como la reducción de costos
Puede servir como una forma directa de ahorrar tiempo y dinero para startups y profesionales de IT que necesiten procesar audios largos, como resúmenes de negocios o minutas de reuniones

Resumen (TL;DR)

OpenAI cobra según la duración del audio o según los tokens de entrada/salida
Si conviertes la voz para que vaya 2x o 3x más rápido con ffmpeg, puedes ahorrar tanto tiempo como dinero
Al reducirse los tokens de entrada (o el tiempo), baja la tarifa
2x y 3x son las velocidades óptimas; a partir de 4x la calidad de la transcripción empeora

2 comentarios

mbsahg 2025-06-27

¿Se puede usar gpt-4o-transcribe?
Ayer le pregunté a OpenAI y me dijeron que solo se puede llamar al modelo Whisper usando la API key.
Estoy pensando en probar Whisper con una configuración más rápida para ver si la calidad se puede mantener.

GN⁺ 2025-06-26

Opiniones de Hacker News

Sentí que la velocidad de la charla de Andrej ya era, de forma natural, al menos 1.5x más rápida que la de una persona promedio, así que para seguirla había que bajar la reproducción de YouTube sí o sí a 1x. Si quieren hacer más eficientes los minutos de OpenAI, proponen un método para eliminar por completo los tramos de silencio antes de procesar.
Con un ejemplo de comando de ffmpeg, reemplazando todo silencio de más de 20 ms por debajo de -50 dB con una pausa de 20 ms, experimentaron con la posibilidad de acortar un video de 39 min 31 s a 31 min 34 s. En línea con la intención del post, solo midieron la duración para evaluar el efecto, y no verificaron por separado la calidad de la versión acortada
- Yo siempre veo todos los videos a 2x, y la charla de Andrej también se siente natural a 2x. Aun así, la gente a mi alrededor a menudo dice que mis videos son tan rápidos que tienen que verlos a 0.75x. Desde mi punto de vista, cualquier cosa que no sea 2x se siente demasiado lenta. Como referencia, la velocidad al hablar de John Carmack me parece perfectamente natural incluso a 2x. Si tienen curiosidad por mis videos recientes, pueden verlos aquí; llevo más de 250~300, casi siempre eligiendo un tema al momento y grabando. Me pregunto si mis videos realmente se sienten excesivamente rápidos, o si en realidad son una velocidad bastante normal
- Si de todos modos no verificaste la calidad, parece que habría sido sencillo comparar los resultados de ambas versiones con algo como diffchecker
- Ojalá existiera una velocidad de YouTube de 2.25x para la gente normal. Yo siempre uso los atajos de teclado y escucho al 90% más o menos en 2x, pero con las charlas de Andrej me cuesta ponerlas por encima de 1.25x
- Como Andrej habla más de 1.5 veces más rápido que una persona promedio, coincido con eso de devolver la velocidad de YouTube a su valor normal. Me pregunto si habrá una forma de detectar automáticamente la velocidad del habla de una persona. La velocidad es subjetiva y varía entre personas, pero sería interesante si se pudiera detectar cuándo falla el método que intentó el OP. (Por ejemplo, como cuando a x4 la calidad ya queda destruida)
- Me emociona pensar que todavía se puede aprovechar más magia de ffmpeg. Gracias por la idea; definitivamente quiero probarla después
Pensamientos sobre hojear algo por encima versus tomarse el tiempo de leerlo bien.
Cuando solo leí la transcripción y el resumen de la charla de Andrej, me pareció algo normal y la dejé pasar, pero al ver el video completo en YouTube terminé con una experiencia que me llevó a muchísimas ideas, pensamientos y decisiones. Esto me pasa seguido también con otros temas. Si asistes en persona a una conferencia y la escuchas ahí, resulta muchísimo más útil que una charla en línea. Incluso verla en línea es mucho más provechoso que solo leer un resumen. Hasta ponerse a pensar con calma mientras caminas suele ser mucho mejor que dedicarle apenas 10 minutos de pensamiento superficial. Mi sensación es que, para pensar, normalmente es mejor ir más despacio
- Esto de verdad me parece rarísimo. Como desarrollador que odiaba que en la escuela me lanzaran conocimiento de forma uniforme y estandarizada, se me hace extraño que ahora esté dispuesto incluso a pagar por experiencias de ese tipo. Leer en sí mismo es un placer, y también lo es esa sensación de que las ideas encajan mientras ves una charla. Considero que pensar por nosotros mismos sobre el significado del mundo es algo profundamente humano. Pero al mismo tiempo no puedo empatizar en absoluto con la idea de que esta tendencia nos vuelva a todos más tontos
- Coincido muchísimo con eso. Creo que el valor de una charla no está tanto en los hechos o ideas públicas en sí, sino en la variedad de inspiraciones adicionales que genera. En el mundo existe una cantidad realmente inmensa de información, y el contexto lo es todo. Si hubiera tenido un poco más de contexto concreto, me habría tomado el tiempo de verla, pero como me llega solo como un enlace sin contexto, termino adoptando una actitud de querer captar rápido solo la “esencia” para reaccionar. Al final, por eso mismo quizá ahora vuelva a verla porque me despertó interés. Y vuelvo a estar de acuerdo con “normalmente es mejor pensar despacio”
- Es cierto que pensar despacio es importante, pero también creo que puede ser bastante útil escuchar un poco de una charla y luego volver a verla más adelante para reflexionar con mayor profundidad
- Me pregunto si de verdad lo importante era la velocidad del video, o más bien la información adicional que aportan el video y el audio. Siento que un buen orador transmite mucho mejor el mismo mensaje en audio/video, porque el audio puede dar énfasis a ciertas partes, y el video puede reforzar el mensaje con gestos o expresiones faciales
- Al contrario, cuando veo a gente que escucha podcasts o audiolibros a 2~3x, en mi caso siento que puedo concentrarme mejor y tengo más tiempo para pensar cuando los pongo más lentos, como a 0.8x. Me pregunto si seré un caso atípico
Intentaron resumir una charla de 40 minutos con la API de transcripción de OpenAI, pero como era demasiado larga, la comprimieron a 3x con ffmpeg para entrar dentro del límite de 25 minutos. Les funcionó de verdad, y compartieron el post porque ahorraron tanto costo como tiempo. Incluye el script completo y el desglose de costos
- En broma, dicen que podrían haber usado este truco en silencio y hasta montar un negocio de transcripción más barato que OpenAI
“¿Y la precisión?” “No sé, ese era el punto desde el principio”: da la impresión de que, manteniendo exactamente esa vibra del autor original, sigue siendo un trabajo genial, aunque este futuro se siente de algún modo inquietante
- Las transcripciones hechas por humanos nunca garantizaron precisión total. En este tipo de proceso siempre hubo errores, y eso seguirá formando parte de las expectativas. Lo que preocupa más bien es que la IA generativa interprete algo como si fuera un hecho, o la noción social de que “la IA es más confiable”. También es peligrosa la idea extendida de que la IA tiene más fiabilidad o imparcialidad que un humano, un experto o un periodista
Antes de Gemini 2.0 había una versión que cobraba una tarifa fija de 258 tokens por una sola imagen, así que también existía el truco de meter muchísimo más texto dentro de una imagen para procesarlo más barato
Hicieron una extensión de Chrome que puede convertir audio a texto directamente en el navegador ejecutando un modelo OpenAI Whisper con WebGPU en huggingface/transformers.js. Consulten la lista de ejemplos. Por ejemplo, no quiero escuchar ni ver los videos de las redes sociales del presidente, pero cuando aparece alguna barbaridad que pueda afectar mucho a la economía, necesito detectarla rápido; así que cada minuto rastreo nuevas publicaciones, proceso automáticamente OCR y transcripción de audio en local, y hasta hago análisis de texto para recibir alertas solo cuando sea económicamente importante. Enlace del proyecto
- Dicen que es una implementación impresionante
Recomiendan Groq en lugar de la API de Whisper de OpenAI (más barato: distil-large-v3 a $0.02 por hora, whisper-large-v3-turbo a $0.04, mientras OpenAI cobra $0.36/hr). Internamente, cuando se suben reuniones del concejo municipal a YouTube, automatizan la transcripción usando Groq, Replicate, Deepgram y otros
- Como tip, mencionan que usando la Inference API de Hugging Face es fácil cambiar entre varios proveedores de API a la vez. Pueden ver un ejemplo directamente aquí
- Con tarifas de $0.02~$0.04 por hora, parece que no haría falta mucha optimización, pero surge la duda de si acelerar más el audio podría reducir todavía más el costo. También aparece la pregunta de si YouTube ya ofrece subtítulos automáticos para la mayoría del contenido dentro de un día
- Enfatizan que, para quienes usan una MacBook reciente, los modelos Whisper pueden ejecutarse localmente completamente gratis. Da la impresión de que mucha gente no se da cuenta de lo baratísimo que ya es el cómputo usando hardware propio
- También señalan una opción en cloudflare workers ai para usar el modelo whisper-large-v3-turbo por aproximadamente $0.03 por hora (enlace)
Destacan que en Google AI studio basta con pasar un enlace de YouTube para que extraiga automáticamente una transcripción con etiquetas de hablante e incluso pistas visuales. También mencionan soporte multimodal para video
Trabajo en OpenAI en temas relacionados con API, y me sorprendió que incluso a velocidades de 2~3x el resultado saliera bastante bien. De hecho, para canales telefónicos usan audio de 8 khz remuestreado a 24 khz y funciona bien. Aun así, cuanto más te alejas de 1x, más clara se vuelve la pérdida de precisión, y a largo plazo hace falta soportar subida de archivos más largos
- Como comentario, estaría bien investigar internamente este tipo de optimización por velocidad para encontrar puntos de multiplicación donde la pérdida de precisión sea mínima. También sugiere la posibilidad de bajar el precio efectivo de la API con un preprocesamiento simple
Hay una opinión de que gusta el estilo de escritura que va directo al grano. Muchos textos se alargan innecesariamente, y este enfoque se siente fresco. Tal vez hasta haga que la mitad de los autores se den cuenta de que, en realidad, ni siquiera tienen un mensaje central