La nueva Speech API de Apple ofrece transcripción de voz a texto en tiempo real muy superior en velocidad a Whisper

(macstories.net)

16 puntos por GN⁺ 2025-06-21 | 6 comentarios | Compartir por WhatsApp

SpeechAnalyzer y SpeechTranscriber de Apple permiten transcripción de voz a texto en tiempo real con una velocidad muy superior y la misma calidad que Whisper de OpenAI
Al convertir un archivo de video real de 34 minutos y 7 GB con la herramienta de línea de comandos Yap, se generó un archivo SRT en apenas 45 segundos, un resultado 2.2 veces más rápido que MacWhisper
Casi no hay diferencias de calidad frente a otras herramientas como MacWhisper y VidCap, aunque todas muestran algunos errores al procesar nombres propios y palabras compuestas
En tareas repetitivas como videos largos para desarrolladores, clases y podcasts, el ahorro de tiempo acumulado es muy grande
Se puede usar inmediatamente tras instalar Yap en la beta de macOS Tahoe (requiere cuenta de desarrollador), y se espera que en el futuro reemplace a Whisper en toda la plataforma de Apple (iPhone, iPad, Mac, Vision Pro)

Apple Speech API vs Whisper: una nueva revolución de velocidad

SpeechAnalyzer y SpeechTranscriber, presentados recientemente en la WWDC, están incluidos en las betas más recientes de macOS, iOS, iPadOS y Vision Pro
El autor estaba muy insatisfecho con la lentitud de las herramientas anteriores basadas en Whisper, pero la nueva API mostró en el uso real un rendimiento de nivel game changer
Con una simple herramienta de línea de comandos (Yap) es posible convertir rápidamente archivos de audio y video a SRT y TXT
Video 4K de 34 minutos y 7 GB → Yap: 45 segundos / MacWhisper(V3 Turbo): 1 minuto 41 segundos / VidCap: 1 minuto 55 segundos / MacWhisper(V2): 3 minutos 55 segundos
Los problemas para reconocer CamelCase (por ejemplo, AppStories) y nombres propios aparecen de forma similar en todos los casos (y se pueden corregir fácilmente con posprocesamiento)

Comparación real de velocidad y uso en flujos de trabajo

Si se mira un solo video, una diferencia de 1 a 2 minutos puede parecer pequeña, pero al procesar varias horas de video el ahorro de tiempo acumulado es grande
En tareas de conversión masiva por lotes, como videos de YouTube, es posible automatizar de forma eficiente en combinación con yt-dlp
Ofrece un flujo de trabajo rápido para subtítulos, clases y resúmenes a distintos usuarios como creadores, youtubers y estudiantes
Se espera que la combinación de SpeechAnalyzer/SpeechTranscriber reemplace rápidamente a Whisper

Implementación real e instalación

Instalar la beta de macOS Tahoe (por ahora se requiere cuenta de desarrollador)
Descargar e instalar la herramienta de línea de comandos desde el repositorio de Yap en GitHub
Después de ejecutar Yap e ingresar el archivo de audio o video, se genera de inmediato el archivo convertido en SRT/TXT
Se puede consultar información técnica adicional en la documentación oficial de Apple sobre Speech API y en el video de la WWDC (sesión 277)

Conclusión y perspectivas

Apple Speech API muestra una ventaja abrumadora en velocidad frente a Whisper, manteniendo al mismo nivel la calidad
Tiene altas probabilidades de consolidarse como modelo estándar para quienes usan principalmente flujos de trabajo de reconocimiento y transcripción de voz en la plataforma de Apple
Se espera una máxima eficiencia acumulada y un aumento de la productividad en tareas de automatización repetitivas

6 comentarios

brainer 2025-06-21

Más adelante también tendré que probar con coreano.

howudoin 2025-06-21

Como la plataforma de Apple en sí tiene una mentalidad cerrada, no me dan ganas de meterle mano.

gera1d 2025-06-21

No me gusta ver comentarios en tuteo, pero no hay opción de bloquearlos.

jk34011 2025-06-23

Visto así, el comentario que usted dejó también está en tono informal;;

crawler 2025-06-22

Puede que no te guste que critiquen a Apple, pero eso no es hablarle de manera informal a alguien.
Eso es un estilo lacónico, y además los resúmenes predeterminados de GeekNews usan justamente ese estilo, así que no sé cómo has estado leyendo los textos...

2025-06-23

[Este comentario fue ocultado.]