- SpeechAnalyzer y SpeechTranscriber de Apple permiten transcripción de voz a texto en tiempo real con una velocidad muy superior y la misma calidad que Whisper de OpenAI
- Al convertir un archivo de video real de 34 minutos y 7 GB con la herramienta de línea de comandos Yap, se generó un archivo SRT en apenas 45 segundos, un resultado 2.2 veces más rápido que MacWhisper
- Casi no hay diferencias de calidad frente a otras herramientas como MacWhisper y VidCap, aunque todas muestran algunos errores al procesar nombres propios y palabras compuestas
- En tareas repetitivas como videos largos para desarrolladores, clases y podcasts, el ahorro de tiempo acumulado es muy grande
- Se puede usar inmediatamente tras instalar Yap en la beta de macOS Tahoe (requiere cuenta de desarrollador), y se espera que en el futuro reemplace a Whisper en toda la plataforma de Apple (iPhone, iPad, Mac, Vision Pro)
Apple Speech API vs Whisper: una nueva revolución de velocidad
- SpeechAnalyzer y SpeechTranscriber, presentados recientemente en la WWDC, están incluidos en las betas más recientes de macOS, iOS, iPadOS y Vision Pro
- El autor estaba muy insatisfecho con la lentitud de las herramientas anteriores basadas en Whisper, pero la nueva API mostró en el uso real un rendimiento de nivel game changer
- Con una simple herramienta de línea de comandos (Yap) es posible convertir rápidamente archivos de audio y video a SRT y TXT
- Video 4K de 34 minutos y 7 GB → Yap: 45 segundos / MacWhisper(V3 Turbo): 1 minuto 41 segundos / VidCap: 1 minuto 55 segundos / MacWhisper(V2): 3 minutos 55 segundos
- Los problemas para reconocer CamelCase (por ejemplo, AppStories) y nombres propios aparecen de forma similar en todos los casos (y se pueden corregir fácilmente con posprocesamiento)
Comparación real de velocidad y uso en flujos de trabajo
- Si se mira un solo video, una diferencia de 1 a 2 minutos puede parecer pequeña, pero al procesar varias horas de video el ahorro de tiempo acumulado es grande
- En tareas de conversión masiva por lotes, como videos de YouTube, es posible automatizar de forma eficiente en combinación con yt-dlp
- Ofrece un flujo de trabajo rápido para subtítulos, clases y resúmenes a distintos usuarios como creadores, youtubers y estudiantes
- Se espera que la combinación de SpeechAnalyzer/SpeechTranscriber reemplace rápidamente a Whisper
Implementación real e instalación
- Instalar la beta de macOS Tahoe (por ahora se requiere cuenta de desarrollador)
- Descargar e instalar la herramienta de línea de comandos desde el repositorio de Yap en GitHub
- Después de ejecutar Yap e ingresar el archivo de audio o video, se genera de inmediato el archivo convertido en SRT/TXT
- Se puede consultar información técnica adicional en la documentación oficial de Apple sobre Speech API y en el video de la WWDC (sesión 277)
Conclusión y perspectivas
- Apple Speech API muestra una ventaja abrumadora en velocidad frente a Whisper, manteniendo al mismo nivel la calidad
- Tiene altas probabilidades de consolidarse como modelo estándar para quienes usan principalmente flujos de trabajo de reconocimiento y transcripción de voz en la plataforma de Apple
- Se espera una máxima eficiencia acumulada y un aumento de la productividad en tareas de automatización repetitivas
6 comentarios
Más adelante también tendré que probar con coreano.
Como la plataforma de Apple en sí tiene una mentalidad cerrada, no me dan ganas de meterle mano.
No me gusta ver comentarios en tuteo, pero no hay opción de bloquearlos.
Visto así, el comentario que usted dejó también está en tono informal;;
Puede que no te guste que critiquen a Apple, pero eso no es hablarle de manera informal a alguien.
Eso es un estilo lacónico, y además los resúmenes predeterminados de GeekNews usan justamente ese estilo, así que no sé cómo has estado leyendo los textos...