- Whispering es una herramienta de transcripción de voz local-first que, tras presionar un atajo de teclado, realiza el proceso de voz → texto y lo pega de inmediato en el portapapeles
- A diferencia de muchas herramientas existentes, que eran servicios cerrados y de pago, Whispering ofrece procesamiento de datos transparente y accesibilidad de código abierto
- El usuario puede elegir entre opciones locales (Whisper C++, Speaches, etc.) o en la nube (Groq, OpenAI, ElevenLabs, etc.), y configurar las funciones de transformación con IA que desee
- La app pesa 22 MB y ofrece un inicio rápido, además de incluir funciones avanzadas como atajos personalizados, modo de activación por voz y formateo automático de texto
- Permite lograr al mismo tiempo propiedad de los datos y reducción de costos, por lo que es un proyecto relevante como alternativa a los SaaS cerrados de transcripción
Descripción general de Whispering
- Whispering es una app de transcripción de voz gratuita y de código abierto que, al presionar un atajo e ingresar voz, la convierte en texto y la copia automáticamente
- Los datos personales se guardan localmente por defecto y no se envían al exterior
- Si se desea, se pueden conectar directamente APIs externas como OpenAI, Groq y ElevenLabs
- Sus valores centrales son la transparencia y la garantía de propiedad de los datos
Funciones y características principales
- Soporte para modo de activación por voz (Voice Activity Detection, VAD)
- Cuando el usuario habla, la grabación comienza automáticamente, y cuando se detiene, termina sola
- Función de transformaciones basadas en IA (Transformations)
- Permite configurar distintos flujos de trabajo de IA para corrección gramatical, traducción, resumen, aplicación de formato y más
- Se puede elegir entre varios proveedores de LLM como OpenAI, Anthropic, Google Gemini y Groq
- Soporte para atajos personalizados para adaptar la experiencia al entorno del usuario
- Estructura de bajo costo: se usa la propia API key del usuario para pagar directamente al proveedor
- Ejemplo: con modelos de Groq, 0.02$/hora → alrededor de 0.20$ al mes (100 veces más barato que un SaaS tradicional)
Instalación y uso
- Hay binarios disponibles para macOS, Windows y Linux
- macOS: versiones separadas para Apple Silicon e Intel
- Windows: opciones de instalación MSI/EXE
- Linux: soporte para AppImage, DEB y RPM
- Si la instalación resulta incómoda, también hay una versión web de la app (aunque no admite atajos globales)
Cómo maneja los datos
- Todas las grabaciones y resultados de transcripción se guardan en IndexedDB para gestión local
- Si se elige un servicio externo de transcripción, solo se realizan llamadas directas mediante API key
- Sin servidores intermedios, sin recolección de datos
- Los servicios de transformación también se envían únicamente al proveedor de LLM elegido por el usuario
- Los flujos de trabajo de transformación, prompts y valores de configuración se guardan localmente
Diferenciadores y ventajas
- Las apps de transcripción existentes suelen pasar por servidores intermedios y cobrar 15 a 30 dólares al mes
- Whispering tiene una arquitectura sin intermediarios, lo que permite conectarse directamente con el proveedor y reducir costos
- Si se elige una opción local, permite un uso completamente offline, gratuito e ilimitado
Desarrollo y arquitectura
- Está construida sobre Svelte 5 + Tauri, con soporte tanto para escritorio como para web
- Tamaño de unos 22 MB, inicio rápido y uso mínimo de recursos
- La base de código usa una arquitectura de 3 capas dividida en capa de servicios, capa de consultas y capa de UI
- 97% de código compartido entre las versiones web y de escritorio
- La extensión de navegador (React + shadcn/ui) está actualmente en pausa temporal mientras se estabiliza la app de escritorio
Contribuciones y comunidad
- Cualquiera puede revisar el código fuente, contribuir funciones y agregar nuevos adaptadores de servicios de transcripción/IA
- Guías de desarrollo: mantener patrones de TypeScript/Svelte y manejo de errores basado en la biblioteca WellCrafted
- La retroalimentación de usuarios y la colaboración se canalizan a través de la comunidad de Discord y GitHub Issues
- Basada en licencia MIT, se puede hacer fork, modificar y redistribuir libremente
Respuestas principales del FAQ
- Uso offline: soporte totalmente offline con el modo local de Speaches
- Costo real: con Groq, 0.2~3$ al mes; con OpenAI, 1.8~16.2$ al mes; local es gratis
- Seguridad/privacidad: las grabaciones se guardan localmente, y cualquier envío externo se hace solo a la API del proveedor elegido directamente por el usuario
- Plataformas compatibles: escritorio en macOS, Windows y Linux + navegador web
Aún no hay comentarios.