21 puntos por GN⁺ 2025-08-19 | Aún no hay comentarios. | Compartir por WhatsApp
  • Whispering es una herramienta de transcripción de voz local-first que, tras presionar un atajo de teclado, realiza el proceso de voz → texto y lo pega de inmediato en el portapapeles
  • A diferencia de muchas herramientas existentes, que eran servicios cerrados y de pago, Whispering ofrece procesamiento de datos transparente y accesibilidad de código abierto
  • El usuario puede elegir entre opciones locales (Whisper C++, Speaches, etc.) o en la nube (Groq, OpenAI, ElevenLabs, etc.), y configurar las funciones de transformación con IA que desee
  • La app pesa 22 MB y ofrece un inicio rápido, además de incluir funciones avanzadas como atajos personalizados, modo de activación por voz y formateo automático de texto
  • Permite lograr al mismo tiempo propiedad de los datos y reducción de costos, por lo que es un proyecto relevante como alternativa a los SaaS cerrados de transcripción

Descripción general de Whispering

  • Whispering es una app de transcripción de voz gratuita y de código abierto que, al presionar un atajo e ingresar voz, la convierte en texto y la copia automáticamente
    • Los datos personales se guardan localmente por defecto y no se envían al exterior
    • Si se desea, se pueden conectar directamente APIs externas como OpenAI, Groq y ElevenLabs
  • Sus valores centrales son la transparencia y la garantía de propiedad de los datos

Funciones y características principales

  • Soporte para modo de activación por voz (Voice Activity Detection, VAD)
    • Cuando el usuario habla, la grabación comienza automáticamente, y cuando se detiene, termina sola
  • Función de transformaciones basadas en IA (Transformations)
    • Permite configurar distintos flujos de trabajo de IA para corrección gramatical, traducción, resumen, aplicación de formato y más
    • Se puede elegir entre varios proveedores de LLM como OpenAI, Anthropic, Google Gemini y Groq
  • Soporte para atajos personalizados para adaptar la experiencia al entorno del usuario
  • Estructura de bajo costo: se usa la propia API key del usuario para pagar directamente al proveedor
    • Ejemplo: con modelos de Groq, 0.02$/hora → alrededor de 0.20$ al mes (100 veces más barato que un SaaS tradicional)

Instalación y uso

  • Hay binarios disponibles para macOS, Windows y Linux
    • macOS: versiones separadas para Apple Silicon e Intel
    • Windows: opciones de instalación MSI/EXE
    • Linux: soporte para AppImage, DEB y RPM
  • Si la instalación resulta incómoda, también hay una versión web de la app (aunque no admite atajos globales)

Cómo maneja los datos

  • Todas las grabaciones y resultados de transcripción se guardan en IndexedDB para gestión local
  • Si se elige un servicio externo de transcripción, solo se realizan llamadas directas mediante API key
    • Sin servidores intermedios, sin recolección de datos
  • Los servicios de transformación también se envían únicamente al proveedor de LLM elegido por el usuario
    • Los flujos de trabajo de transformación, prompts y valores de configuración se guardan localmente

Diferenciadores y ventajas

  • Las apps de transcripción existentes suelen pasar por servidores intermedios y cobrar 15 a 30 dólares al mes
  • Whispering tiene una arquitectura sin intermediarios, lo que permite conectarse directamente con el proveedor y reducir costos
  • Si se elige una opción local, permite un uso completamente offline, gratuito e ilimitado

Desarrollo y arquitectura

  • Está construida sobre Svelte 5 + Tauri, con soporte tanto para escritorio como para web
    • Tamaño de unos 22 MB, inicio rápido y uso mínimo de recursos
  • La base de código usa una arquitectura de 3 capas dividida en capa de servicios, capa de consultas y capa de UI
    • 97% de código compartido entre las versiones web y de escritorio
  • La extensión de navegador (React + shadcn/ui) está actualmente en pausa temporal mientras se estabiliza la app de escritorio

Contribuciones y comunidad

  • Cualquiera puede revisar el código fuente, contribuir funciones y agregar nuevos adaptadores de servicios de transcripción/IA
  • Guías de desarrollo: mantener patrones de TypeScript/Svelte y manejo de errores basado en la biblioteca WellCrafted
  • La retroalimentación de usuarios y la colaboración se canalizan a través de la comunidad de Discord y GitHub Issues
  • Basada en licencia MIT, se puede hacer fork, modificar y redistribuir libremente

Respuestas principales del FAQ

  • Uso offline: soporte totalmente offline con el modo local de Speaches
  • Costo real: con Groq, 0.2~3$ al mes; con OpenAI, 1.8~16.2$ al mes; local es gratis
  • Seguridad/privacidad: las grabaciones se guardan localmente, y cualquier envío externo se hace solo a la API del proveedor elegido directamente por el usuario
  • Plataformas compatibles: escritorio en macOS, Windows y Linux + navegador web

Aún no hay comentarios.

Aún no hay comentarios.