- Handy es una app de escritorio gratuita y de código abierto de voz a texto que funciona completamente sin conexión, con un diseño centrado en la privacidad
- Está desarrollada sobre Tauri (Rust + React/TypeScript), con una estructura en la que presionas un atajo de teclado, hablas y tu voz se escribe directamente en el campo de texto
- Soporta los modelos Whisper y Parakeet V3, y realiza reconocimiento de voz localmente con aceleración por GPU o basado en CPU
- Funciona en Windows, macOS y Linux, y fue diseñada con énfasis en la extensibilidad y facilidad para hacer forks, fomentando las contribuciones de desarrolladores
- Como herramienta de entrada por voz centrada en la privacidad que procesa todo localmente sin enviar datos a la nube, ofrece alta accesibilidad y posibilidades de personalización
Descripción general
- Handy es una aplicación de reconocimiento de voz gratuita, de código abierto y extensible que funciona completamente sin conexión a internet
- Está basada en el framework Tauri y combina un backend en Rust con un frontend en React/TypeScript
- El usuario presiona un atajo de teclado para hablar y, al soltarlo, los modelos Whisper o Parakeet V3 convierten la voz en texto y la pegan en la aplicación actual
- Todos los datos de voz se procesan localmente, por lo que no hay riesgo de filtración de información personal
La filosofía de Handy
- Gratis: las herramientas de accesibilidad deben estar disponibles para cualquiera
- Código abierto: cualquiera puede ampliar y mejorar sus funciones
- Privacidad garantizada: los datos de voz no se envían a la nube
- Simplicidad: se enfoca en un solo objetivo, convertir voz en texto
- La meta no es crear la app “más perfecta”, sino la app “más fácil de forkear”
Cómo funciona
- El usuario puede iniciar o detener la grabación con un atajo de teclado o usar el modo push-to-talk
- Usa Silero VAD para filtrar los silencios y convierte la voz con los modelos Whisper o Parakeet V3
- Modelos Whisper: versiones Small, Medium, Turbo y Large, con soporte de aceleración por GPU
- Parakeet V3: optimizado para CPU, incluye detección automática de idioma
- El texto convertido se inserta automáticamente en el campo de entrada de la aplicación en uso
- Compatible con Windows, macOS y Linux
Arquitectura
- Frontend: React + TypeScript + Tailwind CSS
- Backend: basado en Rust, encargado del procesamiento de audio y la inferencia de aprendizaje automático
- Bibliotecas principales
whisper-rs: reconocimiento de voz local con modelos Whisper
transcription-rs: reconocimiento con modelos Parakeet en CPU
cpal: entrada y salida de audio
vad-rs: detección de actividad de voz
rdev: atajos globales y manejo de eventos del sistema
rubato: remuestreo de audio
- Modo de depuración: accesible con
Cmd+Shift+D (macOS) o Ctrl+Shift+D (Windows/Linux)
Problemas conocidos y limitaciones
- Fallos con modelos Whisper: existen problemas de cierre inesperado del modelo en algunos entornos Windows/Linux
- Soporte limitado para Wayland: en Linux con Wayland se requiere instalar
wtype o dotool
- Herramientas de entrada de texto
- X11:
xdotool
- Wayland:
wtype o dotool
- Si estas herramientas no están instaladas, se usa
enigo como alternativa, aunque con limitaciones de compatibilidad
- Superposición desactivada por defecto en Linux: viene apagada para evitar conflictos de foco
Requisitos del sistema
- Para modelos Whisper
- macOS: Mac con chip serie M o Intel
- Windows/Linux: GPU Intel, AMD o NVIDIA (se recomienda Ubuntu 22.04/24.04)
- Para el modelo Parakeet V3
- Solo CPU; se recomienda Intel Skylake (6.ª generación) o superior
- Aproximadamente 5 veces más rápido que tiempo real en hardware de gama media
- Incluye detección automática de idioma
Hoja de ruta de desarrollo
- Funciones en progreso
- Añadir archivos de registro de depuración
- Mejoras de atajos en macOS (soporte para la tecla Globe, reescritura del manejo de atajos globales)
- Analítica opcional: recopilación anónima de datos de uso basada en consentimiento explícito
- Refactorización del sistema de configuración y mejora de abstracciones
- Reorganización de la estructura de comandos de Tauri y mejora de la seguridad de tipos
Solución de problemas e instalación manual de modelos
- En entornos con restricciones de red, los modelos pueden descargarse e instalarse manualmente
- Crea una carpeta
models dentro del directorio de datos de la app y coloca allí los archivos del modelo
- Modelos Whisper: copiar directamente los archivos
.bin
- Modelos Parakeet: descomprimir
.tar.gz y mantener el nombre de carpeta especificado
- Tras la instalación, al reiniciar la app los modelos se detectan automáticamente
Cómo contribuir
- Revisar los issues en GitHub, luego crear un fork y una rama
- Probar suficientemente en la plataforma objetivo antes de enviar un Pull Request
- También se puede participar en la comunidad por correo electrónico (contact@handy.computer) o Discord
- El objetivo es ofrecer una base que la comunidad pueda desarrollar mediante una base de código simple y bien estructurada
Proyectos relacionados y licencia
- Handy CLI: versión de línea de comandos basada en Python
- handy.computer: sitio web oficial y demo
- Distribuido bajo la licencia MIT
- Basado en proyectos de código abierto como Whisper (OpenAI), Silero y Tauri
Cita
- “Handy puede poner fin a tu búsqueda de una herramienta de reconocimiento de voz no porque sea perfecta, sino porque tú puedes hacerla perfecta.”
1 comentarios
Opiniones de Hacker News
Con Parakeet V3 responde casi al instante y tiene suficiente precisión
A menudo uso una rutina en la que le hablo a un agente de CLI y le pido: “dime cómo entendiste lo que dije”
Así verifico la comprensión y además sirve como una especie de especificación
Últimamente también probé la combinación Handy + Parakeet v3 y funciona muy bien, así que pienso usarla unos días
Si activas la UI de “debug” con Cmd‑Shift‑D, también puedes ver opciones extra como post‑processing o agregar espacios
Quiero poder dictar comandos como “cd ~/projects” o “git push --force”
Por eso una app de TTS como SuperWhisper me ha ayudado mucho
Espero que Handy ofrezca una experiencia parecida
Pero creo que, para evolucionar al siguiente nivel, hace falta ir más allá de solo convertir voz en texto y añadir expansión basada en contexto
Por ejemplo, que al dictar código dentro de un IDE se genere código real
Al final, la dirección es combinar TTS con el uso de la computadora
ultraplanRegistra voz con Whisper local y guarda en una línea de tiempo cosas como capturas de pantalla y contenido del portapapeles
Después, un agente como Claude Code lee esa línea de tiempo y continúa el trabajo
También permite control manos libres, por ejemplo tomar una captura al decir “marco”
Si quieres, puedo ordenarlo y subirlo a GitHub
También hay experimentos para entender el contexto de la computadora usando modelos locales pequeños (moondream, qwen, etc.)
Cuando me rompí un dedo hace tiempo, mapeé atajos a Handy e implementé un control contextual simple
Por ejemplo, está este caso de 2013: Using Voice to Code Faster than Keyboard
Y como investigación más reciente, también está este artículo
Si metes la salida de STT a un LLM, puede inferir la intención y generar un conjunto de comandos
En CLI es fácil convertir comandos de voz directamente en comandos de shell
En GUI es un poco más complejo porque hace falta conocer el estado de la pantalla
MacWhisper en macOS puede enviar el texto transcrito a un endpoint compatible con OpenAI
Superwhisper es de pago, pero tiene opción de licencia vitalicia y muchas funciones. Lo mantiene una sola persona, así que a veces tiene bugs
Hex es la opción gratuita más ligera y limpia
Fluid Voice tiene una función poco común que muestra texto en tiempo real mientras hablas
Handy tiene una UI rosa muy linda y me gusta su ventana de historial. La configuración para restaurar el portapapeles es un poco peculiar
Al instalar varias apps alternándolas sí tuve algunos conflictos
Gracias a que Nvidia liberó Parakeet como código abierto, todas son muy rápidas
Yo prefiero la función de streaming de transcripción en tiempo real: ver algo al instante aunque sea de menor calidad, y que luego se reemplace por una versión de mayor calidad
La mayoría eran de pago o por suscripción y hasta pensé en hacer una yo mismo, pero Handy es rápido, simple y no estorba
Además recibe actualizaciones constantes, así que estoy realmente satisfecho
La función de post‑processing también suena muy bien
Agregar palabras manualmente está bien, pero si marcara las palabras inciertas sería más fácil corregirlo
El atajo predeterminado es Ctrl+Space, y la transcripción se inserta en cuanto sueltas la tecla
Si Ctrl sigue presionada en ese momento, el texto transcrito se interpreta como caracteres de Ctrl
El entorno de prueba fue Linux x64, X11 y Emacs
También probé Monologue, Superwhisper y Aqua, pero Handy corre localmente y no tiene suscripción
Lo recomiendo mucho
Por la descripción parecen similares. Handy tuvo su primer lanzamiento en junio de 2025 y OpenWhispr salió un mes después
Handy tiene 11k estrellas en GitHub y OpenWhispr unas 730
En ese momento OpenWhispr no tenía el modelo Parakeet y la UI tampoco se sentía tan pulida
Gracias a la UI minimalista de Handy, usarlo es muy intuitivo
Le faltan funciones avanzadas, pero llevo dos meses usándolo y no pienso buscar otra app de STT
La configuración también es lo bastante simple como para usarla cómodamente
Me preguntaba qué era la opción “discharging the model”, pero no parece afectar ni la RAM ni la CPU
Si se descarga, se saca de memoria y el arranque se vuelve más lento