Handy – app gratuita y de código abierto de reconocimiento de voz

(github.com/cjpais)

2 puntos por GN⁺ 2026-01-17 | 1 comentarios | Compartir por WhatsApp

Handy es una app de escritorio gratuita y de código abierto de voz a texto que funciona completamente sin conexión, con un diseño centrado en la privacidad
Está desarrollada sobre Tauri (Rust + React/TypeScript), con una estructura en la que presionas un atajo de teclado, hablas y tu voz se escribe directamente en el campo de texto
Soporta los modelos Whisper y Parakeet V3, y realiza reconocimiento de voz localmente con aceleración por GPU o basado en CPU
Funciona en Windows, macOS y Linux, y fue diseñada con énfasis en la extensibilidad y facilidad para hacer forks, fomentando las contribuciones de desarrolladores
Como herramienta de entrada por voz centrada en la privacidad que procesa todo localmente sin enviar datos a la nube, ofrece alta accesibilidad y posibilidades de personalización

Descripción general

Handy es una aplicación de reconocimiento de voz gratuita, de código abierto y extensible que funciona completamente sin conexión a internet
Está basada en el framework Tauri y combina un backend en Rust con un frontend en React/TypeScript
El usuario presiona un atajo de teclado para hablar y, al soltarlo, los modelos Whisper o Parakeet V3 convierten la voz en texto y la pegan en la aplicación actual
Todos los datos de voz se procesan localmente, por lo que no hay riesgo de filtración de información personal

La filosofía de Handy

Gratis: las herramientas de accesibilidad deben estar disponibles para cualquiera
Código abierto: cualquiera puede ampliar y mejorar sus funciones
Privacidad garantizada: los datos de voz no se envían a la nube
Simplicidad: se enfoca en un solo objetivo, convertir voz en texto
La meta no es crear la app “más perfecta”, sino la app “más fácil de forkear”

Cómo funciona

El usuario puede iniciar o detener la grabación con un atajo de teclado o usar el modo push-to-talk
Usa Silero VAD para filtrar los silencios y convierte la voz con los modelos Whisper o Parakeet V3
- Modelos Whisper: versiones Small, Medium, Turbo y Large, con soporte de aceleración por GPU
- Parakeet V3: optimizado para CPU, incluye detección automática de idioma
El texto convertido se inserta automáticamente en el campo de entrada de la aplicación en uso
Compatible con Windows, macOS y Linux

Arquitectura

Frontend: React + TypeScript + Tailwind CSS
Backend: basado en Rust, encargado del procesamiento de audio y la inferencia de aprendizaje automático
Bibliotecas principales
- whisper-rs: reconocimiento de voz local con modelos Whisper
- transcription-rs: reconocimiento con modelos Parakeet en CPU
- cpal: entrada y salida de audio
- vad-rs: detección de actividad de voz
- rdev: atajos globales y manejo de eventos del sistema
- rubato: remuestreo de audio
Modo de depuración: accesible con Cmd+Shift+D (macOS) o Ctrl+Shift+D (Windows/Linux)

Problemas conocidos y limitaciones

Fallos con modelos Whisper: existen problemas de cierre inesperado del modelo en algunos entornos Windows/Linux
Soporte limitado para Wayland: en Linux con Wayland se requiere instalar wtype o dotool
Herramientas de entrada de texto
- X11: xdotool
- Wayland: wtype o dotool
- Si estas herramientas no están instaladas, se usa enigo como alternativa, aunque con limitaciones de compatibilidad
Superposición desactivada por defecto en Linux: viene apagada para evitar conflictos de foco

Requisitos del sistema

Para modelos Whisper
- macOS: Mac con chip serie M o Intel
- Windows/Linux: GPU Intel, AMD o NVIDIA (se recomienda Ubuntu 22.04/24.04)
Para el modelo Parakeet V3
- Solo CPU; se recomienda Intel Skylake (6.ª generación) o superior
- Aproximadamente 5 veces más rápido que tiempo real en hardware de gama media
- Incluye detección automática de idioma

Hoja de ruta de desarrollo

Funciones en progreso
- Añadir archivos de registro de depuración
- Mejoras de atajos en macOS (soporte para la tecla Globe, reescritura del manejo de atajos globales)
- Analítica opcional: recopilación anónima de datos de uso basada en consentimiento explícito
- Refactorización del sistema de configuración y mejora de abstracciones
- Reorganización de la estructura de comandos de Tauri y mejora de la seguridad de tipos

Solución de problemas e instalación manual de modelos

En entornos con restricciones de red, los modelos pueden descargarse e instalarse manualmente
Crea una carpeta models dentro del directorio de datos de la app y coloca allí los archivos del modelo
- Modelos Whisper: copiar directamente los archivos .bin
- Modelos Parakeet: descomprimir .tar.gz y mantener el nombre de carpeta especificado
Tras la instalación, al reiniciar la app los modelos se detectan automáticamente

Cómo contribuir

Revisar los issues en GitHub, luego crear un fork y una rama
Probar suficientemente en la plataforma objetivo antes de enviar un Pull Request
También se puede participar en la comunidad por correo electrónico (contact@handy.computer) o Discord
El objetivo es ofrecer una base que la comunidad pueda desarrollar mediante una base de código simple y bien estructurada

Proyectos relacionados y licencia

Handy CLI: versión de línea de comandos basada en Python
handy.computer: sitio web oficial y demo
Distribuido bajo la licencia MIT
Basado en proyectos de código abierto como Whisper (OpenAI), Silero y Tauri

Cita

“Handy puede poner fin a tu búsqueda de una herramienta de reconocimiento de voz no porque sea perfecta, sino porque tú puedes hacerla perfecta.”

1 comentarios

GN⁺ 2026-01-17

Opiniones de Hacker News

He probado varias apps de STT, pero al final me quedé con VoiceInk (local, pago único)
Con Parakeet V3 responde casi al instante y tiene suficiente precisión
A menudo uso una rutina en la que le hablo a un agente de CLI y le pido: “dime cómo entendiste lo que dije”
Así verifico la comprensión y además sirve como una especie de especificación
Últimamente también probé la combinación Handy + Parakeet v3 y funciona muy bien, así que pienso usarla unos días
Si activas la UI de “debug” con Cmd‑Shift‑D, también puedes ver opciones extra como post‑processing o agregar espacios
- Estaría bueno que uno de estos modelos estuviera especializado en programación
  Quiero poder dictar comandos como “cd ~/projects” o “git push --force”
Tengo distonía (dystonia), así que cuando se me entumecen los brazos no puedo usar el teclado
Por eso una app de TTS como SuperWhisper me ha ayudado mucho
Espero que Handy ofrezca una experiencia parecida
Pero creo que, para evolucionar al siguiente nivel, hace falta ir más allá de solo convertir voz en texto y añadir expansión basada en contexto
Por ejemplo, que al dictar código dentro de un IDE se genere código real
Al final, la dirección es combinar TTS con el uso de la computadora
- Yo hice una herramienta de CLI llamada ultraplan
  Registra voz con Whisper local y guarda en una línea de tiempo cosas como capturas de pantalla y contenido del portapapeles
  Después, un agente como Claude Code lee esa línea de tiempo y continúa el trabajo
  También permite control manos libres, por ejemplo tomar una captura al decir “marco”
  Si quieres, puedo ordenarlo y subirlo a GitHub
- Estoy de acuerdo con lo que dices. Por eso publiqué Handy como código abierto
  También hay experimentos para entender el contexto de la computadora usando modelos locales pequeños (moondream, qwen, etc.)
  Cuando me rompí un dedo hace tiempo, mapeé atajos a Handy e implementé un control contextual simple
- “Programar con la voz” se ha investigado mucho desde antes de los LLM
  Por ejemplo, está este caso de 2013: Using Voice to Code Faster than Keyboard
  Y como investigación más reciente, también está este artículo
- Lo que mencionas ya es posible
  Si metes la salida de STT a un LLM, puede inferir la intención y generar un conjunto de comandos
  En CLI es fácil convertir comandos de voz directamente en comandos de shell
  En GUI es un poco más complejo porque hace falta conocer el estado de la pantalla
  MacWhisper en macOS puede enviar el texto transcrito a un endpoint compatible con OpenAI
Aquí va una reseña breve tras probar varias apps de transcripción de voz
Superwhisper es de pago, pero tiene opción de licencia vitalicia y muchas funciones. Lo mantiene una sola persona, así que a veces tiene bugs
Hex es la opción gratuita más ligera y limpia
Fluid Voice tiene una función poco común que muestra texto en tiempo real mientras hablas
Handy tiene una UI rosa muy linda y me gusta su ventana de historial. La configuración para restaurar el portapapeles es un poco peculiar
Al instalar varias apps alternándolas sí tuve algunos conflictos
Gracias a que Nvidia liberó Parakeet como código abierto, todas son muy rápidas
Yo prefiero la función de streaming de transcripción en tiempo real: ver algo al instante aunque sea de menor calidad, y que luego se reemplace por una versión de mayor calidad
Después de buscar apps de STT durante varias semanas, encontré Handy
La mayoría eran de pago o por suscripción y hasta pensé en hacer una yo mismo, pero Handy es rápido, simple y no estorba
Además recibe actualizaciones constantes, así que estoy realmente satisfecho
La función de post‑processing también suena muy bien
Estoy usando Wispr Flow, pero para cambiarme necesito una función de diccionario de usuario para palabras que suele fallar seguido (nombres de empresas, personas, bibliotecas, etc.)
- Creo que te refieres a una función llamada “Custom Words”. Todavía no he podido probarla bien
- Un PR relacionado se va a fusionar pronto, así que quizá puedas compilarlo antes y usarlo
- Algunos modelos muestran la confianza (confidence) por palabra
  Agregar palabras manualmente está bien, pero si marcara las palabras inciertas sería más fácil corregirlo
Hay algo que tener en cuenta
El atajo predeterminado es Ctrl+Space, y la transcripción se inserta en cuanto sueltas la tecla
Si Ctrl sigue presionada en ese momento, el texto transcrito se interpreta como caracteres de Ctrl
El entorno de prueba fue Linux x64, X11 y Emacs
Uso Handy con Parakeet v3 y de verdad es excelente
También probé Monologue, Superwhisper y Aqua, pero Handy corre localmente y no tiene suscripción
Lo recomiendo mucho
Me pregunto si alguien lo ha comparado con OpenWhispr
Por la descripción parecen similares. Handy tuvo su primer lanzamiento en junio de 2025 y OpenWhispr salió un mes después
Handy tiene 11k estrellas en GitHub y OpenWhispr unas 730
- He usado ambos, y Handy fue mucho más simple porque se podía instalar directamente como app de macOS
  En ese momento OpenWhispr no tenía el modelo Parakeet y la UI tampoco se sentía tan pulida
  Gracias a la UI minimalista de Handy, usarlo es muy intuitivo
  Le faltan funciones avanzadas, pero llevo dos meses usándolo y no pienso buscar otra app de STT
En mi MacBook M1 Air, Handy va muy rápido y es más preciso que el STT nativo de macOS
La configuración también es lo bastante simple como para usarla cómodamente
Me preguntaba qué era la opción “discharging the model”, pero no parece afectar ni la RAM ni la CPU
- Es una función para mantener el modelo residente en RAM y acceder a él rápido
  Si se descarga, se saca de memoria y el arranque se vuelve más lento
El modelo Parakeet V3 es realmente excelente

Handy – app gratuita y de código abierto de reconocimiento de voz

Descripción general

La filosofía de Handy

Cómo funciona

Arquitectura

Problemas conocidos y limitaciones

Requisitos del sistema

Hoja de ruta de desarrollo

Solución de problemas e instalación manual de modelos

Cómo contribuir

Proyectos relacionados y licencia

Cita

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News