2 puntos por GN⁺ 2026-01-17 | 1 comentarios | Compartir por WhatsApp
  • Handy es una app de escritorio gratuita y de código abierto de voz a texto que funciona completamente sin conexión, con un diseño centrado en la privacidad
  • Está desarrollada sobre Tauri (Rust + React/TypeScript), con una estructura en la que presionas un atajo de teclado, hablas y tu voz se escribe directamente en el campo de texto
  • Soporta los modelos Whisper y Parakeet V3, y realiza reconocimiento de voz localmente con aceleración por GPU o basado en CPU
  • Funciona en Windows, macOS y Linux, y fue diseñada con énfasis en la extensibilidad y facilidad para hacer forks, fomentando las contribuciones de desarrolladores
  • Como herramienta de entrada por voz centrada en la privacidad que procesa todo localmente sin enviar datos a la nube, ofrece alta accesibilidad y posibilidades de personalización

Descripción general

  • Handy es una aplicación de reconocimiento de voz gratuita, de código abierto y extensible que funciona completamente sin conexión a internet
  • Está basada en el framework Tauri y combina un backend en Rust con un frontend en React/TypeScript
  • El usuario presiona un atajo de teclado para hablar y, al soltarlo, los modelos Whisper o Parakeet V3 convierten la voz en texto y la pegan en la aplicación actual
  • Todos los datos de voz se procesan localmente, por lo que no hay riesgo de filtración de información personal

La filosofía de Handy

  • Gratis: las herramientas de accesibilidad deben estar disponibles para cualquiera
  • Código abierto: cualquiera puede ampliar y mejorar sus funciones
  • Privacidad garantizada: los datos de voz no se envían a la nube
  • Simplicidad: se enfoca en un solo objetivo, convertir voz en texto
  • La meta no es crear la app “más perfecta”, sino la app “más fácil de forkear”

Cómo funciona

  • El usuario puede iniciar o detener la grabación con un atajo de teclado o usar el modo push-to-talk
  • Usa Silero VAD para filtrar los silencios y convierte la voz con los modelos Whisper o Parakeet V3
    • Modelos Whisper: versiones Small, Medium, Turbo y Large, con soporte de aceleración por GPU
    • Parakeet V3: optimizado para CPU, incluye detección automática de idioma
  • El texto convertido se inserta automáticamente en el campo de entrada de la aplicación en uso
  • Compatible con Windows, macOS y Linux

Arquitectura

  • Frontend: React + TypeScript + Tailwind CSS
  • Backend: basado en Rust, encargado del procesamiento de audio y la inferencia de aprendizaje automático
  • Bibliotecas principales
    • whisper-rs: reconocimiento de voz local con modelos Whisper
    • transcription-rs: reconocimiento con modelos Parakeet en CPU
    • cpal: entrada y salida de audio
    • vad-rs: detección de actividad de voz
    • rdev: atajos globales y manejo de eventos del sistema
    • rubato: remuestreo de audio
  • Modo de depuración: accesible con Cmd+Shift+D (macOS) o Ctrl+Shift+D (Windows/Linux)

Problemas conocidos y limitaciones

  • Fallos con modelos Whisper: existen problemas de cierre inesperado del modelo en algunos entornos Windows/Linux
  • Soporte limitado para Wayland: en Linux con Wayland se requiere instalar wtype o dotool
  • Herramientas de entrada de texto
    • X11: xdotool
    • Wayland: wtype o dotool
    • Si estas herramientas no están instaladas, se usa enigo como alternativa, aunque con limitaciones de compatibilidad
  • Superposición desactivada por defecto en Linux: viene apagada para evitar conflictos de foco

Requisitos del sistema

  • Para modelos Whisper
    • macOS: Mac con chip serie M o Intel
    • Windows/Linux: GPU Intel, AMD o NVIDIA (se recomienda Ubuntu 22.04/24.04)
  • Para el modelo Parakeet V3
    • Solo CPU; se recomienda Intel Skylake (6.ª generación) o superior
    • Aproximadamente 5 veces más rápido que tiempo real en hardware de gama media
    • Incluye detección automática de idioma

Hoja de ruta de desarrollo

  • Funciones en progreso
    • Añadir archivos de registro de depuración
    • Mejoras de atajos en macOS (soporte para la tecla Globe, reescritura del manejo de atajos globales)
    • Analítica opcional: recopilación anónima de datos de uso basada en consentimiento explícito
    • Refactorización del sistema de configuración y mejora de abstracciones
    • Reorganización de la estructura de comandos de Tauri y mejora de la seguridad de tipos

Solución de problemas e instalación manual de modelos

  • En entornos con restricciones de red, los modelos pueden descargarse e instalarse manualmente
  • Crea una carpeta models dentro del directorio de datos de la app y coloca allí los archivos del modelo
    • Modelos Whisper: copiar directamente los archivos .bin
    • Modelos Parakeet: descomprimir .tar.gz y mantener el nombre de carpeta especificado
  • Tras la instalación, al reiniciar la app los modelos se detectan automáticamente

Cómo contribuir

  • Revisar los issues en GitHub, luego crear un fork y una rama
  • Probar suficientemente en la plataforma objetivo antes de enviar un Pull Request
  • También se puede participar en la comunidad por correo electrónico (contact@handy.computer) o Discord
  • El objetivo es ofrecer una base que la comunidad pueda desarrollar mediante una base de código simple y bien estructurada

Proyectos relacionados y licencia

  • Handy CLI: versión de línea de comandos basada en Python
  • handy.computer: sitio web oficial y demo
  • Distribuido bajo la licencia MIT
  • Basado en proyectos de código abierto como Whisper (OpenAI), Silero y Tauri

Cita

  • Handy puede poner fin a tu búsqueda de una herramienta de reconocimiento de voz no porque sea perfecta, sino porque tú puedes hacerla perfecta.”

1 comentarios

 
GN⁺ 2026-01-17
Opiniones de Hacker News
  • He probado varias apps de STT, pero al final me quedé con VoiceInk (local, pago único)
    Con Parakeet V3 responde casi al instante y tiene suficiente precisión
    A menudo uso una rutina en la que le hablo a un agente de CLI y le pido: “dime cómo entendiste lo que dije”
    Así verifico la comprensión y además sirve como una especie de especificación
    Últimamente también probé la combinación Handy + Parakeet v3 y funciona muy bien, así que pienso usarla unos días
    Si activas la UI de “debug” con Cmd‑Shift‑D, también puedes ver opciones extra como post‑processing o agregar espacios
    • Estaría bueno que uno de estos modelos estuviera especializado en programación
      Quiero poder dictar comandos como “cd ~/projects” o “git push --force”
  • Tengo distonía (dystonia), así que cuando se me entumecen los brazos no puedo usar el teclado
    Por eso una app de TTS como SuperWhisper me ha ayudado mucho
    Espero que Handy ofrezca una experiencia parecida
    Pero creo que, para evolucionar al siguiente nivel, hace falta ir más allá de solo convertir voz en texto y añadir expansión basada en contexto
    Por ejemplo, que al dictar código dentro de un IDE se genere código real
    Al final, la dirección es combinar TTS con el uso de la computadora
    • Yo hice una herramienta de CLI llamada ultraplan
      Registra voz con Whisper local y guarda en una línea de tiempo cosas como capturas de pantalla y contenido del portapapeles
      Después, un agente como Claude Code lee esa línea de tiempo y continúa el trabajo
      También permite control manos libres, por ejemplo tomar una captura al decir “marco”
      Si quieres, puedo ordenarlo y subirlo a GitHub
    • Estoy de acuerdo con lo que dices. Por eso publiqué Handy como código abierto
      También hay experimentos para entender el contexto de la computadora usando modelos locales pequeños (moondream, qwen, etc.)
      Cuando me rompí un dedo hace tiempo, mapeé atajos a Handy e implementé un control contextual simple
    • “Programar con la voz” se ha investigado mucho desde antes de los LLM
      Por ejemplo, está este caso de 2013: Using Voice to Code Faster than Keyboard
      Y como investigación más reciente, también está este artículo
    • Lo que mencionas ya es posible
      Si metes la salida de STT a un LLM, puede inferir la intención y generar un conjunto de comandos
      En CLI es fácil convertir comandos de voz directamente en comandos de shell
      En GUI es un poco más complejo porque hace falta conocer el estado de la pantalla
      MacWhisper en macOS puede enviar el texto transcrito a un endpoint compatible con OpenAI
  • Aquí va una reseña breve tras probar varias apps de transcripción de voz
    Superwhisper es de pago, pero tiene opción de licencia vitalicia y muchas funciones. Lo mantiene una sola persona, así que a veces tiene bugs
    Hex es la opción gratuita más ligera y limpia
    Fluid Voice tiene una función poco común que muestra texto en tiempo real mientras hablas
    Handy tiene una UI rosa muy linda y me gusta su ventana de historial. La configuración para restaurar el portapapeles es un poco peculiar
    Al instalar varias apps alternándolas sí tuve algunos conflictos
    Gracias a que Nvidia liberó Parakeet como código abierto, todas son muy rápidas
    Yo prefiero la función de streaming de transcripción en tiempo real: ver algo al instante aunque sea de menor calidad, y que luego se reemplace por una versión de mayor calidad
  • Después de buscar apps de STT durante varias semanas, encontré Handy
    La mayoría eran de pago o por suscripción y hasta pensé en hacer una yo mismo, pero Handy es rápido, simple y no estorba
    Además recibe actualizaciones constantes, así que estoy realmente satisfecho
    La función de post‑processing también suena muy bien
  • Estoy usando Wispr Flow, pero para cambiarme necesito una función de diccionario de usuario para palabras que suele fallar seguido (nombres de empresas, personas, bibliotecas, etc.)
    • Creo que te refieres a una función llamada “Custom Words”. Todavía no he podido probarla bien
    • Un PR relacionado se va a fusionar pronto, así que quizá puedas compilarlo antes y usarlo
    • Algunos modelos muestran la confianza (confidence) por palabra
      Agregar palabras manualmente está bien, pero si marcara las palabras inciertas sería más fácil corregirlo
  • Hay algo que tener en cuenta
    El atajo predeterminado es Ctrl+Space, y la transcripción se inserta en cuanto sueltas la tecla
    Si Ctrl sigue presionada en ese momento, el texto transcrito se interpreta como caracteres de Ctrl
    El entorno de prueba fue Linux x64, X11 y Emacs
  • Uso Handy con Parakeet v3 y de verdad es excelente
    También probé Monologue, Superwhisper y Aqua, pero Handy corre localmente y no tiene suscripción
    Lo recomiendo mucho
  • Me pregunto si alguien lo ha comparado con OpenWhispr
    Por la descripción parecen similares. Handy tuvo su primer lanzamiento en junio de 2025 y OpenWhispr salió un mes después
    Handy tiene 11k estrellas en GitHub y OpenWhispr unas 730
    • He usado ambos, y Handy fue mucho más simple porque se podía instalar directamente como app de macOS
      En ese momento OpenWhispr no tenía el modelo Parakeet y la UI tampoco se sentía tan pulida
      Gracias a la UI minimalista de Handy, usarlo es muy intuitivo
      Le faltan funciones avanzadas, pero llevo dos meses usándolo y no pienso buscar otra app de STT
  • En mi MacBook M1 Air, Handy va muy rápido y es más preciso que el STT nativo de macOS
    La configuración también es lo bastante simple como para usarla cómodamente
    Me preguntaba qué era la opción “discharging the model”, pero no parece afectar ni la RAM ni la CPU
    • Es una función para mantener el modelo residente en RAM y acceder a él rápido
      Si se descarga, se saca de memoria y el arranque se vuelve más lento
  • El modelo Parakeet V3 es realmente excelente