Ghost Pepper – app local de voz a texto para macOS
(github.com/matthartman)- App de reconocimiento de voz local para macOS que convierte automáticamente lo que dices en texto y lo pega cuando mantienes presionada la tecla Control mientras hablas
- Todo el reconocimiento de voz y el proceso de limpieza del texto se realizan solo de forma local, lo que garantiza la protección de la privacidad sin enviar datos a la nube
- Basada en WhisperKit y LLM.swift, descarga automáticamente modelos de Hugging Face y los guarda en caché
- La función de limpieza inteligente elimina muletillas innecesarias y corrige expresiones de autocorrección, y se ejecuta en segundo plano como app de barra de menú
- Publicada como open source con licencia MIT y funciona en Apple Silicon con macOS 14 o superior
Descripción general
- Ghost Pepper es una app completamente local de voz a texto para macOS que ofrece la función de mantener presionada la tecla Control, hablar y al soltarla convertir automáticamente a texto y pegarlo
- No usa APIs en la nube, y todos los datos y modelos se procesan solo de forma local
- Funciona en macOS 14.0 o superior basado en Apple Silicon (M1 o posterior)
- Se ejecuta como app de barra de menú y puede iniciarse automáticamente al iniciar sesión
- Es un proyecto open source publicado bajo licencia MIT
Funciones principales
- Mantén presionada la tecla Control y habla → al soltar la tecla, realiza automáticamente la transcripción a texto y el pegado
- Arquitectura de ejecución local: tanto el reconocimiento de voz como el modelo de posprocesamiento funcionan dentro de la Mac
- La función de limpieza inteligente elimina muletillas innecesarias (
uh,um, etc.) y corrige automáticamente expresiones de autocorrección - Interfaz exclusiva de barra de menú que funciona en segundo plano sin icono en el Dock
- Soporte de configuración de usuario: permite modificar el prompt de limpieza, elegir micrófono y activar/desactivar funciones
Cómo funciona
- Todos los modelos están basados en open source y, en la primera ejecución, se descargan automáticamente y se guardan en caché local
- El reconocimiento de voz se realiza con WhisperKit y la limpieza del texto con LLM.swift
- Los archivos de modelo se ofrecen a través de Hugging Face
-
Modelos de reconocimiento de voz
- Whisper tiny.en (~75MB): el modelo en inglés más rápido
- Whisper small.en (~466MB): valor predeterminado, modelo en inglés de alta precisión
- Whisper small (multilingual): soporte multilingüe
- Parakeet v3 (~1.4GB): soporte para 25 idiomas, basado en FluidAudio
-
Modelos de limpieza de texto
- Qwen 3.5 0.8B (~535MB): valor predeterminado, procesa en aproximadamente 1~2 segundos
- Qwen 3.5 2B (~1.3GB): velocidad de procesamiento rápida (aprox. 4~5 segundos)
- Qwen 3.5 4B (~2.8GB): mejor calidad (aprox. 5~7 segundos)
Instalación y ejecución
-
Instalación de la app
- Descarga GhostPepper.dmg
- Abre el DMG y arrastra la app a la carpeta Applications
- Permite los permisos de micrófono y accesibilidad
- Empieza a usarla con mantener presionada la tecla Control y hablar
-
Compilar desde el código fuente
- Clona el repositorio
- Abre
GhostPepper.xcodeprojen Xcode - Compila y ejecuta con Cmd+R
Requisitos de permisos
| Permiso | Propósito |
|---|---|
| Microphone | Grabación de voz |
| Accessibility | Ejecutar atajo global y pegado automático |
Información adicional
- Inicio automático al iniciar sesión está activado por defecto y puede desactivarse en la configuración
- No se guardan logs en disco — el texto transcrito no se registra en archivos, y los logs de depuración se mantienen solo en memoria y se eliminan al cerrar la app
Stack técnico y dependencias
- WhisperKit: motor de reconocimiento de voz
- LLM.swift: LLM local para limpieza de texto
- Hugging Face: hosting de modelos
- Sparkle: gestión de actualizaciones de apps macOS
Significado del nombre
- Todos los modelos se ejecutan solo de forma local, por lo que los datos personales no se envían al exterior
- El nombre Ghost Pepper simboliza una función potente ofrecida gratuitamente
Soporte para empresas y dispositivos administrados
- La app requiere permiso de Accessibility y, por lo general, privilegios de administrador
- En entornos MDM (Jamf, Kandji, Mosaic, etc.), se puede preaprobar mediante un perfil PPPC (Privacy Preferences Policy Control)
- Bundle ID:
com.github.matthartman.ghostpepper - Team ID:
BBVMGXR9AY - Permission: Accessibility (
com.apple.security.accessibility)
- Bundle ID:
1 comentarios
Comentarios en Hacker News
Esta app está realmente genial. Pero cada vez que la veo me acuerdo de mi Pixel 6
Es un modelo de 2021, pero convierte voz a texto incluso sin conexión y además corrige automáticamente según el contexto. Incluso si sigo hablando, vuelve a corregir las frases anteriores.
Me sorprende que Google haya incorporado esta tecnología 5 años antes que Whisper o Qwen. Pero entonces me pregunto por qué ahora hace falta un modelo transformer de 1 GB en plataformas más potentes
Google apoyó el entrenamiento de este modelo hace unos 10 años, y todavía es bastante bueno.
Está integrado en navegadores basados en Webkit o Blink, así que varios sitios web lo usan como un frontend simple.
Pero el modelo en sí viene como un blob privado, por eso Firefox no lo soporta
Documentación de MDN / Demo de Chrome
Yo estaba en ese equipo, pero como no había personal de mantenimiento, se abandonó el modelo offline y se cambió a uno solo en línea.
No fue por una razón técnica, sino simplemente por falta de personal de mantenimiento
En Android uso Futo, y en macOS MacWhisper. Son mucho mejores que el modelo base de Apple
En cambio, los modelos locales de STT de código abierto como Whisper o Parakeet son mucho más potentes.
Se ven menos afectados por ruido de fondo o murmullos.
Trabajo en Voice AI, así que uso estos modelos todos los días, y la diferencia en la práctica es realmente grande
La app está muy bien hecha. Si pudiera dar feedback:
primero, hace mucha falta una función para pegar automáticamente desde el portapapeles. Estaría bueno que no hubiera que presionar un atajo o que al menos fuera configurable
segundo, es un poco más lenta que otras soluciones. Eso afecta bastante la usabilidad
tercero, estaría bien tener control de formato. Por ejemplo, que al decir “new line” lo reconozca como un salto de línea real
Este hilo parece un grupo de apoyo de gente que hizo su propia app de voz→texto para macOS
Hace poco también agregué Ghost Pepper, y hasta puedes crear un
skill.mdcon las funciones que necesites y construir tu propia appEn una categoría saturada, hay que explicar claramente qué diferencia a tu app de las demás
Post relacionado
KeyVox GitHub
El rendimiento es casi igual al de Wispr Flow, y corre completamente en local
Como usuario de Linux, desarrollé Hyprwhspr
Con GPU, el modelo más reciente de Cohere Transcribe rinde muy bien.
Me pregunto si compararon WhisperKit con faster-whisper o turbov3.
Tengo la esperanza de que Apple pronto lance un STT nativo
También me gustaría saber por qué hicieron uno nuevo en vez de mejorar un proyecto existente
La precisión era suficiente, así que no necesité un modelo de limpieza.
Pero con audios largos de más de 30 segundos sí se nota la latencia. Me da curiosidad cómo maneja WhisperKit el audio largo
¿Alguna vez consideraste una función de PTT con pedal (Push-To-Talk)?
Apple ya tiene STT, pero la calidad del modelo todavía deja que desear
El speech-to-text es clave en mi flujo de desarrollo.
Es especialmente útil cuando le dicto prompts a un LLM o a agentes de programación.
Reuní las mejores herramientas open source de entrada por voz por plataforma en este repositorio de GitHub
Yo escribo a 120 palabras por minuto, así que para mí hablar es mucho más lento.
Más allá de accesibilidad, sinceramente me pregunto si esto es para gente que escribe lento o para programar tirado en el sofá
¿No existe ya una app como Handy?
Gracias por compartir. Me gusta que se enfoque en velocidad local y privacidad
Yo uso Hex, que tiene objetivos parecidos, y me interesa saber cómo ves la diferencia entre ambas apps
Hoy en día, mientras los LLM local-first se vuelvan más pequeños, parece que van a convertirse en la infraestructura clave del desarrollo de apps
Igual que antes Electron facilitó crear apps bonitas, ahora solo hay que sacrificar un poco de RAM
Blog relacionado
Hay muchos proyectos relacionados con Whisper, y me pregunto si se trata del modelo viejo de OpenAI o de una versión actualizada
Yo uso Parakeet v3, que es pequeño y excelente. Por eso me intriga por qué Whisper sigue siendo tan popular
Tiene menos alucinaciones que los modelos nuevos y además corre fácil en GPU de AMD.
Yo mismo porté Parakeet, pero al final volví a Whisper
Pero uso mucho polaco y terminología especializada, así que Whisper v3 me funciona mejor
Por eso su fortaleza es que se puede ajustar al entorno del sistema
También conecté un servidor de Parakeet a un teléfono con GrapheneOS
Post relacionado
El proyecto realmente me gusta y quisiera integrarlo en mi workflow.
Pero la frase de que “lo ofrecen gratis comparándose con un gran laboratorio de IA financiado con $80M” me hace un poco de ruido.
Esto no se siente tanto como algo rebelde, sino más bien como un trabajo en continuidad con investigación ya existente.
Describirlo como “spicy” me parece un poco exagerado