Ghost Pepper – app local de voz a texto para macOS

(github.com/matthartman)

4 puntos por GN⁺ 24 일 전 | 1 comentarios | Compartir por WhatsApp

App de reconocimiento de voz local para macOS que convierte automáticamente lo que dices en texto y lo pega cuando mantienes presionada la tecla Control mientras hablas
Todo el reconocimiento de voz y el proceso de limpieza del texto se realizan solo de forma local, lo que garantiza la protección de la privacidad sin enviar datos a la nube
Basada en WhisperKit y LLM.swift, descarga automáticamente modelos de Hugging Face y los guarda en caché
La función de limpieza inteligente elimina muletillas innecesarias y corrige expresiones de autocorrección, y se ejecuta en segundo plano como app de barra de menú
Publicada como open source con licencia MIT y funciona en Apple Silicon con macOS 14 o superior

Descripción general

Ghost Pepper es una app completamente local de voz a texto para macOS que ofrece la función de mantener presionada la tecla Control, hablar y al soltarla convertir automáticamente a texto y pegarlo
No usa APIs en la nube, y todos los datos y modelos se procesan solo de forma local
Funciona en macOS 14.0 o superior basado en Apple Silicon (M1 o posterior)
Se ejecuta como app de barra de menú y puede iniciarse automáticamente al iniciar sesión
Es un proyecto open source publicado bajo licencia MIT

Funciones principales

Mantén presionada la tecla Control y habla → al soltar la tecla, realiza automáticamente la transcripción a texto y el pegado
Arquitectura de ejecución local: tanto el reconocimiento de voz como el modelo de posprocesamiento funcionan dentro de la Mac
La función de limpieza inteligente elimina muletillas innecesarias (uh, um, etc.) y corrige automáticamente expresiones de autocorrección
Interfaz exclusiva de barra de menú que funciona en segundo plano sin icono en el Dock
Soporte de configuración de usuario: permite modificar el prompt de limpieza, elegir micrófono y activar/desactivar funciones

Cómo funciona

Todos los modelos están basados en open source y, en la primera ejecución, se descargan automáticamente y se guardan en caché local
El reconocimiento de voz se realiza con WhisperKit y la limpieza del texto con LLM.swift
Los archivos de modelo se ofrecen a través de Hugging Face
Modelos de reconocimiento de voz
- Whisper tiny.en (~75MB): el modelo en inglés más rápido
- Whisper small.en (~466MB): valor predeterminado, modelo en inglés de alta precisión
- Whisper small (multilingual): soporte multilingüe
- Parakeet v3 (~1.4GB): soporte para 25 idiomas, basado en FluidAudio
Modelos de limpieza de texto
- Qwen 3.5 0.8B (~535MB): valor predeterminado, procesa en aproximadamente 1~2 segundos
- Qwen 3.5 2B (~1.3GB): velocidad de procesamiento rápida (aprox. 4~5 segundos)
- Qwen 3.5 4B (~2.8GB): mejor calidad (aprox. 5~7 segundos)

Instalación y ejecución

Instalación de la app
1. Descarga GhostPepper.dmg
2. Abre el DMG y arrastra la app a la carpeta Applications
3. Permite los permisos de micrófono y accesibilidad
4. Empieza a usarla con mantener presionada la tecla Control y hablar
Compilar desde el código fuente
1. Clona el repositorio
2. Abre GhostPepper.xcodeproj en Xcode
3. Compila y ejecuta con Cmd+R

Requisitos de permisos

Permiso	Propósito
Microphone	Grabación de voz
Accessibility	Ejecutar atajo global y pegado automático

Información adicional

Inicio automático al iniciar sesión está activado por defecto y puede desactivarse en la configuración
No se guardan logs en disco — el texto transcrito no se registra en archivos, y los logs de depuración se mantienen solo en memoria y se eliminan al cerrar la app

Stack técnico y dependencias

WhisperKit: motor de reconocimiento de voz
LLM.swift: LLM local para limpieza de texto
Hugging Face: hosting de modelos
Sparkle: gestión de actualizaciones de apps macOS

Significado del nombre

Todos los modelos se ejecutan solo de forma local, por lo que los datos personales no se envían al exterior
El nombre Ghost Pepper simboliza una función potente ofrecida gratuitamente

Soporte para empresas y dispositivos administrados

La app requiere permiso de Accessibility y, por lo general, privilegios de administrador
En entornos MDM (Jamf, Kandji, Mosaic, etc.), se puede preaprobar mediante un perfil PPPC (Privacy Preferences Policy Control)
- Bundle ID: com.github.matthartman.ghostpepper
- Team ID: BBVMGXR9AY
- Permission: Accessibility (com.apple.security.accessibility)

1 comentarios

GN⁺ 24 일 전

Comentarios en Hacker News

Esta app está realmente genial. Pero cada vez que la veo me acuerdo de mi Pixel 6
Es un modelo de 2021, pero convierte voz a texto incluso sin conexión y además corrige automáticamente según el contexto. Incluso si sigo hablando, vuelve a corregir las frases anteriores.
Me sorprende que Google haya incorporado esta tecnología 5 años antes que Whisper o Qwen. Pero entonces me pregunto por qué ahora hace falta un modelo transformer de 1 GB en plataformas más potentes
- Este es el mismo modelo que se usa en la WebSpeech API. Funciona completamente sin conexión
  Google apoyó el entrenamiento de este modelo hace unos 10 años, y todavía es bastante bueno.
  Está integrado en navegadores basados en Webkit o Blink, así que varios sitios web lo usan como un frontend simple.
  Pero el modelo en sí viene como un blob privado, por eso Firefox no lo soporta
  Documentación de MDN / Demo de Chrome
- Microsoft OneNote también tenía algo parecido por allá de 2007.
  Yo estaba en ese equipo, pero como no había personal de mantenimiento, se abandonó el modelo offline y se cambió a uno solo en línea.
  No fue por una razón técnica, sino simplemente por falta de personal de mantenimiento
- La precisión es bastante menor.
  En Android uso Futo, y en macOS MacWhisper. Son mucho mejores que el modelo base de Apple
- macOS e iOS también lo hacen con la función integrada de dictado. En Mac es tecla Globe + D
- Mi Pixel 7, de hecho, tiene una tasa de reconocimiento tan baja que casi no lo puedo usar.
  En cambio, los modelos locales de STT de código abierto como Whisper o Parakeet son mucho más potentes.
  Se ven menos afectados por ruido de fondo o murmullos.
  Trabajo en Voice AI, así que uso estos modelos todos los días, y la diferencia en la práctica es realmente grande
La app está muy bien hecha. Si pudiera dar feedback:
primero, hace mucha falta una función para pegar automáticamente desde el portapapeles. Estaría bueno que no hubiera que presionar un atajo o que al menos fuera configurable
segundo, es un poco más lenta que otras soluciones. Eso afecta bastante la usabilidad
tercero, estaría bien tener control de formato. Por ejemplo, que al decir “new line” lo reconozca como un salto de línea real
Este hilo parece un grupo de apoyo de gente que hizo su propia app de voz→texto para macOS
- Reuní todas las apps que hice aquí.
  Hace poco también agregué Ghost Pepper, y hasta puedes crear un skill.md con las funciones que necesites y construir tu propia app
- En el subreddit /r/macapps también hay demasiadas apps de whisper dictation.
  En una categoría saturada, hay que explicar claramente qué diferencia a tu app de las demás
  Post relacionado
- Yo también hice una, y más tarde vi KeyVox y terminé hablando con su creador.
  KeyVox GitHub
- Yo lo implementé en nixOS agregándole un indicador a Noctalia.
  El rendimiento es casi igual al de Wispr Flow, y corre completamente en local
- Al estilo clásico de Apple, espero que para macOS 27 o 28 ya venga como función integrada
Como usuario de Linux, desarrollé Hyprwhspr
Con GPU, el modelo más reciente de Cohere Transcribe rinde muy bien.
Me pregunto si compararon WhisperKit con faster-whisper o turbov3.
Tengo la esperanza de que Apple pronto lance un STT nativo
- Me pregunto cómo se compara con Handy.
  También me gustaría saber por qué hicieron uno nuevo en vez de mejorar un proyecto existente
- Yo corro Whisper large-v3 self-hosted en una M2 Max.
  La precisión era suficiente, así que no necesité un modelo de limpieza.
  Pero con audios largos de más de 30 segundos sí se nota la latencia. Me da curiosidad cómo maneja WhisperKit el audio largo
- Uso Hyprwhspr todos los días en Omarchy. Es realmente excelente
- Yo estaba por hacer algo parecido, así que gracias a esto ya no tengo que hacerlo.
  ¿Alguna vez consideraste una función de PTT con pedal (Push-To-Talk)?
  Apple ya tiene STT, pero la calidad del modelo todavía deja que desear
El speech-to-text es clave en mi flujo de desarrollo.
Es especialmente útil cuando le dicto prompts a un LLM o a agentes de programación.
Reuní las mejores herramientas open source de entrada por voz por plataforma en este repositorio de GitHub
- Me da curiosidad cómo usas el dictado en desarrollo.
  Yo escribo a 120 palabras por minuto, así que para mí hablar es mucho más lento.
  Más allá de accesibilidad, sinceramente me pregunto si esto es para gente que escribe lento o para programar tirado en el sofá
¿No existe ya una app como Handy?
- Hay varias cosas que no me terminan de convencer.
  1. En Linux se puede armar fácilmente un sistema parecido con una cuenta FTP, curlftpfs y SVN/CVS
  2. No reemplaza por completo a un USB. Para presentaciones offline todavía llevo una memoria USB
  3. No queda claro cuál es el modelo de negocio. Si lo ofrecen gratis, dudo que sea posible monetizarlo
- Handy es una herramienta realmente muy bien hecha
- Puede haber múltiples soluciones para resolver el mismo problema
- Sí, el speech-to-text ya existe
- Para mi caso de uso es perfecto. No hace falta tocar la UI de otras apps
Gracias por compartir. Me gusta que se enfoque en velocidad local y privacidad
Yo uso Hex, que tiene objetivos parecidos, y me interesa saber cómo ves la diferencia entre ambas apps
Hoy en día, mientras los LLM local-first se vuelvan más pequeños, parece que van a convertirse en la infraestructura clave del desarrollo de apps
Igual que antes Electron facilitó crear apps bonitas, ahora solo hay que sacrificar un poco de RAM
- Sí, al final parece que todo va a terminar siendo como ClaudeVM
  Blog relacionado
Hay muchos proyectos relacionados con Whisper, y me pregunto si se trata del modelo viejo de OpenAI o de una versión actualizada
Yo uso Parakeet v3, que es pequeño y excelente. Por eso me intriga por qué Whisper sigue siendo tan popular
- Whisper sigue siendo un modelo estable y confiable.
  Tiene menos alucinaciones que los modelos nuevos y además corre fácil en GPU de AMD.
  Yo mismo porté Parakeet, pero al final volví a Whisper
- Yo también estoy pensando en cambiarme a Parakeet.
  Pero uso mucho polaco y terminología especializada, así que Whisper v3 me funciona mejor
- Whisper soporta muchos idiomas y tiene varias versiones, desde tiny hasta turbo.
  Por eso su fortaleza es que se puede ajustar al entorno del sistema
- Yo también uso Parakeet con Voice Ink en macOS, y en casa corro Kokoro para voz→texto.
  También conecté un servidor de Parakeet a un teléfono con GrapheneOS
  Post relacionado
El proyecto realmente me gusta y quisiera integrarlo en mi workflow.
Pero la frase de que “lo ofrecen gratis comparándose con un gran laboratorio de IA financiado con $80M” me hace un poco de ruido.
Esto no se siente tanto como algo rebelde, sino más bien como un trabajo en continuidad con investigación ya existente.
Describirlo como “spicy” me parece un poco exagerado

Ghost Pepper – app local de voz a texto para macOS

Descripción general

Funciones principales

Cómo funciona

Modelos de reconocimiento de voz

Modelos de limpieza de texto

Instalación y ejecución

Instalación de la app

Compilar desde el código fuente

Requisitos de permisos

Información adicional

Stack técnico y dependencias

Significado del nombre

Soporte para empresas y dispositivos administrados

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News