9 puntos por GN⁺ 2023-12-13 | 1 comentarios | Compartir por WhatsApp
  • Un asistente de IA con voz y visión que puede usarse en todas las aplicaciones de macOS
  • Al presionar el atajo de teclado y hacer una pregunta por voz, genera una respuesta hablada basada en el contexto actual
    • Toma una captura de pantalla de la ventana actual y la envía a OpenAI GPT Vision
    • La pregunta se transcribe usando la API de OpenAI Whisper y se envía junto con el texto
    • La respuesta de texto recibida se convierte en voz usando OpenAI TTS y se reproduce
  • Desarrollado con NodeJS/Electron
  • El atajo predeterminado es Cmd + Shift + '

1 comentarios

 
GN⁺ 2023-12-13
Comentarios en Hacker News
  • Pregunta si es mejor usar el término "macOS" en el prompt en lugar de "OSX", o si simplemente no le dio mucha importancia a lo que eligió al principio.

    • Quien publicó comenta que estuvo hojeando el video y le surgió la duda.
    • Comparte un enlace al código relacionado.
  • En respuesta, sugieren agregar una opción de texto en streaming en lugar de TTS.

    • También plantean considerar el uso de texto en vez de comandos de voz.
    • Comparten su experiencia de haber probado durante mucho tiempo asistentes de este tipo y proponen ponerse en contacto por Discord.
  • Mencionan que escribieron un script similar para una configuración de Linux.

    • Lo vincularon con atajos de teclado de XFCE.
    • Comentan que no usan el script con mucha frecuencia.
  • Recomiendan establecer un límite de gasto al usar la API de OpenAI.

    • Advierten que uno puede darse cuenta muy rápido de la diferencia de costos entre los modelos de texto y de visión.
    • Verifican que el precio es parecido y lo evalúan positivamente.
  • Reacción positiva al proyecto.

    • Mencionan que las capturas de pantalla podrían ayudar a aclarar las partes confusas.
    • Preguntan si hay alguna forma de ocultar la ventana cuando no se está usando.
  • Preguntan si hay planes de hacer que el proyecto funcione con LLMs locales en lugar de "open"AI.

  • Opinan que les gustaría construir algo integrado directamente en la terminal.

    • Mencionan que evitar capturas de pantalla y trabajar directamente desde la terminal sería más simple.
    • Incluyen un ejemplo de código con el formato de darle instrucciones a una IA desde la terminal.
    • Se lamentan de lo difícil que es encontrar tiempo en medio de una vida ocupada.
  • Reacción negativa ante la información de que "macOSpilot usa NodeJS/Electron".

  • Comparten su experiencia usándolo con la estación de trabajo de audio digital Ableton Live.

    • Lo evalúan muy positivamente, diciendo que parece muy útil y que ahorraría tiempo.
    • Comparten un enlace a un video interactivo.
    • Cuestionan los comentarios negativos.
  • Comparten una fantasía sobre la productividad mientras esperan el resultado del comando ls.