Pi-C.A.R.D
Índice
- Introducción
- Uso
- Hardware
- Configuración
Introducción
- Pi-card es un asistente de voz basado en IA que se ejecuta completamente en una Raspberry Pi.
- Puede hacer todo lo que puede hacer un LLM estándar como ChatGPT en un contexto de conversación general.
- Si tiene una cámara conectada, puedes pedirle a Pi-card que tome una foto, describa lo que ve y responder preguntas sobre esa imagen.
¿Por qué Pi-card?
- Es el acrónimo de Raspberry Pi - C amera A udio R ecognition D evice.
- Se pide que, si a alguien se le ocurre un acrónimo mejor, envíe un issue o un pull request.
¿Cómo funciona?
- Pi-card se ejecuta completamente en la Raspberry Pi.
- Cuando se inicia el programa principal, el sistema comienza a escuchar la palabra de activación.
- Al decir la palabra de activación, empieza la conversación, y durante la charla no es necesario repetirla constantemente.
- Seguirá escuchando comandos hasta que digas algo como "detente", "salir" o "adiós".
- Durante la conversación, el sistema mantiene memoria para poder retomar temas anteriores o explicarlos con más detalle.
- El sistema está diseñado para funcionar totalmente en local, pero se pueden conectar APIs o servicios externos para mejorar la conversación o controlar dispositivos externos.
- Por ejemplo, si dices "toma una foto" o "qué ves", se activa la cámara.
¿Qué tan útil es?
- Este sistema fue diseñado como un proyecto divertido y es un asistente de IA moderadamente útil.
- Como todo se hace en local, no es tan rápido ni tan capaz como un sistema basado en la nube.
- Aun así, todavía tiene mucho margen de mejora.
¿Por qué no una app?
- La idea era crear un asistente de voz que funcionara completamente offline y no necesitara conexión a internet.
- Esto busca proteger la privacidad del usuario y evitar que sus datos se envíen a servidores de terceros.
Uso
- Después de descargar el repositorio, instalar los requisitos y seguir las demás instrucciones de configuración, puedes ejecutar el programa principal con el siguiente comando:
python assistant.py
- Cuando el programa esté en ejecución, puedes empezar a hablar con el asistente diciendo la palabra de activación.
- La palabra de activación predeterminada es "hey assistant", pero se puede cambiar en el archivo
config.py.
Hardware
- Raspberry Pi 5 Model B
- Micrófono USB
- Bocina
- Cámara
Configuración
Software
- Para mantener el sistema lo más rápido y liviano posible, se usan implementaciones en cpp para la transcripción de audio y el modelo de lenguaje con visión.
- La transcripción de audio usa la biblioteca whipser.cpp, y el modelo de lenguaje con visión usa la biblioteca llama.cpp.
- Debes clonar cada repositorio en la ubicación que prefieras y agregar las rutas al archivo
config.py.
- Después de clonarlos, entra a cada repositorio y sigue las instrucciones de configuración para ejecutar los modelos.
Hardware
- La configuración del hardware es muy sencilla.
- Se necesita una Raspberry Pi 5 Model B, un micrófono USB, una bocina y una cámara.
- El micrófono USB y la bocina pueden conectarse a los puertos USB de la Raspberry Pi.
- La cámara puede conectarse al puerto de cámara de la Raspberry Pi.
- Hardware utilizado:
- Kit de Raspberry Pi 5
- Micrófono USB
- Bocina
- Cámara
- Conector para cámara
- La Pi 5 tiene un puerto de cámara nuevo, así que se necesita un conector de cámara nuevo.
Opinión de GN⁺
- Pi-card es un proyecto interesante que aprovecha la Raspberry Pi y permite explorar varias posibilidades mediante la combinación de IA y hardware.
- Como funciona completamente offline, tiene una gran ventaja en términos de protección de la privacidad.
- Puede rendir menos que un sistema basado en la nube, pero al ejecutarse en local refuerza la seguridad de los datos.
- Otros proyectos con funciones similares incluyen Mycroft AI y Jasper.
- Al adoptar esta tecnología, la configuración de hardware y software puede ser algo compleja, así que conviene prepararse con suficiente anticipación.
Aún no hay comentarios.