LLaVaVision - web app estilo "Be My Eyes" creada con llama.cpp/llava
(github.com/lxe)- Implementa con IA un servicio similar a "Be My Eyes", que conecta a personas con discapacidad visual con voluntarios para leerles la pantalla
- Una web app que, mediante un backend multimodal, observa el video y explica en tiempo real qué es lo que aparece
- Ejecuta el modelo multimodal de código abierto BakLLaVA-1 de SkunkworksAI con llama.cpp, y la voz se reproduce con la Web Speech API
4 comentarios
Guau, cuando veo cosas así me siento orgulloso de ser ingeniero. Parece que de verdad les va a ayudar muchísimo a las personas con discapacidad visual.
También existe una app llamada 'Sullivan Plus' que usó el youtuber One Shot Hansol.
Parece que no solo reconoce texto, sino que también identifica las características de los objetos.
https://youtu.be/EAKGU-uW6Ek
https://www.mysullivan.org/
Be My Eyes - Dale vista a las personas con discapacidad visual
La IA de subtitulado de imágenes de MS empezó a describir fotos como una persona
Qué buena noticia, la verdad jaja. Mi hija tiene discapacidad visual, así que por eso.