App de traducción de pantalla/voz hecha para jugar novelas visuales
(github.com/tchinso)Soy un otaku común al que le gustan las novelas visuales.
Escuché que antes había una época en la que se traducía usando EasyTrans o AralTrans.
Dicen que hoy en día se puede usar MORT para correr un traductor por OCR,
pero cuando lo probé yo mismo, tenía demasiadas configuraciones y funciones, y era muy complicado.
Sobre todo, el reconocimiento de pantalla era demasiado malo.
Además, con la traducción de DeepL seguían saliendo errores si no ponías una API key.
Y como últimamente la IA local ha mejorado mucho, pensé:
¿no estaría bien meter un modelo local de OCR con IA
y también un modelo local de traducción por IA?
Así que lo hice.
Mientras lo hacía, pensé que también estaría bien agregar una función que reconociera voz y tradujera.
Y como el alcance fue creciendo poco a poco,
terminé haciendo una app que reconoce y traduce pantalla/voz en una sola aplicación.
Solo funciona con japonés (porque el objetivo original eran las novelas visuales...).
La traducción por reconocimiento de pantalla
funciona registrando un área temporal como área fija; después, solo haces clic en el botón de traducir una y otra vez, y la traducción aparece como overlay.
El reconocimiento de voz, en cambio, toma el archivo de audio completo, genera una transcripción y la muestra en el overlay.
El proceso de hacerlo no fue fácil.
Estudié una carrera que no tiene nada que ver con programación y trabajo en algo que tampoco tiene relación.
De programación, lo único que tenía era el recuerdo de haber tocado un poco DevC++ en la clase de informática de la preparatoria, hasta ver if/while.
Quería mostrarles que con GPT-5.5 se puede llegar a hacer algo de este nivel.
La cantidad de tokens usados fue de unos 720 millones.
¡De verdad agradecería mucho el feedback de la gente de GN!
Aún no hay comentarios.