-
Contexto cultural
- StarCraft: Brood War (en adelante, BW) es un juego muy importante en Corea, y la mayoría de los jugadores profesionales, equipos y torneos tienen base allí.
- Al igual que el ajedrez, BW es un juego de estrategia en el que no solo importa jugar, sino también estudiarlo.
- Como las aperturas en ajedrez, en BW también existen estrategias y builds específicos, lo que constituye un lenguaje especializado del dominio desarrollado dentro de la comunidad.
-
Problema de conocimiento para los extranjeros
- La mayor parte de la comunidad extranjera no domina el coreano.
- Son pocos los extranjeros que hablan coreano con fluidez, y por eso la comunidad extranjera tiene un acceso limitado a la información en comparación con la comunidad coreana.
- La traducción automática tiene limitaciones para traducir este lenguaje especializado del dominio, y eso ha sido uno de los factores que han dejado atrás a la comunidad extranjera frente a la coreana.
-
Nuevo proceso de traducción
- Gracias a un nuevo proceso de traducción automática, ahora es posible ofrecer traducciones más precisas.
- Se podían traducir alrededor de 7 videos al día, lo que representa una velocidad mucho mayor que antes.
-
Stack tecnológico
- Se divide en dos partes: generar subtítulos y consumirlos.
- Se usan yt-dlp y OpenAI Whisper para descargar la pista de audio del video y, a partir de ella, generar subtítulos.
- Se usa Google Colab para ejecutar Whisper, recibir la URL del video y generar un archivo SRT en coreano.
- Se usan un LLM y un diccionario de jerga para mejorar la precisión de la traducción.
-
Consumo de subtítulos
- Se usa TamperMonkey para agregar un botón a los videos de YouTube y permitir la descarga de los subtítulos traducidos.
- Se usan Pastebin y Google Sheets + Apps Script para compartir y administrar los subtítulos.
-
Mejoras posibles
- Existe la posibilidad de agregar soporte para varios idiomas.
- Como mejora técnica, también se podría añadir una función para mostrar el botón solo en ciertos videos.
-
Reflexión final
- El rendimiento, la escalabilidad y la latencia no son importantes; el proyecto se completó combinando soluciones que ya existían.
- El user script y el código Python del cuaderno de Colab son cortos y fáciles de mantener.
- Este proyecto es el sistema CRUD más simple posible, y no hay razón para que su complejidad aumente demasiado.
1 comentarios
Comentarios en Hacker News
Como jugador coreano de BW e investigador en reconocimiento de voz, este artículo me pareció interesante. La transcripción original en coreano tenía muchos errores, pero los LLMs los corrigieron de forma impresionante. Por ejemplo, "12 expansión natural build" en realidad era "12 expansión al frente build". El build de two hatchery debía transcribirse como build de two hatchery.
No se dejen engañar por el título. Este artículo es un enfoque muy minucioso y creativo para traducir comentarios de StarCraft y hacerlos más accesibles.
Como usuario no angloparlante, al leer este artículo pensé en la dificultad de traducir artículos de informática y desarrollo de software.
Pude entender bastante bien la versión de Google Translate. Probablemente porque estoy familiarizado con BW y con el opener zerg 12 hatch.
Me dio risa que en el artículo sobre traducción entendieran completamente al revés la relación señal-ruido. Una relación señal-ruido alta es algo bueno.
Se puede usar yt-dlp para descargar video en baja calidad y ahorrar ancho de banda.
yt-dlp -f "bv[height<=720]" <url>Como alguien que jugó money maps de niño, siempre me pregunté qué significaban los números delante de los edificios.
Google Translate ha mejorado, pero no podía traducir de forma efectiva textos en chino o japonés sobre el juego Go.
Me gustó este artículo. Cuando intenté jugar las regionales de Estados Unidos de los World Cyber Games, me sorprendió lo rápidos que eran los demás.
Me gustó que tradujeran "natural expansion" como "courtyard", aunque sea "incorrecto".