40 puntos por tominam2 2024-04-13 | 14 comentarios | Compartir por WhatsApp

Es posible hacer traducción con IA de coreano a inglés y de inglés a coreano sin limitaciones en tu propia computadora.

  1. La calidad es superior en comparación con la traducción automática convencional.
  2. Permite traducir archivos txt y epub.
  3. La salida se genera en dos archivos: un archivo con el texto traducido (original) y un archivo con el texto traducido. Si la traducción se ve extraña, puedes compararla de inmediato con el original.
  4. Es muy fácil de usar. Solo arrastra los archivos que necesitas traducir y haz clic en el botón para ejecutar la traducción. Detecta y traduce automáticamente entre coreano ↔ inglés.
  5. Se puede cambiar por otro modelo de IA. Actualmente usa NHNDQ, que ofrece una buena relación costo-rendimiento.

14 comentarios

 
upkit2 2024-04-16

Hola, una consulta: cerré el cmd mientras estaba instalando y, desde entonces, aunque borre la carpeta y vuelva a instalar desde cero, la instalación ya no avanza... ¿Habrá alguna forma de solucionarlo?T_T

 
tominam2 2024-04-17

Claro. Hay que resolverlo.
Pero primero necesitamos entender un poco cuál es el problema y qué es exactamente lo que no está funcionando.

https://github.com/vEduardovich/dodari/issues
En el GitHub de Dodari de arriba, después de hacer clic en el botón New issue y crear un nuevo issue,

¿podrías explicar con un poco más de detalle qué es lo que no funciona, por ejemplo con una captura de pantalla o describiendo la situación?
Seguro lo resolveremos.

 
illuza 2024-04-15

Guau, es impresionante.
Yo sí uso DeepL, pero lo voy a revisar con calma comparándolo.
Sobre todo, quiero comparar cuanto antes los textos de literatura en inglés.

 
tominam2 2024-04-15

La parte que mencionaste es justo la que actualmente siento que más deja que desear.
El modelo que usa Dodari en este momento es el modelo NHNDQ, un modelo de traducción multilingüe de 200 idiomas llamado facebook-nllb que fue afinado específicamente para coreano. Pero, aunque es mejor que Google Translate, está bastante por debajo de DeepL.

Probé varios modelos para resolverlo, y cuando corrí el modelo yanolja-eeve, que dicen que es tier 0 para coreano, me sorprendió muchísimo de lo bueno que era. Por mi sensación, diría que llega al 80~90% de DeepL.

Pero para usar este modelo, la computadora del usuario necesita tener más de 23 GB de VRAM. Además, como la velocidad de traducción se vuelve decenas de veces más lenta, hay que aplicar tecnología vllm para acelerarlo. Así sí mejora bastante la velocidad, pero entonces Linux se vuelve indispensable. En otras palabras, solo "desarrolladores que usan una 4090 y Linux" pueden probar el modelo de Yanolja.

Es justo la parte que estoy evaluando ahora. Es una lástima.

 
kunggom 2024-04-15

¿Hace falta más explicación?

 
tominam2 2024-04-15

El modelo padre de NHNDQ es facebook-nllb, un modelo de traducción multilingüe para 200 idiomas.
Por eso, a veces produce ese tipo de lenguaje alienígena.

 
kunggom 2024-04-15

Como la calidad de la traducción al coreano todavía parecía flojear un poco, daba la impresión de que le pusieron al producto el nombre tomando el apodo de 도더리, protagonista del incidente de Freegate, así que no pude evitar mencionar el error de uso de traductor más infame surgido de ese caso: “必要韓紙”.

 
roxie 2025-06-14

¿Era necesario? Qué historia tan triste...

 
tominam2 2024-04-15

Parece que hubo algún asunto complicado. Aunque lo lea, no logro entenderlo bien...

El nombre Dodari lo creé en una conversación con el modelo mixtral-7bx8.
Al principio, la IA me recomendó el nombre "PuenteLingüístico", pero yo necesitaba una imagen clara y fácil de dibujar, así que por diversión le pregunté qué tal "Dodari". Yo mismo pensaba que sonaba bastante inesperado.

Pero la IA respondió que Dodari era muy bueno porque significaba "puente que ayuda". Me pareció una interpretación muy original, algo que nunca se me habría ocurrido. Así fue como salió el nombre Dodari.

 
kunggom 2024-04-15

Fue un caso bastante antiguo, pero en ese momento fue relativamente famoso en las comunidades de internet de Corea.
En resumen, fue más o menos así.

  1. El administrador de un café de Naver, Dodori, publicó un aviso diciendo que haría una compra grupal de un CD japonés de música de edición limitada por 70,000 wones
  2. Después se publicó la lista de participantes de la primera compra grupal, pero los nombres y direcciones parecían algo raros, así que la gente empezó a sospechar
  3. Un miembro del café descubrió que ese CD ni siquiera era de edición limitada y que además costaba apenas alrededor de 30,000 wones; cuando reclamó, Dodori lo expulsó del café y el asunto se hizo más grande
  4. En el contenido de unos correos que Dodori publicó diciendo que eran mensajes intercambiados con una empresa japonesa, quedaron en evidencia errores absurdos de uso de traductor como “必要韓紙”, y así el caso se volvió conocido incluso fuera de ese círculo
  5. Más tarde se supo que Dodori era una persona con mitomanía bastante marcada, y que la gran mayoría de los supuestos logros personales que había publicado en internet estaban llenos de fanfarronería absurda y mentiras

Por cierto, a veces los modelos de lenguaje grandes dan interpretaciones inesperadas, y yo también he vivido de vez en cuando casos en que resultan plausibles.
Creo que ese fenómeno de que, en una conversación con otras personas, se señalan aspectos que uno por sí solo no habría pensado, ahora también lo estamos experimentando en las conversaciones con las máquinas.

 
tominam2 2024-04-15

Vaya. Pero parece que no lo arrestaron.
Personalmente, ChatGPT me parece demasiado mojigato y por eso no me divierte, pero Mixtral, quizá porque no tiene censura, hace que la conversación sea muy interesante.

 
kunggom 2024-04-15

Según el contenido de la wiki, hasta lo demandaron, pero al parecer se salvó porque pidió perdón insistentemente y le tuvieron consideración. En ese momento, su estatus era el de trabajador de servicio público alternativo.

Yo todavía no he probado directamente un LLM local por las limitaciones de rendimiento de mi PC personal. Solo he estado usando algo del nivel de GPT-4, pero estoy pensando en suscribirme adicionalmente a Claude-3.

 
savvykang 2024-04-14

Desde la ejecución del modelo de Hugging Face hasta la configuración de venv, e incluso la implementación del servicio web, fue un ejemplo muy completo, así que me resultó de gran ayuda. Gracias por compartirlo.

 
tominam2 2024-04-14

Me alegra muchísimo que haya podido ser de ayuda. Yo soy quien más agradece.