Comparación de términos de informática entre Corea, China y Japón

(cjk-compsci-terms.netlify.app)

15 puntos por hongminhee 2021-10-09 | 13 comentarios | Compartir por WhatsApp

Hola. Después de crear una cuenta en GeekNews, hasta ahora me había dedicado simplemente a leer con gusto, pero al llegar el Día del Alfabeto Coreano me acordé de la tabla 《Comparación de términos de informática entre Corea, China y Japón》 que hice a comienzos de este año, así que la comparto como Show GN.

Como suele pasar en cualquier campo especializado, hoy en día por comodidad muchas veces se usan los términos de informática en inglés como préstamos, en lugar de emplear las traducciones que ya estaban establecidas desde antes. Por ejemplo, ahora incluso “valor” muchas veces simplemente se dice y se escribe como “value”.

De todos modos, en coreano ya existen desde hace varias décadas muchas buenas traducciones establecidas para términos de informática. Y al darme cuenta de que una parte considerable de ellas se comparte también con Japón y Taiwán, que pertenecen a la misma esfera cultural de los caracteres chinos, hice esta tabla por curiosidad y diversión. Me parecería genial que le echaran un vistazo para conmemorar el Día del Alfabeto Coreano.

El código fuente está en < https://github.com/dahlia/cjk-compsci-terms >. Como cada término está organizado en archivos YAML dentro del directorio tables/ según su categoría, también son bienvenidos los PR para agregar términos o corregir errores.

¡Gracias por leer!

13 comentarios

dhsung 2021-10-10

Tengo una consulta.

Al revisar las grafías en chino y japonés en el YAML, confirmé que se usó la grafía en hanja empleada en Corea y que debajo, en term, se colocaron las formas en chino tradicional, chino simplificado y abreviaturas de estilo japonés.

Me gustaría saber con qué intención se desarrolló así.

Por ejemplo, para Source Code,

se indica que en China continental (zh-CN) se usan las expresiones en hanja coreano 源代碼 y 源程序,

pero como en term sí parece haberse puesto correctamente la grafía simplificada, da la impresión de que no hay consistencia.

Como referencia, para Source Code,

en China continental se usan principalmente 源代码, 源码 y 源程序.

en Taiwán se usan 原始碼 y 原始程式碼.

Y tengo entendido que en Hong Kong se usan 原始碼 y 源碼.

Además, en el caso de Computer,

en China continental, oficialmente es 电子计算机, y en muchos libros y documentos se usa 计算机 como grafía para Computer,

pero por influencia de Taiwán y Hong Kong, la gente también usa bastante 电脑 de forma mezclada.

Referencia 1: https://zh.wikipedia.org/wiki/…

Referencia 2: 电脑吧 https://tieba.baidu.com/f?kw=%B5%E7%C4%D4&fr=ala0&tpl=5

Sección de CPU en JD.com: https://pcdiy.jd.com/

Sección de laptops en JD.com: https://list.jd.com/list.html?cat=670,671,672

Por eso, en esta parte parece que hay muchas cosas que confirmar sobre si se avanzará priorizando las grafías oficiales del gobierno.

Las grafías usadas en el mundo chino varían bastante, y también hay casos en los que la frecuencia de uso difiere según cada persona, así que parece que habrá muchos aspectos a considerar.

hongminhee 2021-10-10

Gracias por su valiosa opinión.

Antes que nada, si revisa primero la página publicada en la web, podrá comprobar que entre los términos del chino continental no hay ningún elemento mostrado con grafía de hanja al estilo coreano en lugar de caracteres simplificados. Como en los datos YAML solo el campo term es lo que realmente se muestra en pantalla, tal como usted señaló, únicamente en term se escribió la forma usada en cada región (aunque, en el caso del coreano, se representó con hanja coreano en vez de hangul).

Entonces, ¿qué son las cadenas en estilo del Kangxi Dictionary que aparecen más arriba? Simplemente son identificadores de grupo arbitrarios para agrupar cognados entre distintos idiomas (o dialectos) dentro de los datos. Como son arbitrarios, no necesariamente tienen que ser caracteres chinos; también podrían usarse números o hashes. Sin embargo, por ejemplo, el japonés 「科学」 y el chino taiwanés 「科學」 deben mostrarse conectados como un mismo cognado, así que tienen que compartir el mismo identificador de grupo. De manera similar, el coreano "keompyuteo" y el japonés 「コンピュータ」 también deben agruparse bajo el mismo identificador de grupo.

Se podría usar como identificador una cadena arbitraria y sin significado como 「foobar」, pero pensé que, por conveniencia, sería más fácil de mantener si seguía una regla consistente y que dejara ver el contenido. Por eso, la regla más intuitiva fue escribir los préstamos del inglés en alfabeto latino y los sino-coreanos en caracteres chinos. Sin embargo, como también puede haber distintas formas de escribir los caracteres chinos, fue necesario normalizar varias formas vulgares o variantes gráficas (ya que, al ser un identificador de grupo, hay que unificarlas), y en este proceso los caracteres simplificados de China o los shinjitai de Japón quedaron naturalmente descartados como candidatos. Esto se debe a que en bastantes casos se han unificado caracteres distintos porque su lectura según el estándar regional es la misma, por lo que no son adecuados para la normalización (se pierde información de clasificación). Por lo tanto, no quedaba más opción que elegir entre la escritura tradicional de Hong Kong, la escritura estándar de Taiwán, el hanja coreano y similares, y se tomó como referencia el estilo del Kangxi Dictionary, que puede considerarse libre de connotaciones asociadas con algún régimen político existente.

Todo lo anterior ya está descrito en el archivo CONTRIBUTING.md dentro del repositorio. También hay otras partes explicadas allí, así que quizá le resulte útil consultarlo.

Determinar ampliamente cuál de varias palabras con el mismo significado es la más usada por los hablantes, es decir, captar la distribución del vocabulario, requiere demasiado costo y tiempo para que una sola persona no especializada pueda investigarlo. Si existiera investigación previa sobre la distribución del uso de términos entre personas dedicadas a la investigación en ciencias de la computación o al desarrollo de software, yo también querría aprovecharla activamente, pero si no hay nada de ese tipo, necesito de forma urgente la ayuda de varios colaboradores, en especial las sugerencias de hablantes nativos de cada idioma. Naturalmente, como hasta ahora he investigado por mi cuenta, no me quedó otra que basarme principalmente en la Wikipedia en chino y en Baidu Baike, entre otros recursos.

Respecto a los casos concretos que mencionó, creo que podrían reflejarse más rápido si envía un pull request.

Gracias por leer este comentario tan largo.

dhsung 2021-10-10

Si consultas el English-Chinese Glossary of IT Terms publicado por el gobierno de Hong Kong, te servirá para organizar los términos que se usan en Hong Kong.

https://ogcio.gov.hk/en/our_work/…

alstjr7375 2021-10-09

Es genial :D

kunggom 2021-10-09

Gracias por la buena recopilación.

Si más adelante se da la oportunidad, también me gustaría ver material sobre la terminología informática de Corea del Norte. No sé si habrá material adecuado en el Centro de Información sobre Corea del Norte del Ministerio de Unificación.

dhsung 2021-10-10

Ya existe en el sitio del Ministerio de Unificación.

Comparación de términos de TI entre Corea del Sur y Corea del Norte: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

hongminhee 2021-10-09

Si se desarma algo como Red Star, la distribución de Linux de Corea del Norte, parece que podría salir algún material. Creo que también traía el Gran diccionario del coreano… Cuando tenga tiempo, intentaré agregar también el coreano norcoreano.

dhsung 2021-10-10

Comparación de términos informáticos entre Corea del Norte y del Sur: https://nkinfo.unikorea.go.kr/nkp/term/skNkItTerm.do

Si hacemos scraping de esto, parece que se puede agregar rápidamente.

kunggom 2021-10-10

Viendo bien, ni siquiera hace falta hacer scraping; están ofreciendo todo ese contenido completo en un archivo con formato xls.

luavis 2021-10-09

Sería bueno separar ko en ko-kr y ko-kp para añadir la terminología informática de Corea del Norte.

hongminhee 2021-10-09

Pensé que si lo encerraba entre <> como en Markdown, se detectaría el límite de la URL, pero parece que no. 😅 El enlace del repositorio está por acá: https://github.com/dahlia/cjk-compsci-terms

xguru 2021-10-09

Tengo que hacer el trabajo para soportar Markdown, pero todavía no he podido ;_;

Lo edité agregando solo espacios antes y después para que la URL se pueda hacer clic.

Pero de verdad es un show que va muy bien con el Día del Alfabeto Coreano. ¡Lo veré con gusto!

hongminhee 2021-10-09

¡Gracias también por corregir el texto principal!

Comparación de términos de informática entre Corea, China y Japón

Lecturas relacionadas

13 comentarios