Stanza - Biblioteca NLP de Python de código abierto
(stanfordnlp.github.io)-
Toolkit de procesamiento de lenguaje natural independiente del idioma que soporta 66 idiomas, incluido el coreano
-
Basado en PyTorch
-
Pipeline neuronal completo para análisis de texto
Tokenización, expansión de tokens de múltiples palabras (MWT), lematización
Etiquetado de partes del discurso (POS) y morfológico, análisis de dependencias, reconocimiento de entidades nombradas
-
Desarrollado y publicado por el grupo Stanford NLP
→ También incluye una interfaz compatible con el CoreNLP Java publicado anteriormente
2 comentarios
Parece que NER (reconocimiento de entidades nombradas), lamentablemente, soporta pocos idiomas.
No incluye coreano, y según dicen soporta 8 idiomas: árabe, chino, alemán, inglés, francés, neerlandés y español.
Hay dos modelos en coreano.
Parece que tomaron Kaist y GSD, que son de los registrados en Universal Dependencies (UD) https://universaldependencies.org/ con mayor cantidad de tokens.
UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html
UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html