7 puntos por xguru 2020-03-25 | 2 comentarios | Compartir por WhatsApp
  • Toolkit de procesamiento de lenguaje natural independiente del idioma que soporta 66 idiomas, incluido el coreano

  • Basado en PyTorch

  • Pipeline neuronal completo para análisis de texto

    Tokenización, expansión de tokens de múltiples palabras (MWT), lematización

    Etiquetado de partes del discurso (POS) y morfológico, análisis de dependencias, reconocimiento de entidades nombradas

  • Desarrollado y publicado por el grupo Stanford NLP

    → También incluye una interfaz compatible con el CoreNLP Java publicado anteriormente

2 comentarios

 
sftblw 2020-03-25

Parece que NER (reconocimiento de entidades nombradas), lamentablemente, soporta pocos idiomas.

No incluye coreano, y según dicen soporta 8 idiomas: árabe, chino, alemán, inglés, francés, neerlandés y español.

 
xguru 2020-03-25

Hay dos modelos en coreano.

Parece que tomaron Kaist y GSD, que son de los registrados en Universal Dependencies (UD) https://universaldependencies.org/ con mayor cantidad de tokens.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html