Stanza - Biblioteca NLP de Python de código abierto

xguru · 2020-03-25T16:05:16+09:00

Toolkit de procesamiento de lenguaje natural independiente del idioma que soporta 66 idiomas, incluido el coreano Basado en PyTorch Pipeline neuronal completo para análisis de texto Tokenización, expansión de tokens de múltiples palabras (MWT), lematización Etiquetado de partes del discurso (POS) y morfológico, análisis de dependencias, reconocimiento de entidades nombradas Desarrollado y publicado por el grupo Stanford NLP → También incluye una interfaz compatible con el CoreNLP Java publicado anteriormente

(stanfordnlp.github.io)

7 puntos por xguru 2020-03-25 | 2 comentarios | Compartir por WhatsApp

Toolkit de procesamiento de lenguaje natural independiente del idioma que soporta 66 idiomas, incluido el coreano
Basado en PyTorch
Pipeline neuronal completo para análisis de texto

Tokenización, expansión de tokens de múltiples palabras (MWT), lematización

Etiquetado de partes del discurso (POS) y morfológico, análisis de dependencias, reconocimiento de entidades nombradas
Desarrollado y publicado por el grupo Stanford NLP

→ También incluye una interfaz compatible con el CoreNLP Java publicado anteriormente

2 comentarios

sftblw 2020-03-25

Parece que NER (reconocimiento de entidades nombradas), lamentablemente, soporta pocos idiomas.

No incluye coreano, y según dicen soporta 8 idiomas: árabe, chino, alemán, inglés, francés, neerlandés y español.

xguru 2020-03-25

Hay dos modelos en coreano.

Parece que tomaron Kaist y GSD, que son de los registrados en Universal Dependencies (UD) https://universaldependencies.org/ con mayor cantidad de tokens.

UD Korean GSD : https://universaldependencies.org/treebanks/ko_gsd/index.html

UD Korean Kaist : https://universaldependencies.org/treebanks/ko_kaist/index.html

Stanza - Biblioteca NLP de Python de código abierto

Lecturas relacionadas

2 comentarios