jsonquotefixer: paquete de Python que ordena limpiamente salidas JSON mal estructuradas de LLM
(github.com/abzb1)¡Hola!
Cuando usas modelos de IA, muchas veces necesitas salidas JSON estructuradas.
Yo también, mientras avanzaba en varios proyectos, me encontré seguido con situaciones donde necesitaba usar salidas JSON, y siempre me topaba con la misma incomodidad.
Había principalmente 3 puntos molestos en las salidas estructuradas de LLM.
-
Procesamiento de bloques de código (````json … ``` )
La mayoría de los LLM usan bloques de código rodeados por tres acentos graves y la palabra clavejsonal devolver JSON.
Se puede manejar con una expresión regular simple, pero da flojera repetirlo cada vez. Sería mucho más cómodo poder resolverlo en una sola línea a nivel de paquete. -
Problema de comillas anidadas
En JSON, las cadenas deben ir entre comillas dobles ("). Pero si vuelven a aparecer comillas dentro de la cadena, hace falta un escape como\".
Los LLM suelen omitir esta distinción y devuelven JSON inválido. Necesitaba una función que corrigiera esto automáticamente. -
Comillas tipográficas (comillas Unicode)
Las oraciones generadas por LLM suelen incluir comillas tipográficas como“ ”.
Como no cumplen con el estándar JSON, hacía falta poder convertirlas en bloque a comillas dobles normales (").
Buscando, vi que existía el proyecto ai-json-fixer basado en Node.js, pero en el ecosistema de Python no había una herramienta adecuada.
¡Así que lo hice! (junto con el profe GPT jaja)
Se puede instalar y usar fácilmente con pip.
pip install jsonquotefixer
Pruébenlo y critíquenlo sin piedad jaja
2 comentarios
Estaría bueno que los ejemplos se vieran bien en GitHub como
ipynb.¡El orden temporal es n (longitud de la secuencia)!