22 puntos por xguru 2024-05-26 | 1 comentarios | Compartir por WhatsApp
  • Motor NL-to-SQL que permite consultar datos estructurados usando lenguaje natural
  • Toda la base de código pasa a ser de código abierto: incluye el motor principal, clientes (autenticación/RBAC), etc.
  • Ahora cualquiera puede crear una solución de text-to-SQL dentro de su propio producto
  • El motor Core NL-to-SQL de Dataherald es un agente basado en LLM que usa razonamiento CoT (Chain of Thought) y diversas herramientas para generar SQL de alta precisión a partir del prompt del usuario
  • Incluye un total de 4 servicios
    • Motor: agente LLM, vector store y conectores de BD
    • Consola de administración: frontend en NextJS para configurar el motor y gestionar la observabilidad
    • Backend empresarial: envuelve el motor principal para agregar autenticación, caché, API, etc.
    • Bot de Slack: agrega Dataherald a los flujos de trabajo de Slack

1 comentarios

 
xguru 2024-05-26

Dataherald - motor de lenguaje natural a SQL
Lo compartieron hace 8 meses, y ahora por fin publicaron todo como open source.

Opiniones en Hacker News

  • Esta herramienta se ve realmente genial. Otras herramientas funcionan bien con consultas simples, pero tienen dificultades con esquemas complejos y joins. Me pregunto si DataHerald resolvió ese problema.
  • El año pasado liberé como open source un producto de text-to-SQL. Construir un negocio así es muy difícil. Tiene más sentido apostar por open source y conectarlo con herramientas gratuitas de distribución como Snowflake/PowerBI.
  • Me pregunto por qué liberaron todo el producto como open source. También me pregunto si están cambiando a un modelo open core. Agradecería que compartieran la razón.
  • Gracias por esta contribución histórica. Muchas empresas están "conversando" con sus datos en este momento. Seguramente muchos equipos están trabajando en algo parecido.
  • Es uno de los asistentes de análisis con IA más completos en funciones. Aplausos por haberlo publicado como open source. Hay ejemplos exitosos como Metabase, Airbyte y dbt.
  • Me pregunto quién es el público objetivo de esta herramienta. El sitio web afirma que puede responder preguntas sobre datos sin pasar por un analista, pero los analistas son expertos en modelos y datos. Un data warehouse puede tener varios problemas. Me pregunto si un LLM puede manejar eso de forma consistente.
  • La razón por la que esta herramienta podría funcionar mejor que un LLM promedio es que puede entrenarse usando la estructura de la base de datos. Pero la estructura de la base de datos puede cambiar con frecuencia, así que podría requerir reentrenamiento. Me pregunto si se reentrena automáticamente después de corregir un PR.
  • Me pregunto si esta herramienta puede hacer joins complejos. No pude encontrar ejemplos en el sitio web.
  • No logro entender por qué sería mejor usar un sistema NLP+ORM. Tendrías que usar una sintaxis fija, pero podrías obtener 100% de precisión.
  • Probé recientemente NL-to-SQL como prototipo. El problema era cómo evitar que errores o actores maliciosos afectaran la base de datos. Si alguien quiere hablar sobre otros aspectos relacionados con esto, que me contacte.