ProofBench — benchmark híbrido de IA: cálculo simbólico + sistema de verificación de pruebas basado en semántica

(github.com/Flamehaven)

1 puntos por flamehaven01 2025-10-17 | Aún no hay comentarios. | Compartir por WhatsApp

TL;DR

ProofBench es un benchmark híbrido de IA y sistema de verificación de pruebas de próxima generación que combina matemáticas simbólicas (SymPy/Pyodide) con análisis semántico por IA (consenso entre múltiples LLM).

Evalúa al mismo tiempo la estructura lógica y la validez semántica de las pruebas para detectar razonamientos que “parecen correctos” y cuantificarlos con el Logic Integrity Index (LII).

🎯 Por qué se creó

Los verificadores de pruebas tradicionales

se basan en lógica formal, por lo que son demasiado estrictos y poco prácticos, o
se quedan en el nivel gramatical y no pueden detectar errores semánticos, o
tienen un alto costo computacional, lo que dificulta la retroalimentación en tiempo real.

ProofBench es un framework de benchmark híbrido de IA que combina el rigor de la verificación simbólica con la comprensión flexible de la IA mediante un enfoque híbrido de “70% simbólico + 30% semántico”.

📊 Este es el tipo de preguntas que valida ProofBench

“¿La IA puede entender la consistencia lógica?”
“Si se visualiza la estructura de una prueba de forma basada en grafos, ¿se pueden ver patrones de error?”
“¿Qué tan confiable es la evaluación basada en semántica?”
“¿Un benchmark combinado de símbolos + semántica es útil para educación, investigación y evaluación de IA?”

🧩 Métricas del benchmark híbrido de IA

LII (Logic Integrity Index): métrica principal de integridad lógica
Coherence Variance: grado de concordancia entre múltiples modelos
Symbolic Pass Rate: proporción de consistencia matemática
Semantic Stability: tasa de conservación de la consistencia contextual

En el futuro, estos valores podrían evolucionar hacia un criterio común para evaluar la “capacidad lógica, consistencia e interpretación semántica” de modelos de IA.

🔍 Resumen de la arquitectura

Symbolic Layer — ejecuta SymPy con Pyodide para una verificación determinista dentro del navegador
Semantic Layer — evalúa las respuestas de varios LLM con base en consenso
Hybrid Orchestrator — ponderación base 70/30 (ajustable), cálculo del puntaje final
LII Engine — índice de integridad lógica + cálculo de intervalo de confianza
Justification Analyzer — grafo de dependencias + detección de ciclos
Feedback Generator — genera reportes de evaluación paso a paso en lenguaje natural

⚙️ Funciones clave (v3.7.2)

Motor de verificación híbrido: ejecución de SymPy con Pyodide dentro del navegador + análisis semántico basado en consenso entre múltiples LLM
LII (Logic Integrity Index): cuantificación de la consistencia lógica con una puntuación de 0–100 y un intervalo de confianza del 95%
Justification Graph: visualización de relaciones de dependencia entre pruebas y detección automática de razonamiento circular
Consensus Manager: calcula el grado de concordancia entre varios modelos y produce un puntaje promedio basado en coherencia
Natural Feedback Generator: retroalimentación en lenguaje natural sobre errores y razones en cada paso
UI / Dashboard: visualización de resultados por paso de la prueba, vista de grafo, reportes y puntaje LII
Ejecución con un clic en Docker: se puede usar de inmediato con una sola línea de docker run

docker run -p 3000:80 ghcr.io/flamehaven/proofbench:latest  
# → http://localhost:3000

🧱 Limitaciones

La capa semántica se ve afectada por trampas lingüísticas complejas (la capa simbólica lo amortigua)
LII no es un certificado formal de prueba, sino un indicador de calidad
Existe un costo inicial de arranque de Pyodide en dispositivos de bajos recursos

⚡ Puntos sobre los que se busca retroalimentación

¿La ponderación base 70/30 es razonable? (si hace falta adaptive weight)
¿LII + intervalo de confianza es significativo como benchmark para educación e investigación?
¿La detección de razonamiento circular es útil en tareas reales de matemáticas/lógica?
¿Ideas para mejorar cuellos de botella de rendimiento en el navegador (Pyodide)?
Se agradecen ejemplos de pruebas que “parecen correctas pero están mal” 🧩

🗺️ Hoja de ruta

Ponderación adaptativa por sección
Soporte para varios formatos de pruebas (Lean, Coq, fórmulas Markdown, etc.)
Refuerzo de plantillas de exportación de reportes basadas en LII + grafos
Construcción de benchmark red team (publicación de un conjunto de pruebas “plausibles pero incorrectas”)

🔗 Enlaces

GitHub: https://github.com/Flamehaven/proofbench
Licencia: MIT

✍️ Comentario de desarrollo

ProofBench es una herramienta para poner a prueba si la IA puede entender no la “respuesta correcta”, sino la “justificación”, integrando en un solo benchmark la estructura lógica, la consistencia semántica y la explicabilidad.

No es solo un verificador — será un nuevo banco de pruebas para medir la capacidad de razonamiento de la IA.