2 puntos por flamehaven01 2026-03-25 | Aún no hay comentarios. | Compartir por WhatsApp

Resumen general

  • Este informe resume los resultados de una auditoría de 10 repositorios de Bio-AI y automatización científica adyacente con alta visibilidad, con corte a marzo de 2026.
  • La selección no fue aleatoria, sino basada en estrellas de GitHub, frecuencia de discusión técnica y nivel de exposición real dentro del ecosistema.
  • La auditoría se realizó en dos etapas: la primera fue una revisión técnica del código —estructura del repo, puntos de entrada y ejecución—; la segunda aplicó la puntuación STEM-AI v1.0.4 para evaluar integridad documental, código, pruebas y gobernanza, entre otros aspectos.
  • Conclusión: la mayoría puede ejecutarse. Sin embargo, no alcanza un nivel confiable. La ausencia de gobernanza muestra los límites de Bio-AI.

1. Situación actual de Bio-AI en 2026

  • Aumento acelerado de herramientas de Bio-AI basadas en LLM.
  • También se expande rápidamente el hype de agents, skills y wrappers de automatización.
  • El rendimiento aparente y la utilidad visible han crecido.
  • Pero faltan mecanismos de validación.
  • No está claro quién asume la responsabilidad.
  • En áreas de alto riesgo, como el descubrimiento de fármacos, esto es especialmente peligroso.
  • En resumen, la verificación y la gobernanza están muy por detrás de la velocidad con la que se expanden estas capacidades.

2. Objetos de auditoría

  • Se seleccionaron 10 proyectos.
  • Los criterios fueron visibilidad, influencia, exposición real, frecuencia de discusión y centralidad.
    • Biomni
    • AI-Scientist
    • CellAgent
    • ClawBio
    • LabClaw
    • claude-scientific-skills
    • SciAgent-Skills
    • BioAgents
    • BioClaw
    • OpenClaw-Medical-Skills

3. Método de auditoría

  • La auditoría se realizó en dos etapas.
  • Etapa 1. Technical Code Audit
    • Verificación de la estructura del repositorio.
    • Revisión de los puntos de entrada.
    • Revisión de la capa de orquestación.
    • Trazado de la ruta de ejecución.
    • Verificación de la ruta de salida.
    • Inspección directa de archivos clave.
    • Comparación entre lo que afirma el README y el código real.
    • Es decir, se priorizó “qué hace realmente” por encima de “qué dice que hace”.
  • Etapa 2. Puntuación STEM-AI v1.0.4
    • Se realizó la evaluación S1.
    • Se verificó la integridad del README y la documentación.
    • Se realizó la evaluación S3.
    • Se comprobó la existencia real del código, las pruebas, las reglas de cambio y los mecanismos de integridad biológica.
    • Es decir, no fue una impresión general: primero se verificó la estructura y luego se puntuó.
  • Principios de la auditoría
    • No consistió en una reproducción dinámica completa de todos los repositorios.
    • En cambio, la auditoría se centró en las partes conectadas directamente con las afirmaciones clave.
    • Las zonas con mayor riesgo o contradicciones recibieron una revisión más profunda.
    • Principio clave: priorizar la superficie ejecutable sobre el README. Si hay conflicto entre documentación y código, el juicio se basa en la ejecución, no en la documentación.
    • En otras palabras, esta auditoría se parece más a un diagnóstico estructural que a un benchmark de reproducibilidad.

4. Clasificación por puntaje

  • T0: no se establece confianza. Aunque pueda ejecutarse, es difícil considerarlo un sistema confiable.
  • T1: existe cierta estructura, pero la confianza sigue siendo insuficiente. Sirve a nivel exploratorio o de referencia.
  • T2: hay avances significativos, pero todavía no alcanza para un piloto supervisado.
  • T3: estándar mínimo para considerar un piloto supervisado.
  • T4: nivel en el que puede evaluarse su conexión con entornos de mayor responsabilidad sobre resultados.
  • El informe define T3 como el mínimo para un piloto supervisado y T4 como el mínimo para conectar con entornos de mayor responsabilidad sobre resultados.

5. Resultados

  • Resultados por repositorio
    • AI-Scientist — 48 puntos, T1
    • Biomni — 17 puntos, T0
    • BioAgents — 30 puntos, T0
    • BioClaw — 29 puntos, T0
    • CellAgent — 15 puntos, T0
    • ClawBio — 63 puntos, T2
    • claude-scientific-skills — 24 puntos, T0
    • LabClaw — 20 puntos, T0
    • SciAgent-Skills — 32 puntos, T0
    • OpenClaw-Medical-Skills — 22 puntos, T0
  • Significado de los resultados
    • 8 de 10 no lograron establecer confianza.
    • 1 mostró cierta estructura, pero sigue siendo insuficiente.
    • 1 fue el mejor evaluado, pero no alcanzó el mínimo para un piloto.
    • Ninguno llegó a T3 o superior. Es decir, ningún repositorio superó el umbral mínimo para un piloto supervisado.

6. Problemas recurrentes detectados

  • Afirmaciones exageradas
  • Validación débil
  • Falta de trazabilidad
  • Límites de falla débiles
  • Desajuste entre README y realidad de ejecución
  • Ausencia de gobernanza
  • Falta de reproducibilidad
  • Límites poco claros en licencias, responsabilidad y operación
  • Se habla de alcances cercanos al ámbito clínico, pero la estructura de responsabilidad es frágil
  • El CI se enfoca más en validaciones de sintaxis y formato que en validación científica.
  • Se detectaron casos en los que mocks y placeholders parecían funcionalidad real.
  • Aunque el diseño local luce bien, se repiten casos en los que la configuración predeterminada de despliegue es riesgosa.

7. Conclusión final

  • Este informe no está diciendo que todo el código abierto de Bio-AI sea “inútil”.
  • El punto central es subrayar que parecer competente no es lo mismo que ser confiable.
  • El cuello de botella no es solo la capacidad del modelo; la ausencia de validación, trazabilidad, responsabilidad y gobernanza es un problema mayor.
  • Más precisamente, Bio-AI solo podrá convertirse en un sistema confiable si mejora su estructura para que las afirmaciones y los resultados sean reproducibles, los límites estén claros y sea posible una revisión institucional.

8. Resumen en una línea

  • El mayor problema de Bio-AI no es la falta de capacidad, sino la falta de validación y gobernanza.

Aún no hay comentarios.

Aún no hay comentarios.