Resumen general
- Este informe resume los resultados de una auditoría de 10 repositorios de Bio-AI y automatización científica adyacente con alta visibilidad, con corte a marzo de 2026.
- La selección no fue aleatoria, sino basada en estrellas de GitHub, frecuencia de discusión técnica y nivel de exposición real dentro del ecosistema.
- La auditoría se realizó en dos etapas: la primera fue una revisión técnica del código —estructura del repo, puntos de entrada y ejecución—; la segunda aplicó la puntuación STEM-AI v1.0.4 para evaluar integridad documental, código, pruebas y gobernanza, entre otros aspectos.
- Conclusión: la mayoría puede ejecutarse. Sin embargo, no alcanza un nivel confiable. La ausencia de gobernanza muestra los límites de Bio-AI.
1. Situación actual de Bio-AI en 2026
- Aumento acelerado de herramientas de Bio-AI basadas en LLM.
- También se expande rápidamente el hype de agents, skills y wrappers de automatización.
- El rendimiento aparente y la utilidad visible han crecido.
- Pero faltan mecanismos de validación.
- No está claro quién asume la responsabilidad.
- En áreas de alto riesgo, como el descubrimiento de fármacos, esto es especialmente peligroso.
- En resumen, la verificación y la gobernanza están muy por detrás de la velocidad con la que se expanden estas capacidades.
2. Objetos de auditoría
- Se seleccionaron 10 proyectos.
- Los criterios fueron visibilidad, influencia, exposición real, frecuencia de discusión y centralidad.
- Biomni
- AI-Scientist
- CellAgent
- ClawBio
- LabClaw
- claude-scientific-skills
- SciAgent-Skills
- BioAgents
- BioClaw
- OpenClaw-Medical-Skills
3. Método de auditoría
- La auditoría se realizó en dos etapas.
- Etapa 1. Technical Code Audit
- Verificación de la estructura del repositorio.
- Revisión de los puntos de entrada.
- Revisión de la capa de orquestación.
- Trazado de la ruta de ejecución.
- Verificación de la ruta de salida.
- Inspección directa de archivos clave.
- Comparación entre lo que afirma el README y el código real.
- Es decir, se priorizó “qué hace realmente” por encima de “qué dice que hace”.
- Etapa 2. Puntuación STEM-AI v1.0.4
- Se realizó la evaluación S1.
- Se verificó la integridad del README y la documentación.
- Se realizó la evaluación S3.
- Se comprobó la existencia real del código, las pruebas, las reglas de cambio y los mecanismos de integridad biológica.
- Es decir, no fue una impresión general: primero se verificó la estructura y luego se puntuó.
- Principios de la auditoría
- No consistió en una reproducción dinámica completa de todos los repositorios.
- En cambio, la auditoría se centró en las partes conectadas directamente con las afirmaciones clave.
- Las zonas con mayor riesgo o contradicciones recibieron una revisión más profunda.
- Principio clave: priorizar la superficie ejecutable sobre el README. Si hay conflicto entre documentación y código, el juicio se basa en la ejecución, no en la documentación.
- En otras palabras, esta auditoría se parece más a un diagnóstico estructural que a un benchmark de reproducibilidad.
4. Clasificación por puntaje
- T0: no se establece confianza. Aunque pueda ejecutarse, es difícil considerarlo un sistema confiable.
- T1: existe cierta estructura, pero la confianza sigue siendo insuficiente. Sirve a nivel exploratorio o de referencia.
- T2: hay avances significativos, pero todavía no alcanza para un piloto supervisado.
- T3: estándar mínimo para considerar un piloto supervisado.
- T4: nivel en el que puede evaluarse su conexión con entornos de mayor responsabilidad sobre resultados.
- El informe define T3 como el mínimo para un piloto supervisado y T4 como el mínimo para conectar con entornos de mayor responsabilidad sobre resultados.
5. Resultados
- Resultados por repositorio
- AI-Scientist — 48 puntos, T1
- Biomni — 17 puntos, T0
- BioAgents — 30 puntos, T0
- BioClaw — 29 puntos, T0
- CellAgent — 15 puntos, T0
- ClawBio — 63 puntos, T2
- claude-scientific-skills — 24 puntos, T0
- LabClaw — 20 puntos, T0
- SciAgent-Skills — 32 puntos, T0
- OpenClaw-Medical-Skills — 22 puntos, T0
- Significado de los resultados
- 8 de 10 no lograron establecer confianza.
- 1 mostró cierta estructura, pero sigue siendo insuficiente.
- 1 fue el mejor evaluado, pero no alcanzó el mínimo para un piloto.
- Ninguno llegó a T3 o superior. Es decir, ningún repositorio superó el umbral mínimo para un piloto supervisado.
6. Problemas recurrentes detectados
- Afirmaciones exageradas
- Validación débil
- Falta de trazabilidad
- Límites de falla débiles
- Desajuste entre README y realidad de ejecución
- Ausencia de gobernanza
- Falta de reproducibilidad
- Límites poco claros en licencias, responsabilidad y operación
- Se habla de alcances cercanos al ámbito clínico, pero la estructura de responsabilidad es frágil
- El CI se enfoca más en validaciones de sintaxis y formato que en validación científica.
- Se detectaron casos en los que mocks y placeholders parecían funcionalidad real.
- Aunque el diseño local luce bien, se repiten casos en los que la configuración predeterminada de despliegue es riesgosa.
7. Conclusión final
- Este informe no está diciendo que todo el código abierto de Bio-AI sea “inútil”.
- El punto central es subrayar que parecer competente no es lo mismo que ser confiable.
- El cuello de botella no es solo la capacidad del modelo; la ausencia de validación, trazabilidad, responsabilidad y gobernanza es un problema mayor.
- Más precisamente, Bio-AI solo podrá convertirse en un sistema confiable si mejora su estructura para que las afirmaciones y los resultados sean reproducibles, los límites estén claros y sea posible una revisión institucional.
8. Resumen en una línea
- El mayor problema de Bio-AI no es la falta de capacidad, sino la falta de validación y gobernanza.
Aún no hay comentarios.