Cómo se prueba SQLite

(sqlite.org)

24 puntos por GN⁺ 2025-12-19 | 4 comentarios | Compartir por WhatsApp

SQLite mantiene una alta confiabilidad y robustez gracias a un sistema de pruebas automatizadas exhaustivo, con 590 veces más código de pruebas que código fuente
Cuatro harnesses de prueba independientes (TCL, TH3, SQL Logic Test, dbsqlfuzz) validan la biblioteca principal y ejecutan cientos de millones de pruebas
Mediante pruebas de situaciones anómalas (OOM, errores de I/O, simulación de fallos) y fuzz testing, se verifica que funcione de forma estable incluso ante entradas anormales y fallas del sistema
Mantiene un proceso de validación en múltiples capas con 100% de cobertura de ramas y MC/DC, detección de fugas de recursos, Valgrind, análisis estático y listas de verificación
Gracias a este esquema sistemático de pruebas, SQLite es considerado una base de datos de código abierto con confiabilidad y calidad al nivel de una BD comercial

1. Panorama general

La confiabilidad y robustez de SQLite provienen de un proceso de pruebas minucioso
- A partir de la versión 3.42.0, SQLite está compuesto por aproximadamente 155.8 KSLOC de código C y 92053.1 KSLOC de código de pruebas
El sistema de pruebas incluye 4 harnesses independientes, 100% de cobertura de ramas y millones de casos de prueba
- Incluye OOM, errores de I/O, fallos, fuzzing, valores límite, regresión, archivos de BD anómalos, pruebas con optimizaciones desactivadas y muchos otros elementos

2. Harnesses de prueba

TCL Tests
- Conjunto público de pruebas usado principalmente durante el desarrollo de SQLite
- Compuesto por 27.2 KSLOC de código C y 1390 archivos de script (23.2MB)
- Aproximadamente más de 50 mil casos de prueba; con parametrización, se ejecutan cientos de millones en la corrida completa
TH3
- Conjunto comercial de pruebas basado en C que alcanza 100% de cobertura de ramas y MC/DC
- También funciona en entornos embebidos e incluye 1055.4 KSLOC y alrededor de 50 mil casos
- En una prueba completa de cobertura se ejecutan alrededor de 2.4 millones de pruebas, y antes de cada lanzamiento se realizan 248 millones de pruebas soak
SQL Logic Test (SLT)
- Compara los resultados de SQLite con PostgreSQL, MySQL, SQL Server y Oracle 10g
- Está compuesto por 7.2 millones de consultas y 1.12GB de datos
dbsqlfuzz
- Fuzzer basado en libFuzzer que muta al mismo tiempo SQL y archivos de base de datos
- Ejecuta alrededor de mil millones de pruebas de mutación por día, validando la robustez frente a entradas maliciosas
Herramientas adicionales
- speedtest1.c, mptester.c, threadtest3.c, fuzzershell.c, jfuzz, etc.
- Todas las pruebas deben pasar en múltiples plataformas y configuraciones de compilación para que un lanzamiento sea posible

3. Pruebas de situaciones anómalas

Pruebas OOM
- Simulan fallos de malloc() para verificar si hay recuperación correcta ante falta de memoria
- Se repiten incrementando el contador del punto de fallo
Pruebas de errores de I/O
- Usan un sistema de archivos virtual (VFS) para simular errores de disco
- Después del error, se verifica si hubo corrupción de datos con PRAGMA integrity_check
Pruebas de fallos
- Simulan cortes de energía y fallos del sistema operativo
- El harness de TCL se basa en procesos hijo, y TH3 usa un VFS en memoria
- Verifican que una transacción se revierta por completo o se complete por completo
Pruebas de fallos compuestos
- También validan situaciones donde, después de un fallo, ocurren de forma consecutiva OOM o errores de I/O

4. Fuzz testing

SQL Fuzz
- Genera SQL sintácticamente válido pero anómalo para verificar la reacción de SQLite
American Fuzzy Lop (AFL)
- Fuzzer guiado por perfil, introducido en 2014, que explora nuevas rutas de control
- Encontró múltiples fallos de assert, crashes y resultados incorrectos en SQLite
Google OSS Fuzz
- Desde 2016 ejecuta fuzzing automatizado sobre la infraestructura de Google
- Detecta problemas intermitentes en commits nuevos
dbsqlfuzz / jfuzz
- Adoptados como fuzzers internos desde 2018, mutan al mismo tiempo SQL y archivos de BD
- Ejecutan más de 500 millones de pruebas por día, y casi eliminaron los reportes de bugs provenientes de fuzzers externos
- Desde 2024, jfuzz añadió validación de entradas JSONB
Fuzzers de terceros y fuzzcheck
- Investigadores externos (por ejemplo, Manuel Rigger) descubrieron numerosos casos de cálculo de resultados incorrectos
- La utilidad fuzzcheck vuelve a validar miles de casos “interesantes” de fuzzing del pasado
La tensión entre MC/DC y fuzz testing
- MC/DC minimiza el código defensivo, mientras que el fuzzing necesita código defensivo
- SQLite combina ambos enfoques para mantener código robusto tanto para entradas normales como maliciosas

5. Pruebas de regresión

Todo bug reportado, una vez corregido, se agrega obligatoriamente como nuevo caso de prueba
- El objetivo es evitar la reaparición de errores pasados

6. Detección automática de fugas de recursos

Los harnesses TCL y TH3 supervisan automáticamente fugas de memoria, archivos, hilos y mutexes
- No debe haber fugas de memoria incluso después de OOM o errores de I/O

7. Cobertura de pruebas

El núcleo de SQLite alcanza 100% de cobertura de ramas según TH3
- Se excluyen extensiones como FTS3 y RTree
Cobertura de sentencias vs. cobertura de ramas
- La cobertura de ramas es más estricta que la de sentencias y valida cada bifurcación condicional en ambos sentidos
Cobertura de código defensivo
- Las macros ALWAYS() y NEVER() especifican condiciones defensivas
- Las pruebas se repiten con tres formas de definición para verificar la consistencia
Pruebas de valores límite y vectores booleanos
- La macro testcase() valida tanto resultados positivos como negativos de las condiciones
- Se usan 1184 llamadas a testcase()
Logro de MC/DC
- Mediante la macro testcase() se verifica el efecto independiente de cada condición
Medición basada en gcov
- La cobertura se mide con las opciones -fprofile-arcs -ftest-coverage
- Al comparar resultados, se detectan bugs del compilador o comportamiento indefinido
Mutation Testing
- Se modifican instrucciones de bifurcación para verificar si las pruebas lo detectan
- Las ramas de optimización (/*OPTIMIZATION-IF-TRUE*/) se tratan como excepción
La experiencia de cobertura completa
- Gracias a probar todas las ramas, se minimizan los efectos secundarios al cambiar el código
- El costo de mantenimiento es alto, pero se justifica al ser una biblioteca de infraestructura distribuida masivamente

8. Análisis dinámico

Assert()
- 6754 sentencias assert verifican precondiciones, postcondiciones e invariantes de bucle
- Solo están activas en compilaciones SQLITE_DEBUG
Valgrind
- Detecta errores de memoria, desbordamientos de pila y accesos a memoria no inicializada
- Antes de cada lanzamiento se ejecutan las pruebas veryquick y TH3 con Valgrind
Memsys2
- En compilaciones SQLITE_MEMDEBUG, inserta wrappers para supervisar errores de memoria
- Permite repetir verificaciones más rápido que con Valgrind
Mutex Asserts
- Verifican la sincronización multihilo con sqlite3_mutex_held() y similares
Journal Tests
- Verifican que el rollback journal se escriba antes que la BD, garantizando la atomicidad de las transacciones
Verificaciones de comportamiento indefinido
- Se detecta comportamiento indefinido con -ftrapv, -fsanitize=undefined, /RTC1, etc.
- Se repiten en 32/64 bits, distintos endianness y diversas arquitecturas de CPU

9. Pruebas con optimizaciones desactivadas

sqlite3_test_control(SQLITE_TESTCTRL_OPTIMIZATIONS) permite desactivar optimizaciones
- Debe producirse el mismo resultado independientemente de que haya optimizaciones o no
- Algunas pruebas orientadas a medir rendimiento son la excepción

10. Lista de verificación

Antes de cada lanzamiento se valida una checklist manual de alrededor de 200 elementos
- Algunos toman segundos y otros varias horas
- Si se detecta un problema, se agrega de inmediato un nuevo elemento, mejorando el proceso de forma continua

11. Análisis estático

Compila sin advertencias en GCC, Clang y MSVC
- Tampoco hay advertencias válidas en Clang Static Analyzer
- El análisis estático tiene un efecto limitado para detectar bugs reales

12. Resumen

SQLite mantiene calidad de nivel comercial y una baja tasa de defectos a pesar de ser de código abierto
- Las pruebas exhaustivas y el diseño del código son factores clave
- Cada lanzamiento pasa por este proceso y se ofrece como un motor de base de datos confiable incluso en entornos mission-critical

4 comentarios

regentag 2025-12-19

Artículo relacionado para leer junto con este: La historia desconocida de SQLite

Este es un texto que resume una entrevista con Richard Hipp, desarrollador de SQLite.

Se dice que los desarrolladores de SQLite conocieron Do-178 cuando trabajaban con Rockwell Collins y que empezaron a seguir este procedimiento. Uno de esos puntos es alcanzar el 100% de MC/DC.

Do-178 es realmente una guía muy útil, así que recomiendo que cualquier desarrollador la lea.

roxie 2025-12-19

¿Es este? https://alm.parasoft.com/hubfs/…