- En el Gran Colisionador de Hadrones, los enormes volúmenes de datos se filtran en tiempo real con modelos diminutos de IA implementados directamente en chips de silicio, seleccionando solo los eventos con significado científico
- Para procesar flujos de datos de cientos de terabytes por segundo, se usa hardware basado en FPGA y ASIC en lugar de GPU o TPU, con latencias del orden de nanosegundos para tomar decisiones
- Mediante la herramienta HLS4ML, modelos de PyTorch o TensorFlow se convierten en código C++ sintetizable para desplegarse directamente en el chip, con una arquitectura basada en tablas de consulta que genera salidas inmediatas sin operaciones de coma flotante
- El Level-1 Trigger del LHC está compuesto por cerca de 1,000 FPGA y evalúa los datos en menos de 50 nanosegundos; en etapas posteriores, 25,600 CPU y 400 GPU realizan filtrado adicional
- CERN está desarrollando modelos diminutos de IA de próxima generación de cara a la actualización High-Luminosity LHC de 2031, y este enfoque podría extenderse a sistemas autónomos, imagen médica y otros campos de ultra baja latencia
Resumen general
- CERN implementa modelos diminutos de inteligencia artificial directamente en chips de silicio para filtrar en tiempo real los enormes volúmenes de datos generados en el Gran Colisionador de Hadrones (LHC)
- De los datos de colisión, se seleccionan solo los eventos con relevancia científica y el resto se descarta de inmediato
- Para manejar flujos de datos de cientos de terabytes por segundo, se utiliza hardware personalizado basado en FPGA y ASIC en lugar de GPU o TPU
- Estos modelos de IA integrados en hardware toman decisiones a nivel del detector con latencias de microsegundos a nanosegundos
- El proceso de selección en tiempo real se considera una de las tareas con mayores exigencias computacionales de la ciencia moderna
El reto del procesamiento de datos
- El LHC genera alrededor de 40,000 exabytes de datos brutos al año, una escala equivalente a cerca de una cuarta parte de todo el internet actual
- Los paquetes de protones se desplazan por el anillo de 27 km a velocidades cercanas a la de la luz y se cruzan cada 25 nanosegundos
- Aunque las colisiones reales son poco frecuentes, cada una produce varios megabytes de datos
- Como es imposible almacenar o procesar todo el volumen, solo se conserva alrededor del 0.02% de los eventos
- La primera etapa de filtrado, el Level-1 Trigger, está compuesta por cerca de 1,000 FPGA y evalúa los datos en menos de 50 nanosegundos
- El algoritmo AXOL1TL se ejecuta directamente sobre estos chips para identificar eventos científicamente prometedores y descartar de inmediato el resto
Enfoque de IA y stack tecnológico
- Los modelos de IA de CERN están diseñados con una estructura diminuta y de alta eficiencia y, a diferencia de los grandes modelos industriales de uso general, están optimizados para inferencia ultrarrápida a nivel del detector
- A través de la herramienta open source HLS4ML, los modelos basados en PyTorch o TensorFlow se convierten en código C++ sintetizable
- El código convertido se despliega directamente en FPGA, SoC y ASIC, operando con mucho menos consumo de energía y área de silicio que una GPU o TPU
- Una parte importante de los recursos del chip se dedica a implementar tablas de consulta precalculadas (lookup tables) en lugar de capas de red neuronal tradicionales
- Estas tablas almacenan por adelantado los resultados de patrones de entrada comunes para generar salidas inmediatas sin operaciones de coma flotante en la mayoría de las señales del detector
- Esta filosofía de diseño centrada en el hardware es la que permite alcanzar latencias del orden de nanosegundos
- La segunda etapa de filtrado, el High-Level Trigger, corre en una granja de cómputo compuesta por 25,600 CPU y 400 GPU
- Incluso después del Level-1 Trigger, procesa varios terabytes por segundo y los comprime hasta cerca de 1 petabyte de datos científicos por día
Planes a futuro
- El LHC se prepara para la actualización High-Luminosity LHC (HL-LHC), prevista para entrar en operación en 2031
- Se espera que la cantidad de datos por colisión aumente unas 10 veces respecto a la actual, y que el tamaño de los eventos también crezca de forma considerable
- Para ello, CERN está avanzando en modelos diminutos de IA de próxima generación y en la optimización de implementaciones sobre FPGA y ASIC
- El objetivo es reforzar todo el sistema de disparo en tiempo real para mantener un rendimiento de ultra baja latencia incluso con tasas de datos mucho mayores
- Esta preparación se considera una base clave para seguir habilitando nuevos descubrimientos en física de partículas durante las próximas décadas
Significado e impacto
- Mientras la industria global de IA se concentra en escalar modelos gigantes, CERN está desarrollando los modelos de IA más pequeños, rápidos y eficientes
- Al implementarse directamente sobre FPGA y ASIC, estos modelos se consideran un caso real de uso de “Tiny AI”
- Dentro del sistema de trigger del LHC, estos modelos logran niveles de rendimiento imposibles para aceleradores de IA convencionales
- En entornos extremos donde se requieren decisiones en nanosegundos, consiguen máxima eficiencia con recursos mínimos
- Este enfoque podría aplicarse más allá de la física de partículas, en áreas como sistemas autónomos, trading de alta frecuencia, imagen médica y aeroespacial, donde se necesita inferencia en tiempo real con ultra baja latencia
- En una era en la que la eficiencia energética y el ahorro de recursos computacionales son cada vez más importantes, los modelos de CERN proponen una alternativa basada no en escalar, sino en la especialización extrema y la optimización a nivel de hardware
1 comentarios
Comentarios en Hacker News
Soy autor de uno de los dos modelos de este artículo
Para aclarar una confusión: estos modelos no están grabados directamente en silicio, sino desplegados sobre FPGA
En el caso de axol1tl, los pesos están cableados en el fabric, pero sigue siendo reprogramable
Proyectos como smartpixel de CERN o el readout de HG-Cal sí están avanzando hacia silicio real
Diapositivas relacionadas: presentación de CERN
El proceso de aprobación del paper es largo, pero en unos meses debería salir una versión más completa
El modelo al principio era un MLP basado en VAE simple, y desde la v5 se le añadió un bloque VICREG para operar a 40MHz en 2 ciclos de reloj
Después se desplegó en FPGA mediante hls4ml-da4ml, paper relacionado
El modelo CICADA se basa en VAE y destila de forma supervisada la puntuación de detección de anomalías con una arquitectura maestro-alumno
Diapositivas de referencia: presentación de CICADA
Mi investigación se enfoca en QAT (entrenamiento de cuantización de alta precisión) y en el despliegue de NN basado en aritmética distribuida
Papers relacionados: arXiv:2405.00645, arXiv:2507.04535
Yo también implementé un acelerador de GNN en FPGA al inicio de mi doctorado y colaboré con gente de CERN/Fermilab
Ahora me cambié a investigación sobre HLS y EDA, y me da curiosidad saber cuáles son hoy las principales limitaciones al implementar sistemas de trigger en hardware
Los bugs en herramientas HLS comerciales, la dificultad para depurar y los largos tiempos de compilación se sienten como restricciones importantes
Me gustaría saber si por eso el tooling de EDA termina siendo el cuello de botella, o si hay otros factores técnicos todavía más importantes
Usaron una red neuronal basada en autoencoder con capas convolucionales y la entrenaron con datos de experimentos anteriores
paper relacionado
Habría sido un artículo mucho mejor si hubiera explicado con claridad qué algoritmo de IA usaron
De hecho, el predictor de saltos (branch predictor) de los CPU modernos también usa perceptrones
Incluso en la era de Delphi ya había papers sobre ANN para selección de Higgs, y esos intentos terminaron llevando al LHC
Comparto material relacionado
Big Data and AI at the CERN LHC
Nanosecond AI at the Large Hadron Collider
página de ScyllaDB Tech Talk
Este proyecto funciona a 40MHz, pero mi herramienta CflexHDL logra ray tracing en tiempo real a 148MHz
video de demostración
Esta herramienta recibe apoyo de la Nlnet Foundation y también está planeada la integración con las herramientas de IA de CERN
Quiero resaltar la importancia de una toolchain open source
Hay un poco de hype de IA en el artículo
En la práctica, puede verse como un chip con lógica hardcodeada obtenida mediante machine learning
En realidad está más cerca de una máquina de estados solo para inferencia, y si cambia el entorno no hace falta reentrenar sino un respin de hardware
En situaciones así se nota que la palabra “IA” no es solo un adjetivo decorativo
Lo interesante es que, al revés de la IA habitual, aquí el modelo tiene que justificar su existencia soportando restricciones de hardware
En este entorno no solo importa la latencia, sino más aún la determinación, el presupuesto de energía y la estabilidad bajo cargas extremas
La frase “las FPGA fueron grabadas en silicio” suena rara
Sería sorprendente que CERN hiciera tape-out de un ASIC
presentación relacionada
Esto no es el tipo de LLM del que tanto se habla hoy, sino una red neuronal implementada en FPGA
No estoy seguro de que un ASIC sea lo adecuado en este caso
Gracias por el feedback
Actualicé el contenido del artículo para reflejar la arquitectura AXOL1TL basada en VAE y añadí el paper de arXiv relacionado y el video de la presentación de Thea Aarrestad
CERN sigue usando GPU de forma amplia y aprovecha activamente GPU/CPU COTS según el caso