8 puntos por GN⁺ 2026-03-30 | 1 comentarios | Compartir por WhatsApp
  • En el Gran Colisionador de Hadrones, los enormes volúmenes de datos se filtran en tiempo real con modelos diminutos de IA implementados directamente en chips de silicio, seleccionando solo los eventos con significado científico
  • Para procesar flujos de datos de cientos de terabytes por segundo, se usa hardware basado en FPGA y ASIC en lugar de GPU o TPU, con latencias del orden de nanosegundos para tomar decisiones
  • Mediante la herramienta HLS4ML, modelos de PyTorch o TensorFlow se convierten en código C++ sintetizable para desplegarse directamente en el chip, con una arquitectura basada en tablas de consulta que genera salidas inmediatas sin operaciones de coma flotante
  • El Level-1 Trigger del LHC está compuesto por cerca de 1,000 FPGA y evalúa los datos en menos de 50 nanosegundos; en etapas posteriores, 25,600 CPU y 400 GPU realizan filtrado adicional
  • CERN está desarrollando modelos diminutos de IA de próxima generación de cara a la actualización High-Luminosity LHC de 2031, y este enfoque podría extenderse a sistemas autónomos, imagen médica y otros campos de ultra baja latencia

Resumen general

  • CERN implementa modelos diminutos de inteligencia artificial directamente en chips de silicio para filtrar en tiempo real los enormes volúmenes de datos generados en el Gran Colisionador de Hadrones (LHC)
    • De los datos de colisión, se seleccionan solo los eventos con relevancia científica y el resto se descarta de inmediato
    • Para manejar flujos de datos de cientos de terabytes por segundo, se utiliza hardware personalizado basado en FPGA y ASIC en lugar de GPU o TPU
  • Estos modelos de IA integrados en hardware toman decisiones a nivel del detector con latencias de microsegundos a nanosegundos
    • El proceso de selección en tiempo real se considera una de las tareas con mayores exigencias computacionales de la ciencia moderna

El reto del procesamiento de datos

  • El LHC genera alrededor de 40,000 exabytes de datos brutos al año, una escala equivalente a cerca de una cuarta parte de todo el internet actual
    • Los paquetes de protones se desplazan por el anillo de 27 km a velocidades cercanas a la de la luz y se cruzan cada 25 nanosegundos
    • Aunque las colisiones reales son poco frecuentes, cada una produce varios megabytes de datos
  • Como es imposible almacenar o procesar todo el volumen, solo se conserva alrededor del 0.02% de los eventos
    • La primera etapa de filtrado, el Level-1 Trigger, está compuesta por cerca de 1,000 FPGA y evalúa los datos en menos de 50 nanosegundos
    • El algoritmo AXOL1TL se ejecuta directamente sobre estos chips para identificar eventos científicamente prometedores y descartar de inmediato el resto

Enfoque de IA y stack tecnológico

  • Los modelos de IA de CERN están diseñados con una estructura diminuta y de alta eficiencia y, a diferencia de los grandes modelos industriales de uso general, están optimizados para inferencia ultrarrápida a nivel del detector
    • A través de la herramienta open source HLS4ML, los modelos basados en PyTorch o TensorFlow se convierten en código C++ sintetizable
    • El código convertido se despliega directamente en FPGA, SoC y ASIC, operando con mucho menos consumo de energía y área de silicio que una GPU o TPU
  • Una parte importante de los recursos del chip se dedica a implementar tablas de consulta precalculadas (lookup tables) en lugar de capas de red neuronal tradicionales
    • Estas tablas almacenan por adelantado los resultados de patrones de entrada comunes para generar salidas inmediatas sin operaciones de coma flotante en la mayoría de las señales del detector
    • Esta filosofía de diseño centrada en el hardware es la que permite alcanzar latencias del orden de nanosegundos
  • La segunda etapa de filtrado, el High-Level Trigger, corre en una granja de cómputo compuesta por 25,600 CPU y 400 GPU
    • Incluso después del Level-1 Trigger, procesa varios terabytes por segundo y los comprime hasta cerca de 1 petabyte de datos científicos por día

Planes a futuro

  • El LHC se prepara para la actualización High-Luminosity LHC (HL-LHC), prevista para entrar en operación en 2031
    • Se espera que la cantidad de datos por colisión aumente unas 10 veces respecto a la actual, y que el tamaño de los eventos también crezca de forma considerable
  • Para ello, CERN está avanzando en modelos diminutos de IA de próxima generación y en la optimización de implementaciones sobre FPGA y ASIC
    • El objetivo es reforzar todo el sistema de disparo en tiempo real para mantener un rendimiento de ultra baja latencia incluso con tasas de datos mucho mayores
  • Esta preparación se considera una base clave para seguir habilitando nuevos descubrimientos en física de partículas durante las próximas décadas

Significado e impacto

  • Mientras la industria global de IA se concentra en escalar modelos gigantes, CERN está desarrollando los modelos de IA más pequeños, rápidos y eficientes
    • Al implementarse directamente sobre FPGA y ASIC, estos modelos se consideran un caso real de uso de “Tiny AI”
  • Dentro del sistema de trigger del LHC, estos modelos logran niveles de rendimiento imposibles para aceleradores de IA convencionales
    • En entornos extremos donde se requieren decisiones en nanosegundos, consiguen máxima eficiencia con recursos mínimos
  • Este enfoque podría aplicarse más allá de la física de partículas, en áreas como sistemas autónomos, trading de alta frecuencia, imagen médica y aeroespacial, donde se necesita inferencia en tiempo real con ultra baja latencia
    • En una era en la que la eficiencia energética y el ahorro de recursos computacionales son cada vez más importantes, los modelos de CERN proponen una alternativa basada no en escalar, sino en la especialización extrema y la optimización a nivel de hardware

1 comentarios

 
GN⁺ 2026-03-30
Comentarios en Hacker News
  • Soy autor de uno de los dos modelos de este artículo
    Para aclarar una confusión: estos modelos no están grabados directamente en silicio, sino desplegados sobre FPGA
    En el caso de axol1tl, los pesos están cableados en el fabric, pero sigue siendo reprogramable
    Proyectos como smartpixel de CERN o el readout de HG-Cal sí están avanzando hacia silicio real
    Diapositivas relacionadas: presentación de CERN
    El proceso de aprobación del paper es largo, pero en unos meses debería salir una versión más completa
    El modelo al principio era un MLP basado en VAE simple, y desde la v5 se le añadió un bloque VICREG para operar a 40MHz en 2 ciclos de reloj
    Después se desplegó en FPGA mediante hls4ml-da4ml, paper relacionado
    El modelo CICADA se basa en VAE y destila de forma supervisada la puntuación de detección de anomalías con una arquitectura maestro-alumno
    Diapositivas de referencia: presentación de CICADA
    Mi investigación se enfoca en QAT (entrenamiento de cuantización de alta precisión) y en el despliegue de NN basado en aritmética distribuida
    Papers relacionados: arXiv:2405.00645, arXiv:2507.04535

    • Trabajo realmente interesante
      Yo también implementé un acelerador de GNN en FPGA al inicio de mi doctorado y colaboré con gente de CERN/Fermilab
      Ahora me cambié a investigación sobre HLS y EDA, y me da curiosidad saber cuáles son hoy las principales limitaciones al implementar sistemas de trigger en hardware
      Los bugs en herramientas HLS comerciales, la dificultad para depurar y los largos tiempos de compilación se sienten como restricciones importantes
      Me gustaría saber si por eso el tooling de EDA termina siendo el cuello de botella, o si hay otros factores técnicos todavía más importantes
  • Usaron una red neuronal basada en autoencoder con capas convolucionales y la entrenaron con datos de experimentos anteriores
    paper relacionado
    Habría sido un artículo mucho mejor si hubiera explicado con claridad qué algoritmo de IA usaron

    • Hoy en día, a veces “modelo de IA” prácticamente significa regresión lineal
    • Como la mayor parte de la implementación está basada en FPGA, decir que está “grabado en silicio” suena exagerado
    • Como si nada llamara la atención a menos que sea un LLM, da pena que la palabra “IA” se use como recurso de marketing
    • En artículos técnicos, omitir el algoritmo central es realmente frustrante
    • Una vez que supe que al final era un problema de detección de anomalías (anomaly detection), fue mucho más fácil entenderlo
  • De hecho, el predictor de saltos (branch predictor) de los CPU modernos también usa perceptrones

    • Como ejemplo, se puede ver este artículo sobre una NN dentro del chip del Samsung Galaxy S7 y este paper de IEEE
    • No sabía que existían estructuras así; me gustaría saber más sobre cómo se diseñan y entrenan
    • Da pena que hoy “IA” a veces se use como si significara “no entendíamos el problema y solo lanzamos una caja negra”
    • Un perceptrón al final es solo un predictor lineal, así que es simple
    • En HEP ya usan FPGA en triggers L0 desde hace décadas
      Incluso en la era de Delphi ya había papers sobre ANN para selección de Higgs, y esos intentos terminaron llevando al LHC
  • Comparto material relacionado
    Big Data and AI at the CERN LHC
    Nanosecond AI at the Large Hadron Collider
    página de ScyllaDB Tech Talk

  • Este proyecto funciona a 40MHz, pero mi herramienta CflexHDL logra ray tracing en tiempo real a 148MHz
    video de demostración
    Esta herramienta recibe apoyo de la Nlnet Foundation y también está planeada la integración con las herramientas de IA de CERN
    Quiero resaltar la importancia de una toolchain open source

  • Hay un poco de hype de IA en el artículo
    En la práctica, puede verse como un chip con lógica hardcodeada obtenida mediante machine learning

    • ML siempre ha sido parte de la IA; no es un concepto que haya aparecido después de ChatGPT
    • Incluso los pesos de un LLM al final contienen lógica aprendida
    • La expresión “IA” suena a marketing
      En realidad está más cerca de una máquina de estados solo para inferencia, y si cambia el entorno no hace falta reentrenar sino un respin de hardware
      En situaciones así se nota que la palabra “IA” no es solo un adjetivo decorativo
  • Lo interesante es que, al revés de la IA habitual, aquí el modelo tiene que justificar su existencia soportando restricciones de hardware
    En este entorno no solo importa la latencia, sino más aún la determinación, el presupuesto de energía y la estabilidad bajo cargas extremas

  • La frase “las FPGA fueron grabadas en silicio” suena rara
    Sería sorprendente que CERN hiciera tape-out de un ASIC

    • En realidad, CERN sí diseña ASIC personalizados para otros usos
      presentación relacionada
    • Tal vez también lo encargaron a un proveedor externo
    • Al final parece que corrigieron el título del artículo
  • Esto no es el tipo de LLM del que tanto se habla hoy, sino una red neuronal implementada en FPGA

    • El marketing de las empresas de LLM es tan fuerte que yo también pensé primero en eso
    • Si es FPGA, entonces la expresión “grabado en silicio” no es precisa
      No estoy seguro de que un ASIC sea lo adecuado en este caso
  • Gracias por el feedback
    Actualicé el contenido del artículo para reflejar la arquitectura AXOL1TL basada en VAE y añadí el paper de arXiv relacionado y el video de la presentación de Thea Aarrestad

    • Aun así, la frase “CERN abandonó la IA basada en GPU/TPU” no es correcta
      CERN sigue usando GPU de forma amplia y aprovecha activamente GPU/CPU COTS según el caso