ETH Zurich y EPFL publicarán un LLM desarrollado en infraestructura pública

(ethz.ch)

2 puntos por GN⁺ 2025-07-12 | 1 comentarios | Compartir por WhatsApp

ETH Zurich y EPFL lideran el próximo lanzamiento de un modelo de lenguaje grande (LLM) desarrollado de forma completamente abierta sobre infraestructura pública
Este modelo pone el foco en la transparencia, el rendimiento multilingüe y la amplia accesibilidad, por lo que podrá usarse en ciencia, gobierno y sector privado, entre otros ámbitos
Se publicarán el código fuente y los pesos, así como los datos de entrenamiento, y todo el proceso fue diseñado para ser reproducible, impulsando la investigación abierta y el cumplimiento regulatorio
Fue entrenado en la supercomputadora de última generación Alps (CSCS) con energía ecológica, con el objetivo de lograr gran escala, alto rendimiento y un uso responsable de los datos
Se espera que este LLM se publique a finales del verano bajo la licencia Apache 2.0, y que contribuya a impulsar la innovación y la investigación a nivel global

Colaboración internacional y contexto para construir un LLM abierto

En Ginebra se reunieron más de 50 organizaciones globales vinculadas a LLM de código abierto y a la IA confiable durante el International Open-Source LLM Builders Summit
El evento, organizado por los centros de IA de EPFL y ETH Zurich, fue una oportunidad clave para impulsar la colaboración y el ecosistema de modelos fundacionales abiertos
Los LLM abiertos son vistos cada vez más como una alternativa a los sistemas comerciales desarrollados de forma cerrada en Estados Unidos, China y otros países

Características del nuevo LLM público y plan de lanzamiento

El LLM completamente abierto y desarrollado desde el sector público será lanzado próximamente gracias a la colaboración entre investigadores de EPFL, ETH Zurich, otras universidades suizas y los ingenieros de CSCS
Actualmente está en la fase final de pruebas y podrá descargarse con una licencia abierta
El modelo toma como valores centrales la transparencia, el rendimiento multilingüe y la amplia accesibilidad

Principios de apertura total y transparencia

Tanto el código fuente como los pesos del modelo se publicarán
Los datos de entrenamiento también se divulgarán de forma transparente y fueron diseñados para ser reproducibles, con el fin de facilitar su adopción en ciencia, gobierno, educación y el sector privado
Este enfoque busca impulsar la innovación y reforzar la responsabilidad

Opinión de expertos

Imanol Schlag, investigador del ETH AI Center, destacó que un modelo completamente abierto es esencial para aplicaciones confiables y para avanzar en la investigación sobre riesgos y oportunidades de la IA
Un proceso transparente también facilita el cumplimiento regulatorio

Diseño multilingüe

Una de las características principales del modelo es el soporte para más de 1,000 idiomas
El profesor Antoine Bosselut explicó que desde el inicio se enfocaron en un amplio soporte multilingüe
El preentrenamiento se realizó con un gran conjunto de datos de más de 1,500 idiomas (60% en inglés y 40% en otros idiomas), además de datos de código y matemáticas
Al reflejar contenido de distintos idiomas y culturas de todo el mundo, su utilidad global es alta

Escalabilidad e inclusión

El modelo se publicará en dos tamaños: 8 mil millones (8B) y 70 mil millones (70B) de parámetros
- La versión de 70B será uno de los modelos completamente abiertos más potentes del mundo
Fue entrenado con más de 15 billones de tokens de alta calidad (pequeñas unidades de texto), lo que permite una alta confiabilidad y versatilidad

Uso responsable de los datos

Está siendo desarrollado en cumplimiento de las obligaciones de transparencia exigidas por la ley suiza de protección de datos, la ley de derechos de autor y la EU AI Act
Investigaciones recientes demostraron que respetar la exclusión del rastreo web (robots exclusion standard) casi no afecta el rendimiento de los LLM

Desarrollo sobre supercomputadora y sostenibilidad

El entrenamiento del modelo se realiza en la supercomputadora Alps de CSCS, ubicada en Lugano
- Equipada con 10,000 NVIDIA Grace Hopper Superchips, es una infraestructura de IA de clase mundial
- Permite un entrenamiento eficiente con electricidad 100% carbono neutral
La exitosa implementación de Alps fue posible gracias a una colaboración estratégica de 15 años con NVIDIA y HPE/Cray
Alps cumple un papel clave para satisfacer las demandas de trabajos de IA a gran escala, incluido el preentrenamiento de LLM complejos
El profesor Thomas Schulthess subrayó que el esfuerzo conjunto entre instituciones públicas de investigación y la industria demuestra cómo una infraestructura de IA soberana y la innovación abierta pueden beneficiar a la ciencia y a la sociedad en todo el mundo

Acceso abierto y uso global

El LLM se publicará a finales del verano bajo la licencia Apache 2.0
También se ofrecerá documentación sobre la arquitectura del modelo, los métodos de entrenamiento y las guías de uso, para apoyar la reutilización transparente y el desarrollo posterior
El profesor Antoine Bosselut señaló que espera que los investigadores públicos lideren el avance de los modelos abiertos y que diversas organizaciones desarrollen sus propias aplicaciones a partir de ellos
El profesor Martin Jaggi afirmó que la apertura total es un factor importante para impulsar la innovación mediante la cooperación entre Suiza, Europa y socios internacionales, además de atraer al mejor talento

1 comentarios

GN⁺ 2025-07-12

Comentarios de Hacker News

Tengo expectativas puestas en esto; hasta donde sé, ETH y EPFL están entrenando o afinando versiones anteriores, no los modelos más recientes de LLaMA, así que podrían quedarse algo atrás frente al rendimiento SOTA. Pero creo que lo más importante es que ETH y EPFL acumulen experiencia en entrenamiento a gran escala. Por lo que he escuchado, el clúster de IA recién construido todavía está pasando por muchos tropiezos iniciales. La gente a menudo subestima lo difícil que es entrenar modelos en infraestructura propia a esta escala. Como referencia, nací en Suiza y estudié en ETH; talento les sobra, pero todavía les falta experiencia en entrenamiento a gran escala. Además, personalmente creo que mucha de la "magia" de los LLM en realidad viene de la infraestructura.
- En realidad, creo que gran parte de la magia viene del dataset, en especial de SFT y de otros datos de fine-tuning/RLHF. Eso fue lo que realmente diferenció a los modelos que la gente usa de los que no. Estoy completamente de acuerdo en que hace falta ganar experiencia, y creo que construir infraestructura es una parte clave de una cadena de suministro soberana para LLM. Pero también hay que poner suficiente foco en los datos desde el principio para que el modelo termine siendo verdaderamente útil.
- Para entrenar un LLM SOTA, la infraestructura también se vuelve bastante compleja. Mucha gente cree que basta con subir la arquitectura y los datasets y usar algo como Ray, pero en la práctica hacen falta muchísimas cosas: diseño del dataset, construcción de pipelines de evaluación, método de entrenamiento, exprimir el hardware al máximo, latencia entre nodos, recuperación ante errores, etc. Aun así, me parece bueno que entren más jugadores a este campo.
- Al ver la frase "from scratch" asumí que están haciendo pretraining y no fine-tuning; me interesaría saber si alguien opina distinto. Y también me pregunto si lo están haciendo con una arquitectura Llama más o menos estándar. Tengo curiosidad por ver los resultados de los benchmarks.
Me alegra muchísimo la frase de que respetar el opt-out del web crawling casi no afecta el rendimiento.
- Aunque en las métricas de entrenamiento no haya pérdida de rendimiento, al final para el usuario puede ser distinto. Los usuarios y los dueños de sitios web tienen objetivos fundamentalmente diferentes. Los usuarios quieren respuestas y contenido; los dueños de sitios buscan publicidad o ventas adicionales. Al final solo puedes satisfacer plenamente a una de las dos partes.
Me pregunto si este caso está estableciendo un nuevo estándar en transparencia de datasets. Si se concreta, me parece un avance importante. Aunque habría sido más divertido si le hubieran puesto a la máquina el nombre AIps (AI Petaflops Supercomputer).
- El modelo OLMo del Allen Institute for Artificial Intelligence también es completamente abierto. OLMo is fully open La postura de AI2 es que la verdadera apertura significa publicar los datos, el modelo y el código. Más sobre OLMo
- Smollm también es, hasta donde sé, un modelo completamente abierto.
Tener datos de entrenamiento abiertos es el factor diferencial decisivo. Me pregunto si este es el primer dataset realmente abierto de esta escala. Intentos anteriores como The Pile también tuvieron valor, pero tenían limitaciones. También tengo curiosidad por cómo garantizarán la reproducibilidad del entrenamiento.
- Por la frase "el modelo será completamente abierto: el código fuente y los pesos se publicarán, y los datos de entrenamiento serán transparentes y reproducibles", creo que el énfasis está más en que sean "reproducibles" que en que se publique todo el dataset de entrenamiento. Probablemente sí puedan publicar materiales de referencia, como la lista de URLs de las páginas usadas en el entrenamiento real, pero no necesariamente el contenido mismo.
- Exacto, además siguen existiendo los problemas tradicionales de copyright, así que probablemente no lo entreguen como un dataset empaquetado listo para usar.
Esto es precisamente lo que significa la "democratización de la IA".
El comunicado de prensa habla muchísimo de cómo lo hicieron, pero casi no da información sobre qué capacidades tiene realmente en comparación con otros modelos abiertos.
- En el caso de las universidades, enseñar "cómo se hizo" es una parte central de su misión, así que es natural que se enfoquen en eso.
- Dicen que el modelo se publicará en dos versiones, 8B (8 mil millones) y 70B (70 mil millones), y que la versión de 70B será uno de los modelos abiertos más potentes del mundo; se publicará a fines de este verano bajo licencia Apache 2.0, así que podremos comprobarlo en septiembre.
Como suizo, me da orgullo ver esta noticia en la parte más alta de HN. Estas dos universidades han producido muchísimos fundadores, investigadores e ingenieros de nivel mundial, pero siempre han quedado a la sombra de Estados Unidos. Aun así, creo que gracias a su excelente infraestructura pública, educación y estabilidad política (+ neutralidad), pueden tener una oportunidad especial en el ámbito de los LLM abiertos.
El artículo menciona que "los LLM abiertos están siendo vistos cada vez más como una alternativa confiable, mientras que la mayoría de los sistemas comerciales se desarrollan de forma cerrada en Estados Unidos o China". Las empresas que hoy construyen LLM a gran escala tienen incentivos para degradar la calidad con tal de monetizar, ya sea empujando suscripciones, anuncios de productos, etc. Algunas incluso ya muestran sesgo político. Sería muy valioso que en Europa, mediante colaboración entre academia y gobierno, se ofrecieran servicios de búsqueda e IA con fines de interés público y centrados en el usuario.
- Pero brindar ese tipo de servicios ya de por sí es complicado. Por bueno que sea el modelo entrenado, el serving real seguirá ocurriendo en el sector privado, así que la presión por monetizar no desaparece. En IA esto puede ser todavía peor porque los costos operativos son altos. Al final, si el servicio es gratuito, el usuario se vuelve el producto, así que hay que extraer valor de forma agresiva para que quede margen.
Tengo muchas ganas de probarlo en condiciones reales cuanto antes.
Me pregunto por qué anuncian esto de esta forma antes siquiera de lanzarlo; creo que haría falta hablar con más franqueza.
- Este anuncio se hizo en el International Open-Source LLM Builders Summit que se celebró esta semana en Suiza. No me parece tan raro compartir el calendario y los planes.
- Puede ser por financiamiento. Y también tiene sentido para dejar muy presente entre los usuarios europeos la idea de usar un LLM desarrollado públicamente en Europa (o al menos no de Estados Unidos ni China). (Quizá incluso sea demasiado lógico como para que lo aprueben en Bruselas).
- En Suiza existe el cliché de que, cuando se va a hacer algo, todo avanza con mucha calma.

ETH Zurich y EPFL publicarán un LLM desarrollado en infraestructura pública

Colaboración internacional y contexto para construir un LLM abierto

Características del nuevo LLM público y plan de lanzamiento

Principios de apertura total y transparencia

Opinión de expertos

Diseño multilingüe

Escalabilidad e inclusión

Uso responsable de los datos

Desarrollo sobre supercomputadora y sostenibilidad

Acceso abierto y uso global

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News