2 puntos por GN⁺ 2025-07-12 | 1 comentarios | Compartir por WhatsApp
  • ETH Zurich y EPFL lideran el próximo lanzamiento de un modelo de lenguaje grande (LLM) desarrollado de forma completamente abierta sobre infraestructura pública
  • Este modelo pone el foco en la transparencia, el rendimiento multilingüe y la amplia accesibilidad, por lo que podrá usarse en ciencia, gobierno y sector privado, entre otros ámbitos
  • Se publicarán el código fuente y los pesos, así como los datos de entrenamiento, y todo el proceso fue diseñado para ser reproducible, impulsando la investigación abierta y el cumplimiento regulatorio
  • Fue entrenado en la supercomputadora de última generación Alps (CSCS) con energía ecológica, con el objetivo de lograr gran escala, alto rendimiento y un uso responsable de los datos
  • Se espera que este LLM se publique a finales del verano bajo la licencia Apache 2.0, y que contribuya a impulsar la innovación y la investigación a nivel global

Colaboración internacional y contexto para construir un LLM abierto

  • En Ginebra se reunieron más de 50 organizaciones globales vinculadas a LLM de código abierto y a la IA confiable durante el International Open-Source LLM Builders Summit
  • El evento, organizado por los centros de IA de EPFL y ETH Zurich, fue una oportunidad clave para impulsar la colaboración y el ecosistema de modelos fundacionales abiertos
  • Los LLM abiertos son vistos cada vez más como una alternativa a los sistemas comerciales desarrollados de forma cerrada en Estados Unidos, China y otros países

Características del nuevo LLM público y plan de lanzamiento

  • El LLM completamente abierto y desarrollado desde el sector público será lanzado próximamente gracias a la colaboración entre investigadores de EPFL, ETH Zurich, otras universidades suizas y los ingenieros de CSCS
  • Actualmente está en la fase final de pruebas y podrá descargarse con una licencia abierta
  • El modelo toma como valores centrales la transparencia, el rendimiento multilingüe y la amplia accesibilidad

Principios de apertura total y transparencia

  • Tanto el código fuente como los pesos del modelo se publicarán
  • Los datos de entrenamiento también se divulgarán de forma transparente y fueron diseñados para ser reproducibles, con el fin de facilitar su adopción en ciencia, gobierno, educación y el sector privado
  • Este enfoque busca impulsar la innovación y reforzar la responsabilidad

Opinión de expertos

  • Imanol Schlag, investigador del ETH AI Center, destacó que un modelo completamente abierto es esencial para aplicaciones confiables y para avanzar en la investigación sobre riesgos y oportunidades de la IA
  • Un proceso transparente también facilita el cumplimiento regulatorio

Diseño multilingüe

  • Una de las características principales del modelo es el soporte para más de 1,000 idiomas
  • El profesor Antoine Bosselut explicó que desde el inicio se enfocaron en un amplio soporte multilingüe
  • El preentrenamiento se realizó con un gran conjunto de datos de más de 1,500 idiomas (60% en inglés y 40% en otros idiomas), además de datos de código y matemáticas
  • Al reflejar contenido de distintos idiomas y culturas de todo el mundo, su utilidad global es alta

Escalabilidad e inclusión

  • El modelo se publicará en dos tamaños: 8 mil millones (8B) y 70 mil millones (70B) de parámetros
    • La versión de 70B será uno de los modelos completamente abiertos más potentes del mundo
  • Fue entrenado con más de 15 billones de tokens de alta calidad (pequeñas unidades de texto), lo que permite una alta confiabilidad y versatilidad

Uso responsable de los datos

  • Está siendo desarrollado en cumplimiento de las obligaciones de transparencia exigidas por la ley suiza de protección de datos, la ley de derechos de autor y la EU AI Act
  • Investigaciones recientes demostraron que respetar la exclusión del rastreo web (robots exclusion standard) casi no afecta el rendimiento de los LLM

Desarrollo sobre supercomputadora y sostenibilidad

  • El entrenamiento del modelo se realiza en la supercomputadora Alps de CSCS, ubicada en Lugano
    • Equipada con 10,000 NVIDIA Grace Hopper Superchips, es una infraestructura de IA de clase mundial
    • Permite un entrenamiento eficiente con electricidad 100% carbono neutral
  • La exitosa implementación de Alps fue posible gracias a una colaboración estratégica de 15 años con NVIDIA y HPE/Cray
  • Alps cumple un papel clave para satisfacer las demandas de trabajos de IA a gran escala, incluido el preentrenamiento de LLM complejos
  • El profesor Thomas Schulthess subrayó que el esfuerzo conjunto entre instituciones públicas de investigación y la industria demuestra cómo una infraestructura de IA soberana y la innovación abierta pueden beneficiar a la ciencia y a la sociedad en todo el mundo

Acceso abierto y uso global

  • El LLM se publicará a finales del verano bajo la licencia Apache 2.0
  • También se ofrecerá documentación sobre la arquitectura del modelo, los métodos de entrenamiento y las guías de uso, para apoyar la reutilización transparente y el desarrollo posterior
  • El profesor Antoine Bosselut señaló que espera que los investigadores públicos lideren el avance de los modelos abiertos y que diversas organizaciones desarrollen sus propias aplicaciones a partir de ellos
  • El profesor Martin Jaggi afirmó que la apertura total es un factor importante para impulsar la innovación mediante la cooperación entre Suiza, Europa y socios internacionales, además de atraer al mejor talento

1 comentarios

 
GN⁺ 2025-07-12
Comentarios de Hacker News
  • Tengo expectativas puestas en esto; hasta donde sé, ETH y EPFL están entrenando o afinando versiones anteriores, no los modelos más recientes de LLaMA, así que podrían quedarse algo atrás frente al rendimiento SOTA. Pero creo que lo más importante es que ETH y EPFL acumulen experiencia en entrenamiento a gran escala. Por lo que he escuchado, el clúster de IA recién construido todavía está pasando por muchos tropiezos iniciales. La gente a menudo subestima lo difícil que es entrenar modelos en infraestructura propia a esta escala.<br>Como referencia, nací en Suiza y estudié en ETH; talento les sobra, pero todavía les falta experiencia en entrenamiento a gran escala. Además, personalmente creo que mucha de la "magia" de los LLM en realidad viene de la infraestructura.

    • En realidad, creo que gran parte de la magia viene del dataset, en especial de SFT y de otros datos de fine-tuning/RLHF. Eso fue lo que realmente diferenció a los modelos que la gente usa de los que no. Estoy completamente de acuerdo en que hace falta ganar experiencia, y creo que construir infraestructura es una parte clave de una cadena de suministro soberana para LLM. Pero también hay que poner suficiente foco en los datos desde el principio para que el modelo termine siendo verdaderamente útil.

    • Para entrenar un LLM SOTA, la infraestructura también se vuelve bastante compleja. Mucha gente cree que basta con subir la arquitectura y los datasets y usar algo como Ray, pero en la práctica hacen falta muchísimas cosas: diseño del dataset, construcción de pipelines de evaluación, método de entrenamiento, exprimir el hardware al máximo, latencia entre nodos, recuperación ante errores, etc. Aun así, me parece bueno que entren más jugadores a este campo.

    • Al ver la frase "from scratch" asumí que están haciendo pretraining y no fine-tuning; me interesaría saber si alguien opina distinto. Y también me pregunto si lo están haciendo con una arquitectura Llama más o menos estándar. Tengo curiosidad por ver los resultados de los benchmarks.

  • Me alegra muchísimo la frase de que <i>respetar el opt-out del web crawling casi no afecta el rendimiento</i>.

    • Aunque en las métricas de entrenamiento no haya pérdida de rendimiento, al final para el usuario puede ser distinto. Los usuarios y los dueños de sitios web tienen objetivos fundamentalmente diferentes. Los usuarios quieren respuestas y contenido; los dueños de sitios buscan publicidad o ventas adicionales. Al final solo puedes satisfacer plenamente a una de las dos partes.
  • Me pregunto si este caso está estableciendo un nuevo estándar en transparencia de datasets. Si se concreta, me parece un avance importante. Aunque habría sido más divertido si le hubieran puesto a la máquina el nombre AIps (AI Petaflops Supercomputer).

    • El modelo OLMo del Allen Institute for Artificial Intelligence también es completamente abierto.<br><i>OLMo is fully open</i><br>La postura de AI2 es que la verdadera apertura significa publicar los datos, el modelo y el código.<br>Más sobre OLMo

    • Smollm también es, hasta donde sé, un modelo completamente abierto.

  • Tener datos de entrenamiento abiertos es el factor diferencial decisivo. Me pregunto si este es el primer dataset realmente abierto de esta escala. Intentos anteriores como The Pile también tuvieron valor, pero tenían limitaciones. También tengo curiosidad por cómo garantizarán la reproducibilidad del entrenamiento.

    • Por la frase "el modelo será completamente abierto: el código fuente y los pesos se publicarán, y los datos de entrenamiento serán transparentes y reproducibles", creo que el énfasis está más en que sean "reproducibles" que en que se publique todo el dataset de entrenamiento. Probablemente sí puedan publicar materiales de referencia, como la lista de URLs de las páginas usadas en el entrenamiento real, pero no necesariamente el contenido mismo.

    • Exacto, además siguen existiendo los problemas tradicionales de copyright, así que probablemente no lo entreguen como un dataset empaquetado listo para usar.

  • Esto es precisamente lo que significa la "democratización de la IA".

  • El comunicado de prensa habla muchísimo de cómo lo hicieron, pero casi no da información sobre qué capacidades tiene realmente en comparación con otros modelos abiertos.

    • En el caso de las universidades, enseñar "cómo se hizo" es una parte central de su misión, así que es natural que se enfoquen en eso.

    • Dicen que <i>el modelo se publicará en dos versiones, 8B (8 mil millones) y 70B (70 mil millones), y que la versión de 70B será uno de los modelos abiertos más potentes del mundo; se publicará a fines de este verano bajo licencia Apache 2.0</i>, así que podremos comprobarlo en septiembre.

  • Como suizo, me da orgullo ver esta noticia en la parte más alta de HN. Estas dos universidades han producido muchísimos fundadores, investigadores e ingenieros de nivel mundial, pero siempre han quedado a la sombra de Estados Unidos. Aun así, creo que gracias a su excelente infraestructura pública, educación y estabilidad política (+ neutralidad), pueden tener una oportunidad especial en el ámbito de los LLM abiertos.

  • El artículo menciona que<br>"los LLM abiertos están siendo vistos cada vez más como una alternativa confiable, mientras que la mayoría de los sistemas comerciales se desarrollan de forma cerrada en Estados Unidos o China".<br>Las empresas que hoy construyen LLM a gran escala tienen incentivos para degradar la calidad con tal de monetizar, ya sea empujando suscripciones, anuncios de productos, etc. Algunas incluso ya muestran sesgo político. Sería muy valioso que en Europa, mediante colaboración entre academia y gobierno, se ofrecieran servicios de búsqueda e IA con fines de interés público y centrados en el usuario.

    • Pero brindar ese tipo de servicios ya de por sí es complicado. Por bueno que sea el modelo entrenado, el serving real seguirá ocurriendo en el sector privado, así que la presión por monetizar no desaparece. En IA esto puede ser todavía peor porque los costos operativos son altos. Al final, si el servicio es gratuito, el usuario se vuelve el producto, así que hay que extraer valor de forma agresiva para que quede margen.
  • Tengo muchas ganas de probarlo en condiciones reales cuanto antes.

  • Me pregunto por qué anuncian esto de esta forma antes siquiera de lanzarlo; creo que haría falta hablar con más franqueza.

    • Este anuncio se hizo en el International Open-Source LLM Builders Summit que se celebró esta semana en Suiza. No me parece tan raro compartir el calendario y los planes.

    • Puede ser por financiamiento. Y también tiene sentido para dejar muy presente entre los usuarios europeos la idea de usar un LLM desarrollado públicamente en Europa (o al menos no de Estados Unidos ni China). (Quizá incluso sea demasiado lógico como para que lo aprueben en Bruselas).

    • En Suiza existe el cliché de que, cuando se va a hacer algo, todo avanza con mucha calma.