Apertus, un modelo fundacional abierto para la IA soberana

(apertvs.ai)

1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp

El ecosistema de IA de Suiza presentó su propio modelo fundacional, Apertus, con la mira puesta en la IA soberana, y destaca al frente la colaboración entre EPFL, ETH Zurich y CSCS
Su diferenciador clave es pesos abiertos, datos abiertos y ciencia abierta, documentando los datos de entrenamiento, el código, los pesos, la metodología y hasta los principios de alineación para enfatizar la reproducibilidad
En términos de regulación y confianza, considera los requisitos del EU AI Act e incluye condiciones como respetar el opt-out, eliminar PII y prevenir la memorización
Afirma ofrecer un rendimiento competitivo frente a los principales modelos abiertos de tamaño comparable en escalas de 8B y 70B parámetros, y fue entrenado desde el inicio en más de 1,000 idiomas
Swisscom participa como socio estratégico, y las próximas versiones, investigaciones y novedades de la comunidad se compartirán por medio de un boletín

Organización desarrolladora y alcance de la publicación

Apertus es un modelo fundacional desarrollado por Swiss AI Initiative
- Swiss AI Initiative es una iniciativa impulsada por la colaboración entre EPFL, ETH Zurich y CSCS
El alcance de la publicación incluye datos de entrenamiento, código, pesos, metodología y principios de alineación
Los elementos publicados están documentados y apuntan a ser reproducibles
Apertus enfatiza su carácter de modelo abierto con la frase “Open en IA es como Source”

Cumplimiento regulatorio y características del modelo

El modelo fue construido para cumplir con los requisitos del EU AI Act
- Respeta el opt-out
- Elimina PII
- Previene la memorización
Presume un rendimiento competitivo frente a los mejores modelos abiertos de tamaño comparable en 8B y 70B parámetros
El soporte multilingüe estuvo incluido desde el inicio, con entrenamiento en más de 1,000 idiomas

Alianzas y novedades de la comunidad

Swisscom es socio estratégico de Swiss AI Initiative
El boletín ofrecerá novedades sobre lanzamientos de Apertus, investigación del equipo y noticias de la comunidad

1 comentarios

GN⁺ 4 시간 전

Comentarios en Hacker News

Entre los LLM completamente abiertos también están OLMo 3.1 de Allen AI y K2 Think V2 de MBZUAI; ambos publicaron todo el pipeline de entrenamiento y los datasets
Nvidia Nemotron también es un modelo con fuentes de entrenamiento abiertas, pero parte de sus datasets son propietarios
Citando un comentario de lambda, los modelos Nemotron suelen ser más fuertes que Olmo y K2 Think V2 (según el benchmark de Artificial Analysis), y además hay mucho solapamiento en los datasets. Varios datasets se crearon a partir de las mismas fuentes, filtrados de manera distinta, y Olmo y K2 Think V2 también usaron algunos datasets de Nemotron
Nemotron es un LLM moderno y bastante capaz, y el modelo 122b también es más fuerte que Deepseek R1 (modelo 671b) en la mayoría de los benchmarks; recientemente también salió Ultra 550b
https://news.ycombinator.com/item?id=48492439
- Allen AI no está recibiendo suficiente atención. Creo que la IA generativa debió haberse construido así desde el principio
  Si las empresas de frontera hubieran elegido este enfoque, el arranque habría sido mucho más lento, pero para 2035 probablemente estaríamos mucho más adelantados que ahora. En cambio, hoy gran parte de la sociedad quiere que la IA fracase
- Me dan ganas de probar Nemotron otra vez. Ayer usé el modelo más reciente en OpenRouter y no me gustó; fue peor incluso que StepFun
Me gusta la idea, y también ha crecido la necesidad de que todos fuera de EE. UU. piensen en la soberanía tecnológica. Eso es porque EE. UU. se ha convertido en un lugar no seguro para almacenar datos
Dicho eso, Apertus da la impresión de moverse a velocidad de comité, así que no espero que saque un modelo competitivo. Al menos parece difícil que compita con los modelos actuales; tal vez podría competir con los de hace un año, pero da la impresión de que ni siquiera ha llegado a eso todavía
- Estoy de acuerdo con la frase “EE. UU. se ha convertido en un lugar no seguro para almacenar datos”, pero me pregunto por qué otros países serían un mejor refugio de datos
  En lo personal me gusta el enfoque de protección de datos de la UE, pero me pregunto si tienes en mente otras regiones o mecanismos de protección que realmente puedan mantener los datos “seguros”
Creo que la analogía con Linux tampoco aplica aquí. Esto es más grande que eso y representa una amenaza directa para los laboratorios comerciales de IA y su modelo de negocio
Esos laboratorios llevan años reciclándose varios papers fundacionales y parece que se acerca el final
En adelante, el centro podría estar en modelos con open source, datos abiertos y recetas abiertas, y algún día no solo la inferencia sino también el entrenamiento podría crowdsourcearse al estilo BitTorrent
Por último, los modelos chinos (GLM, Deepseek, MiMax) también funcionan muy bien, y quienes los usan dirían que no extrañan para nada a OpenAI/Anthropic/Gemini. Entonces, si existen estos modelos abiertos, hay base suficiente para decir que tampoco se extrañaría a los modelos chinos
Para ser un modelo que afirma enfocarse en varios idiomas, es bastante inestable ante preguntas simples como “¿cómo se dice X en el idioma Y?” o “¿cómo se conjuga el verbo X en el idioma Y?”
Sigue alucinando palabras que no existen y, aun si se le corrige, inventa nuevas falsedades
- Es muy posible que no sepa qué idioma representa cada grupo de palabras
  No parece que hayan incluido muchos datos de entrenamiento etiquetados por idioma
  “¿Cómo se dice X en el idioma Y?” es una tarea distinta de decir X en el idioma Y
Su modelo de instrucciones parece un ajuste fino de Llama3.1 del año pasado. Me pregunto si hay algún avance en el modelo nuevo
Mi última esperanza para la IA soberana está del lado de los modelos abiertos chinos
- La IA soberana no es una cuestión de usar un solo modelo. Se trata de usar el modelo adecuado para la tarea y hacer que varios modelos discutan juntos la solución antes de dar una respuesta
  Si quieres mezclar modelos de esta forma, puedes ver https://github.com/deepbluedynamics/nemesis8
De lejos, el resultado más influyente del proyecto Apretus son las personas. Citando una frase memorable de Dominique Paul(https://www.thisiscrispin.com/), lo que la mayoría pasa por alto es que este equipo no es el cuarto equipo haciendo lo mismo, como casi todos los demás proveedores de LLM, ni es un equipo que haya podido aprender de su propia experiencia pasada
Si este equipo entrenara un modelo una vez más, creo que podría reducir el costo a una cuarta parte y obtener resultados mucho mejores
La licencia es bastante interesante, aunque no sé quién adoptará este enfoque a largo plazo
Los datos de entrenamiento y el Apertus LLM pueden contener o generar información que se refiera directa o indirectamente a personas identificables (datos personales). El usuario procesa los datos personales como controlador independiente conforme a la legislación de protección de datos aplicable
SNAI, como desarrollador del Apertus LLM, ofrecerá descargas periódicas de un archivo hash que refleje las solicitudes de eliminación por protección de datos recibidas, y los usuarios podrán aplicarlo como filtro de salida. Esto permitirá eliminar los datos personales incluidos en la salida del modelo, y se recomienda encarecidamente descargar y aplicar este filtro de salida desde SNAI cada 6 meses después del lanzamiento del modelo
La versión anterior de este modelo era bastante mala, pero afirmaba cumplir la ley de copyright. Sin embargo, al probarlo directamente vi que eso tampoco era cierto, así que me parece completamente inútil
- Siempre que se cumpla la siguiente condición, esta versión aporta más a la ciencia en general que la mayoría de los modelos entrenados “a puerta cerrada”
  Modelo completamente abierto: pesos abiertos + datos abiertos + detalles completos del entrenamiento, incluyendo todos los datos y la receta de entrenamiento
- Usa fineweb, que se deriva de Common Crawl, y Common Crawl se armó raspando páginas web sin permiso
- Me intriga cómo lo probaste. ¿Podrías explicarlo? ¿Tomaste un conjunto de hechos fragmentarios que deberían estar protegidos por copyright y verificaste si el modelo de algún modo generaba literalmente la obra completa?
Me pregunto qué opina la comunidad sobre la IA soberana financiada por gobiernos de todo el mundo
¿Por qué insistir en lo “soberano”? ¿No bastaría con que sea abierta?

Apertus, un modelo fundacional abierto para la IA soberana

Organización desarrolladora y alcance de la publicación

Cumplimiento regulatorio y características del modelo

Alianzas y novedades de la comunidad

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News