1 puntos por GN⁺ 4 시간 전 | 1 comentarios | Compartir por WhatsApp
  • El ecosistema de IA de Suiza presentó su propio modelo fundacional, Apertus, con la mira puesta en la IA soberana, y destaca al frente la colaboración entre EPFL, ETH Zurich y CSCS
  • Su diferenciador clave es pesos abiertos, datos abiertos y ciencia abierta, documentando los datos de entrenamiento, el código, los pesos, la metodología y hasta los principios de alineación para enfatizar la reproducibilidad
  • En términos de regulación y confianza, considera los requisitos del EU AI Act e incluye condiciones como respetar el opt-out, eliminar PII y prevenir la memorización
  • Afirma ofrecer un rendimiento competitivo frente a los principales modelos abiertos de tamaño comparable en escalas de 8B y 70B parámetros, y fue entrenado desde el inicio en más de 1,000 idiomas
  • Swisscom participa como socio estratégico, y las próximas versiones, investigaciones y novedades de la comunidad se compartirán por medio de un boletín

Organización desarrolladora y alcance de la publicación

  • Apertus es un modelo fundacional desarrollado por Swiss AI Initiative
    • Swiss AI Initiative es una iniciativa impulsada por la colaboración entre EPFL, ETH Zurich y CSCS
  • El alcance de la publicación incluye datos de entrenamiento, código, pesos, metodología y principios de alineación
  • Los elementos publicados están documentados y apuntan a ser reproducibles
  • Apertus enfatiza su carácter de modelo abierto con la frase “Open en IA es como Source”

Cumplimiento regulatorio y características del modelo

  • El modelo fue construido para cumplir con los requisitos del EU AI Act
    • Respeta el opt-out
    • Elimina PII
    • Previene la memorización
  • Presume un rendimiento competitivo frente a los mejores modelos abiertos de tamaño comparable en 8B y 70B parámetros
  • El soporte multilingüe estuvo incluido desde el inicio, con entrenamiento en más de 1,000 idiomas

Alianzas y novedades de la comunidad

  • Swisscom es socio estratégico de Swiss AI Initiative
  • El boletín ofrecerá novedades sobre lanzamientos de Apertus, investigación del equipo y noticias de la comunidad

1 comentarios

 
GN⁺ 4 시간 전
Comentarios en Hacker News
  • Entre los LLM completamente abiertos también están OLMo 3.1 de Allen AI y K2 Think V2 de MBZUAI; ambos publicaron todo el pipeline de entrenamiento y los datasets
    Nvidia Nemotron también es un modelo con fuentes de entrenamiento abiertas, pero parte de sus datasets son propietarios
    Citando un comentario de lambda, los modelos Nemotron suelen ser más fuertes que Olmo y K2 Think V2 (según el benchmark de Artificial Analysis), y además hay mucho solapamiento en los datasets. Varios datasets se crearon a partir de las mismas fuentes, filtrados de manera distinta, y Olmo y K2 Think V2 también usaron algunos datasets de Nemotron
    Nemotron es un LLM moderno y bastante capaz, y el modelo 122b también es más fuerte que Deepseek R1 (modelo 671b) en la mayoría de los benchmarks; recientemente también salió Ultra 550b
    https://news.ycombinator.com/item?id=48492439

    • Allen AI no está recibiendo suficiente atención. Creo que la IA generativa debió haberse construido así desde el principio
      Si las empresas de frontera hubieran elegido este enfoque, el arranque habría sido mucho más lento, pero para 2035 probablemente estaríamos mucho más adelantados que ahora. En cambio, hoy gran parte de la sociedad quiere que la IA fracase
    • Me dan ganas de probar Nemotron otra vez. Ayer usé el modelo más reciente en OpenRouter y no me gustó; fue peor incluso que StepFun
  • Me gusta la idea, y también ha crecido la necesidad de que todos fuera de EE. UU. piensen en la soberanía tecnológica. Eso es porque EE. UU. se ha convertido en un lugar no seguro para almacenar datos
    Dicho eso, Apertus da la impresión de moverse a velocidad de comité, así que no espero que saque un modelo competitivo. Al menos parece difícil que compita con los modelos actuales; tal vez podría competir con los de hace un año, pero da la impresión de que ni siquiera ha llegado a eso todavía

    • Estoy de acuerdo con la frase “EE. UU. se ha convertido en un lugar no seguro para almacenar datos”, pero me pregunto por qué otros países serían un mejor refugio de datos
      En lo personal me gusta el enfoque de protección de datos de la UE, pero me pregunto si tienes en mente otras regiones o mecanismos de protección que realmente puedan mantener los datos “seguros”
  • Creo que la analogía con Linux tampoco aplica aquí. Esto es más grande que eso y representa una amenaza directa para los laboratorios comerciales de IA y su modelo de negocio
    Esos laboratorios llevan años reciclándose varios papers fundacionales y parece que se acerca el final
    En adelante, el centro podría estar en modelos con open source, datos abiertos y recetas abiertas, y algún día no solo la inferencia sino también el entrenamiento podría crowdsourcearse al estilo BitTorrent
    Por último, los modelos chinos (GLM, Deepseek, MiMax) también funcionan muy bien, y quienes los usan dirían que no extrañan para nada a OpenAI/Anthropic/Gemini. Entonces, si existen estos modelos abiertos, hay base suficiente para decir que tampoco se extrañaría a los modelos chinos

  • Para ser un modelo que afirma enfocarse en varios idiomas, es bastante inestable ante preguntas simples como “¿cómo se dice X en el idioma Y?” o “¿cómo se conjuga el verbo X en el idioma Y?”
    Sigue alucinando palabras que no existen y, aun si se le corrige, inventa nuevas falsedades

    • Es muy posible que no sepa qué idioma representa cada grupo de palabras
      No parece que hayan incluido muchos datos de entrenamiento etiquetados por idioma
      “¿Cómo se dice X en el idioma Y?” es una tarea distinta de decir X en el idioma Y
  • Su modelo de instrucciones parece un ajuste fino de Llama3.1 del año pasado. Me pregunto si hay algún avance en el modelo nuevo
    Mi última esperanza para la IA soberana está del lado de los modelos abiertos chinos

    • La IA soberana no es una cuestión de usar un solo modelo. Se trata de usar el modelo adecuado para la tarea y hacer que varios modelos discutan juntos la solución antes de dar una respuesta
      Si quieres mezclar modelos de esta forma, puedes ver https://github.com/deepbluedynamics/nemesis8
  • De lejos, el resultado más influyente del proyecto Apretus son las personas. Citando una frase memorable de Dominique Paul(https://www.thisiscrispin.com/), lo que la mayoría pasa por alto es que este equipo no es el cuarto equipo haciendo lo mismo, como casi todos los demás proveedores de LLM, ni es un equipo que haya podido aprender de su propia experiencia pasada
    Si este equipo entrenara un modelo una vez más, creo que podría reducir el costo a una cuarta parte y obtener resultados mucho mejores

  • La licencia es bastante interesante, aunque no sé quién adoptará este enfoque a largo plazo
    Los datos de entrenamiento y el Apertus LLM pueden contener o generar información que se refiera directa o indirectamente a personas identificables (datos personales). El usuario procesa los datos personales como controlador independiente conforme a la legislación de protección de datos aplicable
    SNAI, como desarrollador del Apertus LLM, ofrecerá descargas periódicas de un archivo hash que refleje las solicitudes de eliminación por protección de datos recibidas, y los usuarios podrán aplicarlo como filtro de salida. Esto permitirá eliminar los datos personales incluidos en la salida del modelo, y se recomienda encarecidamente descargar y aplicar este filtro de salida desde SNAI cada 6 meses después del lanzamiento del modelo

  • La versión anterior de este modelo era bastante mala, pero afirmaba cumplir la ley de copyright. Sin embargo, al probarlo directamente vi que eso tampoco era cierto, así que me parece completamente inútil

    • Siempre que se cumpla la siguiente condición, esta versión aporta más a la ciencia en general que la mayoría de los modelos entrenados “a puerta cerrada”
      Modelo completamente abierto: pesos abiertos + datos abiertos + detalles completos del entrenamiento, incluyendo todos los datos y la receta de entrenamiento
    • Usa fineweb, que se deriva de Common Crawl, y Common Crawl se armó raspando páginas web sin permiso
    • Me intriga cómo lo probaste. ¿Podrías explicarlo? ¿Tomaste un conjunto de hechos fragmentarios que deberían estar protegidos por copyright y verificaste si el modelo de algún modo generaba literalmente la obra completa?
  • Me pregunto qué opina la comunidad sobre la IA soberana financiada por gobiernos de todo el mundo
    ¿Por qué insistir en lo “soberano”? ¿No bastaría con que sea abierta?