5 puntos por GN⁺ 2025-11-22 | 1 comentarios | Compartir por WhatsApp
  • Olmo 3 publica no solo el resultado final del modelo, sino también todo el proceso de desarrollo (model flow), ofreciendo trazabilidad completa hasta los datos, el código y los checkpoints
  • Está compuesto por cuatro modelos en escalas de 7B y 32B parámetros: Base, Think, Instruct y RL Zero, utilizables para distintos objetivos de investigación como razonamiento, conversación y aprendizaje por refuerzo
  • Basado en los datasets Dolma 3 y Dolci, publica datos de entrenamiento transparentes de aproximadamente 9.3 billones de tokens en web, código, matemáticas, ciencia y más
  • Con la herramienta OlmoTrace, es posible rastrear en tiempo real de qué datos de entrenamiento proviene la salida del modelo, lo que refuerza la transparencia y la confiabilidad
  • Al publicarse completamente como código abierto, cualquiera puede intervenir, modificar y reentrenar el modelo en etapas específicas, construyendo así un ecosistema de investigación en IA verificable

Resumen de Olmo 3

  • Olmo 3 es la familia de modelos de lenguaje de código abierto de nueva generación publicada por Allen Institute for AI (Ai2), y su punto clave es exponer todo el flujo de desarrollo (model flow) del modelo
    • El flujo del modelo incluye todas las etapas: recolección de datos, preprocesamiento, entrenamiento, ajuste fino y aprendizaje por refuerzo
    • Esto permite a investigadores y desarrolladores analizar y modificar el funcionamiento interno del modelo
  • Olmo 3 se ofrece en versiones de 7B y 32B parámetros, y puede ejecutarse en entornos que van desde notebooks hasta clústeres de investigación

Principales modelos

  • Olmo 3-Base (7B, 32B)
    • Modelo base completamente abierto, con rendimiento de primer nivel en áreas como código, matemáticas y comprensión lectora
    • Compite con modelos de su categoría como Qwen 2.5 y Gemma 3, y admite un contexto extendido de 65K tokens
  • Olmo 3-Think (7B, 32B)
    • Modelo especializado en razonamiento entrenado para problemas de razonamiento de múltiples pasos, adecuado para investigación en RL y experimentos de pensamiento de largo plazo
    • El modelo 32B alcanza un rendimiento de nivel líder en su categoría en MATH, OMEGA, BigBenchHard y más
  • Olmo 3-Instruct (7B)
    • Modelo optimizado para conversación, ejecución de instrucciones y uso de herramientas, que iguala o supera a Qwen 2.5, Gemma 3 y Llama 3.1 dentro de su categoría
  • Olmo 3-RL Zero (7B)
    • Ofrece una ruta completamente abierta para evaluar algoritmos de aprendizaje por refuerzo, e incluye checkpoints de 4 dominios como matemáticas, código y seguimiento de instrucciones

Rendimiento y benchmarks

  • Olmo 3-Base 32B supera a modelos completamente abiertos como Marin 32B y Apertus 70B
    • Muestra resultados sobresalientes en benchmarks clave como GSM8k (matemáticas) con 80.5 y HumanEval (código) con 66.5
  • Olmo 3-Think 32B muestra un rendimiento similar o cercano a Qwen 3 32B, y logra las puntuaciones más altas en HumanEvalPlus e IFEval, entre otros
  • Olmo 3-Instruct 7B obtiene 87.3 en seguridad (Safety), la puntuación más alta entre los modelos comparados

Arquitectura y proceso de entrenamiento

  • Usa una arquitectura Transformer solo decodificador, con 3 etapas de preentrenamiento (base → intermedio → contexto largo) y 3 etapas de postentrenamiento (SFT → DPO → RLVR)
  • Se publican checkpoints de cada etapa, para que los investigadores puedan hacer fork del modelo o experimentar desde el punto que deseen
  • A través de los datasets Dolma 3 (aprox. 9.3 billones de tokens) y Dolci, se garantiza la transparencia de los datos en todo el proceso de entrenamiento
    • Incluye componentes detallados como Dolma 3 Mix (6 billones de tokens), Dolmino (100B tokens) y Longmino (50B tokens)
    • Dolci ofrece mezclas de datos separadas para cada etapa: SFT, DPO y RLVR

Infraestructura de entrenamiento eficiente

  • Entrenado con hasta 1,024 GPU H100, con una velocidad de procesamiento de 7.7K tokens/segundo para el modelo 7B
  • Gracias a in-flight weight updates, continuous batching y mejoras de threading, la eficiencia del entrenamiento de RL mejora 4 veces
  • El modelo 32B de Olmo 3 está planteado como un punto de equilibrio entre rendimiento y accesibilidad, permitiendo que investigadores lo ajusten directamente

Transparencia y ecosistema de herramientas

  • OlmoTrace permite rastrear visualmente la conexión entre la salida del modelo y los datos de entrenamiento
  • Todos los datasets y toolchains se publican como código abierto
    • Incluye Olmo-core (framework de entrenamiento distribuido), Open Instruct (pipeline de postentrenamiento), datamap-rs (limpieza de datos), duplodocus (eliminación de duplicados) y OLMES (toolkit de evaluación), entre otros
  • Los investigadores pueden analizar pasos intermedios de razonamiento y puntos de falla para identificar la causa del comportamiento del modelo

Uso e importancia

  • Olmo 3 apoya la construcción de sistemas de IA confiables en investigación, educación y desarrollo de aplicaciones
  • Como todas las etapas del modelo están abiertas, se promueven la reproducibilidad, la verificabilidad y la investigación colaborativa
  • Ai2 afirma que “la verdadera IA de código abierto no significa solo acceso, sino también confianza, responsabilidad y progreso compartido
  • Con su transparencia total, Olmo 3 propone un nuevo paradigma de investigación abierta en el que cualquiera puede comprender y mejorar el interior de la IA

1 comentarios

 
GN⁺ 2025-11-22
Comentarios de Hacker News
  • Creo que el futuro de la IA son sistemas con pasos de razonamiento completamente rastreables
    Sin esa transparencia, no parece haber forma de que el público general entienda o controle sistemas grandes basados en LLM
    Al final existe el riesgo de que Big Tech, los autoritarios, o incluso la propia IA actúen como quieran
    • Por eso es interesante que mucha gente quiera eliminar por completo este tipo de enfoque
    • Como mínimo, deberíamos saber qué datos de entrenamiento usó cada modelo
      Creo que hace falta una estructura donde una tercera institución audite y entregue informes de transparencia
    • La transparencia está bien, pero hacer que las respuestas sean ajustables es un gran reto de UI/UX
      Ojalá se siga iterando en este tipo de intentos
  • El término “IA de código abierto” ya se siente distorsionado por el marketing
    Llamarlo open source solo por publicar los pesos es una mala práctica
    Los modelos realmente open source necesitan un nombre nuevo, algo como “modelo transparente
  • Pregunté si una jirafa es comida kosher y el modelo respondió que “no”
    Pero según mi interpretación y la ley talmúdica, sí lo es, y GPT5.1 estuvo de acuerdo con mi interpretación
    • Es raro que el modelo esté memorizando este tipo de detalles religiosos
      Esa información debería traerse con un enfoque de búsqueda tipo RAG
      Un modelo que responda “no sé” probablemente sería más útil
    • Me pregunto cuántas veces lo reintentaste y cómo estaban configurados los valores de temperature y top_p
    • De hecho, es interesante que este tipo de pregunta ya no pueda servir como referencia de bien público
  • Últimamente estoy moviendo mi flujo de trabajo principal de OpenAI a modelos locales
    Los modelos pequeños tienden a forzar el manejo de casos límite
    Así que si les das una salida llamada “edge_case”, funcionan mucho mejor
    Ojalá existiera un repositorio central para recopilar este tipo de tips de prompt hacking
    • Me pregunto si “edge_case” es la clave (key) de un esquema de salida estructurada
    • También me pregunto si usas un frontend como Open WebUI o LibreChat, o si los llamas directamente
  • Probé el botón “Show OlmoTrace” en el AllenAI Playground
    Dice que muestra los documentos de datos de entrenamiento que coinciden con la respuesta del modelo
    Pero en la práctica parece que solo busca coincidencias simples de N-gram, así que cuesta verlo como trazabilidad real
    Hubo casos en los que los resultados venían de documentos sin relación con la pregunta
    Explicación de N-gram
    • Hablando como investigador de Olmo, el objetivo de OlmoTrace no es atribuir una respuesta a un documento específico
      Más bien, es mostrar por qué fragmentos de datos de entrenamiento fue influido el modelo
      Por ejemplo, sirve para rastrear por qué varios modelos repiten el mismo chiste o los mismos números
  • Creo que el tamaño ideal de modelos sería una línea de 7B, 20B y 32B
    7B encaja con una GPU de 8 GB, 32B con una de 24 GB, y un modelo de clase 20B encaja perfecto en una GPU de 16 GB
    • Claro, depende de la arquitectura
      Todavía siguen los experimentos para encontrar el tamaño óptimo
      En lo personal, ojalá las GPU lleguen a tener VRAM expandible
  • Le pregunté al modelo 7B “hi, who are u” y se quedó detenido analizando la frase internamente
    Probablemente parece un bug de OpenWebUI
    • Cada vez que sale un modelo nuevo, hay muchos casos de pruebas en software que todavía no lo soporta
      Pasó con GPT-OSS y parece que con OLMo se repetirá la misma situación
    • Yo lo probé directamente en el playground
      7B responde “Hi! I'm Olmo 3…”, y 32B responde “Hi! I'm Olmo…”
    • Soy investigador del equipo de post-training de Ai2, ¿dónde lo probaste exactamente?
    • Me recuerda al chiste de analizar en exceso “good morning”
      Al final hasta un simple saludo termina en una interpretación filosófica
    • Tal vez conviene revisar si no tienes un límite de completion token aplicado
  • Vi el dataset Dolma3 en Hugging Face
    y me sorprendió que desde la primera línea incluyera texto de sitios para adultos
    • Seguramente todavía está en una etapa previa a la curación
      Si van a publicar todo el pipeline, también tienen que incluir este tipo de datos
      Aun así, quizá habría sido mejor ajustar la vista previa para que esa parte no apareciera de inmediato
    • De todos modos, la ficción erótica también es uno de los principales casos de uso de este tipo de modelos
  • Me da curiosidad cuál es el uso real de los modelos pequeños
    La mayoría parecen ser para inferencia on-device, pero ¿hay otros casos?
    • Hablando como investigador de Ai2, 7B es un modelo local para GPU de consumo, y 32B permite aplicaciones más variadas
      Muchas empresas podrían pasar de modelos fine-tuned de Qwen 3 a Olmo 32B
    • Nuestro equipo hace fine-tuning de modelos 7B como clasificadores especializados por dominio
      Nos dio mejor rendimiento que modelos pequeños no LLM
    • Yo mantengo Qwen3-30B-VL cargado permanentemente en la VRAM
      Es más rápido que una búsqueda simple en Google y se encarga de comandos de terminal, exploración de archivos y organización de notas
      Gracias a la velocidad (90tok/s) y la baja latencia, resuelve tareas pequeñas con mucha más eficiencia
      En cambio, Sonnet 4.5 es lento y sutilmente incorrecto, así que no resulta eficiente para uso real
  • Qwen3-30B-VL es casi perfecto para uso diario
    Es rápido (90tok/s) y cubre la mayoría de las tareas
    Este tipo de investigación es importante, pero a los modelos densos (dense) les costará alcanzar esa velocidad
    • Hablando como desarrollador de Olmo, Qwen es rápido gracias a su arquitectura MoE
      También planeamos introducir MoE en la próxima versión de Olmo
    • Lo probé en una MacBook nueva y fue lento, pero en cambio Qwen2.5:14B daba retroalimentación inmediata
      Incluso podía conversar con naturalidad en esperanto
    • Me pregunto si la razón por la que Qwen3-30B-VL parece más “inteligente” se debe, más que al tamaño, a una diferencia de arquitectura