Olmo 3: una nueva ruta del flujo del modelo para liderar la IA de código abierto

(allenai.org)

5 puntos por GN⁺ 2025-11-22 | 1 comentarios | Compartir por WhatsApp

Olmo 3 publica no solo el resultado final del modelo, sino también todo el proceso de desarrollo (model flow), ofreciendo trazabilidad completa hasta los datos, el código y los checkpoints
Está compuesto por cuatro modelos en escalas de 7B y 32B parámetros: Base, Think, Instruct y RL Zero, utilizables para distintos objetivos de investigación como razonamiento, conversación y aprendizaje por refuerzo
Basado en los datasets Dolma 3 y Dolci, publica datos de entrenamiento transparentes de aproximadamente 9.3 billones de tokens en web, código, matemáticas, ciencia y más
Con la herramienta OlmoTrace, es posible rastrear en tiempo real de qué datos de entrenamiento proviene la salida del modelo, lo que refuerza la transparencia y la confiabilidad
Al publicarse completamente como código abierto, cualquiera puede intervenir, modificar y reentrenar el modelo en etapas específicas, construyendo así un ecosistema de investigación en IA verificable

Resumen de Olmo 3

Olmo 3 es la familia de modelos de lenguaje de código abierto de nueva generación publicada por Allen Institute for AI (Ai2), y su punto clave es exponer todo el flujo de desarrollo (model flow) del modelo
- El flujo del modelo incluye todas las etapas: recolección de datos, preprocesamiento, entrenamiento, ajuste fino y aprendizaje por refuerzo
- Esto permite a investigadores y desarrolladores analizar y modificar el funcionamiento interno del modelo
Olmo 3 se ofrece en versiones de 7B y 32B parámetros, y puede ejecutarse en entornos que van desde notebooks hasta clústeres de investigación

Principales modelos

Olmo 3-Base (7B, 32B)
- Modelo base completamente abierto, con rendimiento de primer nivel en áreas como código, matemáticas y comprensión lectora
- Compite con modelos de su categoría como Qwen 2.5 y Gemma 3, y admite un contexto extendido de 65K tokens
Olmo 3-Think (7B, 32B)
- Modelo especializado en razonamiento entrenado para problemas de razonamiento de múltiples pasos, adecuado para investigación en RL y experimentos de pensamiento de largo plazo
- El modelo 32B alcanza un rendimiento de nivel líder en su categoría en MATH, OMEGA, BigBenchHard y más
Olmo 3-Instruct (7B)
- Modelo optimizado para conversación, ejecución de instrucciones y uso de herramientas, que iguala o supera a Qwen 2.5, Gemma 3 y Llama 3.1 dentro de su categoría
Olmo 3-RL Zero (7B)
- Ofrece una ruta completamente abierta para evaluar algoritmos de aprendizaje por refuerzo, e incluye checkpoints de 4 dominios como matemáticas, código y seguimiento de instrucciones

Rendimiento y benchmarks

Olmo 3-Base 32B supera a modelos completamente abiertos como Marin 32B y Apertus 70B
- Muestra resultados sobresalientes en benchmarks clave como GSM8k (matemáticas) con 80.5 y HumanEval (código) con 66.5
Olmo 3-Think 32B muestra un rendimiento similar o cercano a Qwen 3 32B, y logra las puntuaciones más altas en HumanEvalPlus e IFEval, entre otros
Olmo 3-Instruct 7B obtiene 87.3 en seguridad (Safety), la puntuación más alta entre los modelos comparados

Arquitectura y proceso de entrenamiento

Usa una arquitectura Transformer solo decodificador, con 3 etapas de preentrenamiento (base → intermedio → contexto largo) y 3 etapas de postentrenamiento (SFT → DPO → RLVR)
Se publican checkpoints de cada etapa, para que los investigadores puedan hacer fork del modelo o experimentar desde el punto que deseen
A través de los datasets Dolma 3 (aprox. 9.3 billones de tokens) y Dolci, se garantiza la transparencia de los datos en todo el proceso de entrenamiento
- Incluye componentes detallados como Dolma 3 Mix (6 billones de tokens), Dolmino (100B tokens) y Longmino (50B tokens)
- Dolci ofrece mezclas de datos separadas para cada etapa: SFT, DPO y RLVR

Infraestructura de entrenamiento eficiente

Entrenado con hasta 1,024 GPU H100, con una velocidad de procesamiento de 7.7K tokens/segundo para el modelo 7B
Gracias a in-flight weight updates, continuous batching y mejoras de threading, la eficiencia del entrenamiento de RL mejora 4 veces
El modelo 32B de Olmo 3 está planteado como un punto de equilibrio entre rendimiento y accesibilidad, permitiendo que investigadores lo ajusten directamente

Transparencia y ecosistema de herramientas

OlmoTrace permite rastrear visualmente la conexión entre la salida del modelo y los datos de entrenamiento
Todos los datasets y toolchains se publican como código abierto
- Incluye Olmo-core (framework de entrenamiento distribuido), Open Instruct (pipeline de postentrenamiento), datamap-rs (limpieza de datos), duplodocus (eliminación de duplicados) y OLMES (toolkit de evaluación), entre otros
Los investigadores pueden analizar pasos intermedios de razonamiento y puntos de falla para identificar la causa del comportamiento del modelo

Uso e importancia

Olmo 3 apoya la construcción de sistemas de IA confiables en investigación, educación y desarrollo de aplicaciones
Como todas las etapas del modelo están abiertas, se promueven la reproducibilidad, la verificabilidad y la investigación colaborativa
Ai2 afirma que “la verdadera IA de código abierto no significa solo acceso, sino también confianza, responsabilidad y progreso compartido”
Con su transparencia total, Olmo 3 propone un nuevo paradigma de investigación abierta en el que cualquiera puede comprender y mejorar el interior de la IA

1 comentarios

GN⁺ 2025-11-22

Comentarios de Hacker News

Creo que el futuro de la IA son sistemas con pasos de razonamiento completamente rastreables
Sin esa transparencia, no parece haber forma de que el público general entienda o controle sistemas grandes basados en LLM
Al final existe el riesgo de que Big Tech, los autoritarios, o incluso la propia IA actúen como quieran
- Por eso es interesante que mucha gente quiera eliminar por completo este tipo de enfoque
- Como mínimo, deberíamos saber qué datos de entrenamiento usó cada modelo
  Creo que hace falta una estructura donde una tercera institución audite y entregue informes de transparencia
- La transparencia está bien, pero hacer que las respuestas sean ajustables es un gran reto de UI/UX
  Ojalá se siga iterando en este tipo de intentos
El término “IA de código abierto” ya se siente distorsionado por el marketing
Llamarlo open source solo por publicar los pesos es una mala práctica
Los modelos realmente open source necesitan un nombre nuevo, algo como “modelo transparente”
Pregunté si una jirafa es comida kosher y el modelo respondió que “no”
Pero según mi interpretación y la ley talmúdica, sí lo es, y GPT5.1 estuvo de acuerdo con mi interpretación
- Es raro que el modelo esté memorizando este tipo de detalles religiosos
  Esa información debería traerse con un enfoque de búsqueda tipo RAG
  Un modelo que responda “no sé” probablemente sería más útil
- Me pregunto cuántas veces lo reintentaste y cómo estaban configurados los valores de temperature y top_p
- De hecho, es interesante que este tipo de pregunta ya no pueda servir como referencia de bien público
Últimamente estoy moviendo mi flujo de trabajo principal de OpenAI a modelos locales
Los modelos pequeños tienden a forzar el manejo de casos límite
Así que si les das una salida llamada “edge_case”, funcionan mucho mejor
Ojalá existiera un repositorio central para recopilar este tipo de tips de prompt hacking
- Me pregunto si “edge_case” es la clave (key) de un esquema de salida estructurada
- También me pregunto si usas un frontend como Open WebUI o LibreChat, o si los llamas directamente
Probé el botón “Show OlmoTrace” en el AllenAI Playground
Dice que muestra los documentos de datos de entrenamiento que coinciden con la respuesta del modelo
Pero en la práctica parece que solo busca coincidencias simples de N-gram, así que cuesta verlo como trazabilidad real
Hubo casos en los que los resultados venían de documentos sin relación con la pregunta
Explicación de N-gram
- Hablando como investigador de Olmo, el objetivo de OlmoTrace no es atribuir una respuesta a un documento específico
  Más bien, es mostrar por qué fragmentos de datos de entrenamiento fue influido el modelo
  Por ejemplo, sirve para rastrear por qué varios modelos repiten el mismo chiste o los mismos números
Creo que el tamaño ideal de modelos sería una línea de 7B, 20B y 32B
7B encaja con una GPU de 8 GB, 32B con una de 24 GB, y un modelo de clase 20B encaja perfecto en una GPU de 16 GB
- Claro, depende de la arquitectura
  Todavía siguen los experimentos para encontrar el tamaño óptimo
  En lo personal, ojalá las GPU lleguen a tener VRAM expandible
Le pregunté al modelo 7B “hi, who are u” y se quedó detenido analizando la frase internamente
Probablemente parece un bug de OpenWebUI
- Cada vez que sale un modelo nuevo, hay muchos casos de pruebas en software que todavía no lo soporta
  Pasó con GPT-OSS y parece que con OLMo se repetirá la misma situación
- Yo lo probé directamente en el playground
  7B responde “Hi! I'm Olmo 3…”, y 32B responde “Hi! I'm Olmo…”
- Soy investigador del equipo de post-training de Ai2, ¿dónde lo probaste exactamente?
- Me recuerda al chiste de analizar en exceso “good morning”
  Al final hasta un simple saludo termina en una interpretación filosófica
- Tal vez conviene revisar si no tienes un límite de completion token aplicado
Vi el dataset Dolma3 en Hugging Face
y me sorprendió que desde la primera línea incluyera texto de sitios para adultos
- Seguramente todavía está en una etapa previa a la curación
  Si van a publicar todo el pipeline, también tienen que incluir este tipo de datos
  Aun así, quizá habría sido mejor ajustar la vista previa para que esa parte no apareciera de inmediato
- De todos modos, la ficción erótica también es uno de los principales casos de uso de este tipo de modelos
Me da curiosidad cuál es el uso real de los modelos pequeños
La mayoría parecen ser para inferencia on-device, pero ¿hay otros casos?
- Hablando como investigador de Ai2, 7B es un modelo local para GPU de consumo, y 32B permite aplicaciones más variadas
  Muchas empresas podrían pasar de modelos fine-tuned de Qwen 3 a Olmo 32B
- Nuestro equipo hace fine-tuning de modelos 7B como clasificadores especializados por dominio
  Nos dio mejor rendimiento que modelos pequeños no LLM
- Yo mantengo Qwen3-30B-VL cargado permanentemente en la VRAM
  Es más rápido que una búsqueda simple en Google y se encarga de comandos de terminal, exploración de archivos y organización de notas
  Gracias a la velocidad (90tok/s) y la baja latencia, resuelve tareas pequeñas con mucha más eficiencia
  En cambio, Sonnet 4.5 es lento y sutilmente incorrecto, así que no resulta eficiente para uso real
Qwen3-30B-VL es casi perfecto para uso diario
Es rápido (90tok/s) y cubre la mayoría de las tareas
Este tipo de investigación es importante, pero a los modelos densos (dense) les costará alcanzar esa velocidad
- Hablando como desarrollador de Olmo, Qwen es rápido gracias a su arquitectura MoE
  También planeamos introducir MoE en la próxima versión de Olmo
- Lo probé en una MacBook nueva y fue lento, pero en cambio Qwen2.5:14B daba retroalimentación inmediata
  Incluso podía conversar con naturalidad en esperanto
- Me pregunto si la razón por la que Qwen3-30B-VL parece más “inteligente” se debe, más que al tamaño, a una diferencia de arquitectura

Olmo 3: una nueva ruta del flujo del modelo para liderar la IA de código abierto

Resumen de Olmo 3

Principales modelos

Rendimiento y benchmarks

Arquitectura y proceso de entrenamiento

Infraestructura de entrenamiento eficiente

Transparencia y ecosistema de herramientas

Uso e importancia

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News