- Olmo 3 publica no solo el resultado final del modelo, sino también todo el proceso de desarrollo (model flow), ofreciendo trazabilidad completa hasta los datos, el código y los checkpoints
- Está compuesto por cuatro modelos en escalas de 7B y 32B parámetros: Base, Think, Instruct y RL Zero, utilizables para distintos objetivos de investigación como razonamiento, conversación y aprendizaje por refuerzo
- Basado en los datasets Dolma 3 y Dolci, publica datos de entrenamiento transparentes de aproximadamente 9.3 billones de tokens en web, código, matemáticas, ciencia y más
- Con la herramienta OlmoTrace, es posible rastrear en tiempo real de qué datos de entrenamiento proviene la salida del modelo, lo que refuerza la transparencia y la confiabilidad
- Al publicarse completamente como código abierto, cualquiera puede intervenir, modificar y reentrenar el modelo en etapas específicas, construyendo así un ecosistema de investigación en IA verificable
Resumen de Olmo 3
- Olmo 3 es la familia de modelos de lenguaje de código abierto de nueva generación publicada por Allen Institute for AI (Ai2), y su punto clave es exponer todo el flujo de desarrollo (model flow) del modelo
- El flujo del modelo incluye todas las etapas: recolección de datos, preprocesamiento, entrenamiento, ajuste fino y aprendizaje por refuerzo
- Esto permite a investigadores y desarrolladores analizar y modificar el funcionamiento interno del modelo
- Olmo 3 se ofrece en versiones de 7B y 32B parámetros, y puede ejecutarse en entornos que van desde notebooks hasta clústeres de investigación
Principales modelos
- Olmo 3-Base (7B, 32B)
- Modelo base completamente abierto, con rendimiento de primer nivel en áreas como código, matemáticas y comprensión lectora
- Compite con modelos de su categoría como Qwen 2.5 y Gemma 3, y admite un contexto extendido de 65K tokens
- Olmo 3-Think (7B, 32B)
- Modelo especializado en razonamiento entrenado para problemas de razonamiento de múltiples pasos, adecuado para investigación en RL y experimentos de pensamiento de largo plazo
- El modelo 32B alcanza un rendimiento de nivel líder en su categoría en MATH, OMEGA, BigBenchHard y más
- Olmo 3-Instruct (7B)
- Modelo optimizado para conversación, ejecución de instrucciones y uso de herramientas, que iguala o supera a Qwen 2.5, Gemma 3 y Llama 3.1 dentro de su categoría
- Olmo 3-RL Zero (7B)
- Ofrece una ruta completamente abierta para evaluar algoritmos de aprendizaje por refuerzo, e incluye checkpoints de 4 dominios como matemáticas, código y seguimiento de instrucciones
Rendimiento y benchmarks
- Olmo 3-Base 32B supera a modelos completamente abiertos como Marin 32B y Apertus 70B
- Muestra resultados sobresalientes en benchmarks clave como GSM8k (matemáticas) con 80.5 y HumanEval (código) con 66.5
- Olmo 3-Think 32B muestra un rendimiento similar o cercano a Qwen 3 32B, y logra las puntuaciones más altas en HumanEvalPlus e IFEval, entre otros
- Olmo 3-Instruct 7B obtiene 87.3 en seguridad (Safety), la puntuación más alta entre los modelos comparados
Arquitectura y proceso de entrenamiento
- Usa una arquitectura Transformer solo decodificador, con 3 etapas de preentrenamiento (base → intermedio → contexto largo) y 3 etapas de postentrenamiento (SFT → DPO → RLVR)
- Se publican checkpoints de cada etapa, para que los investigadores puedan hacer fork del modelo o experimentar desde el punto que deseen
- A través de los datasets Dolma 3 (aprox. 9.3 billones de tokens) y Dolci, se garantiza la transparencia de los datos en todo el proceso de entrenamiento
- Incluye componentes detallados como Dolma 3 Mix (6 billones de tokens), Dolmino (100B tokens) y Longmino (50B tokens)
- Dolci ofrece mezclas de datos separadas para cada etapa: SFT, DPO y RLVR
Infraestructura de entrenamiento eficiente
- Entrenado con hasta 1,024 GPU H100, con una velocidad de procesamiento de 7.7K tokens/segundo para el modelo 7B
- Gracias a in-flight weight updates, continuous batching y mejoras de threading, la eficiencia del entrenamiento de RL mejora 4 veces
- El modelo 32B de Olmo 3 está planteado como un punto de equilibrio entre rendimiento y accesibilidad, permitiendo que investigadores lo ajusten directamente
Transparencia y ecosistema de herramientas
- OlmoTrace permite rastrear visualmente la conexión entre la salida del modelo y los datos de entrenamiento
- Todos los datasets y toolchains se publican como código abierto
- Incluye Olmo-core (framework de entrenamiento distribuido), Open Instruct (pipeline de postentrenamiento), datamap-rs (limpieza de datos), duplodocus (eliminación de duplicados) y OLMES (toolkit de evaluación), entre otros
- Los investigadores pueden analizar pasos intermedios de razonamiento y puntos de falla para identificar la causa del comportamiento del modelo
Uso e importancia
- Olmo 3 apoya la construcción de sistemas de IA confiables en investigación, educación y desarrollo de aplicaciones
- Como todas las etapas del modelo están abiertas, se promueven la reproducibilidad, la verificabilidad y la investigación colaborativa
- Ai2 afirma que “la verdadera IA de código abierto no significa solo acceso, sino también confianza, responsabilidad y progreso compartido”
- Con su transparencia total, Olmo 3 propone un nuevo paradigma de investigación abierta en el que cualquiera puede comprender y mejorar el interior de la IA
1 comentarios
Comentarios de Hacker News
Sin esa transparencia, no parece haber forma de que el público general entienda o controle sistemas grandes basados en LLM
Al final existe el riesgo de que Big Tech, los autoritarios, o incluso la propia IA actúen como quieran
Creo que hace falta una estructura donde una tercera institución audite y entregue informes de transparencia
Ojalá se siga iterando en este tipo de intentos
Llamarlo open source solo por publicar los pesos es una mala práctica
Los modelos realmente open source necesitan un nombre nuevo, algo como “modelo transparente”
Pero según mi interpretación y la ley talmúdica, sí lo es, y GPT5.1 estuvo de acuerdo con mi interpretación
Esa información debería traerse con un enfoque de búsqueda tipo RAG
Un modelo que responda “no sé” probablemente sería más útil
Los modelos pequeños tienden a forzar el manejo de casos límite
Así que si les das una salida llamada “edge_case”, funcionan mucho mejor
Ojalá existiera un repositorio central para recopilar este tipo de tips de prompt hacking
Dice que muestra los documentos de datos de entrenamiento que coinciden con la respuesta del modelo
Pero en la práctica parece que solo busca coincidencias simples de N-gram, así que cuesta verlo como trazabilidad real
Hubo casos en los que los resultados venían de documentos sin relación con la pregunta
Explicación de N-gram
Más bien, es mostrar por qué fragmentos de datos de entrenamiento fue influido el modelo
Por ejemplo, sirve para rastrear por qué varios modelos repiten el mismo chiste o los mismos números
7B encaja con una GPU de 8 GB, 32B con una de 24 GB, y un modelo de clase 20B encaja perfecto en una GPU de 16 GB
Todavía siguen los experimentos para encontrar el tamaño óptimo
En lo personal, ojalá las GPU lleguen a tener VRAM expandible
Probablemente parece un bug de OpenWebUI
Pasó con GPT-OSS y parece que con OLMo se repetirá la misma situación
7B responde “Hi! I'm Olmo 3…”, y 32B responde “Hi! I'm Olmo…”
Al final hasta un simple saludo termina en una interpretación filosófica
y me sorprendió que desde la primera línea incluyera texto de sitios para adultos
Si van a publicar todo el pipeline, también tienen que incluir este tipo de datos
Aun así, quizá habría sido mejor ajustar la vista previa para que esa parte no apareciera de inmediato
La mayoría parecen ser para inferencia on-device, pero ¿hay otros casos?
Muchas empresas podrían pasar de modelos fine-tuned de Qwen 3 a Olmo 32B
Nos dio mejor rendimiento que modelos pequeños no LLM
Es más rápido que una búsqueda simple en Google y se encarga de comandos de terminal, exploración de archivos y organización de notas
Gracias a la velocidad (90tok/s) y la baja latencia, resuelve tareas pequeñas con mucha más eficiencia
En cambio, Sonnet 4.5 es lento y sutilmente incorrecto, así que no resulta eficiente para uso real
Es rápido (90tok/s) y cubre la mayoría de las tareas
Este tipo de investigación es importante, pero a los modelos densos (dense) les costará alcanzar esa velocidad
También planeamos introducir MoE en la próxima versión de Olmo
Incluso podía conversar con naturalidad en esperanto