- "Mi:dm" es un modelo open source de uso comercial que refleja las características lingüísticas y culturales de la sociedad coreana
- Usa una estrategia de optimización multinivel, que incluye selección de datos coreanos de alta calidad, generación de datos sintéticos, curriculum learning y un tokenizador propio especializado en coreano
- Tres modelos: mini para on-device (2.3B), base equilibrado en rendimiento y eficiencia (11.5B) y pro de nivel frontier (41B, próximo a publicarse)
- Mi:dm 2.0 Mini (2.3B): modelo ligero, optimizado para entornos embebidos y propósitos especializados
- Mi:dm 2.0 Base (11.5B): modelo general de gran escala, con mejor rendimiento al profundizar el modelo 8B existente mediante la técnica Depth-up Scaling
- Tanto Base como Mini soportan entrada de 32K tokens
- Muestra rendimiento de primer nivel en benchmarks en coreano como KMMLU y HAERAE, y se publica bajo licencia MIT, permitiendo tanto uso de investigación como comercial
Composición y estrategia de datos
- Enfoque en asegurar documentos coreanos de alta calidad, seleccionados según criterios de contexto, legibilidad y ausencia de toxicidad
- Uso de datos sintéticos (traducción, generación de materiales educativos basada en palabras clave, Chain-of-Thought, etc.) para asegurar diversidad de dominios
- Curriculum learning y balanceo de dominios para corregir desequilibrios en los datos de entrenamiento
- Tokenizador optimizado para coreano para reforzar la eficiencia de compresión y reflejar mejor la estructura del idioma
-
Sistema de clasificación de datos
- Aplicación de un sistema de clasificación multidimensional como idioma, dominio, fuente de datos y expresión/estilo
- 6 dominios principales (humanidades, STEM, ciencias aplicadas, salud/alimentos, vida/cultura y otros) y 20 subdominios
- Más del 85.7% está compuesto por datos naturales (organic), y 14% corresponde a datos sintéticos
-
Pipeline de control de calidad
- Filtrado de documentos web masivos en 8 etapas: deduplicación, heurísticas, perplexity, daño/corrección de caracteres, filtro de calidad basado en modelos, filtro de toxicidad, duplicación por líneas y desidentificación de PII, entre otros
- Aplicación de limpieza y reglas separadas para cada fuente (por ejemplo, noticias, documentos legales, papers académicos, etc.)
-
Generación de datos sintéticos
- En áreas de baja cobertura como STEM y economía, se refuerzan los datos usando como semilla datos open source de alta confiabilidad y generando en coreano materiales educativos, explicaciones y problemas
- Incluso los documentos web descartados (no aptos) se aprovechan extrayendo y reescribiendo solo los temas clave
- La diversidad estructural de documentos web en inglés se convierte y amplía al coreano para obtener datos extensos de QA y redacción
- Los datos Chain-of-Thought refuerzan el aprendizaje de razonamiento paso a paso en matemáticas, código y más
Arquitectura y entrenamiento del modelo
- Estructura Transformer decoder-only
- Base: modelo 8B → Depth-up Scaling (32→48 capas) → expansión a 11.5B, con entrenamiento continuo en 2 etapas usando datos de alta calidad
- Mini: aligera el conocimiento de Base mediante width pruning y distillation multietapa, permitiendo inferencia eficiente
- Entrenamiento de long-context con soporte para hasta 32,768 tokens de entrada
- Incorpora tecnologías modernas como GQA, SiLU y RoPE
Reseñas de uso y artículos de presentación
16 comentarios
Apoyo el intento, pero...
Ojalá no hagan cosas como crear una nueva organización y tirar por la borda la 1.0.
Con solo ver el nombre, ya parece poco confiable.
¿Por qué habrán puesto dos puntos en medio del nombre? ¿Habrá alguna razón de significado? ¿O acaso creen que eso se ve genial?
Y además, si es
믿:음, ¿no deberían escribirlo en alfabeto latino comomid:m?Puede haber opiniones diversas, pero yo básicamente creo que todos los proyectos relacionados con IA que se intentan dentro del país tienen significado. Más que evaluar su nivel comparándolos con los demás, creo que estamos en una situación en la que hay que reconocer el intento en sí.
Es cierto que la respuesta llegó tarde, y que también estamos en desventaja en dinero y GPU frente a Estados Unidos y China, pero ¿no mejorará si lo reconocemos, lo usamos juntos y lo vamos perfeccionando?
Estoy parcialmente de acuerdo.
Yo pienso que crear wrappers que se hacen pasar por servicios de IA usando APIs externas no tiene ninguna productividad y es un negocio de cobrar comisiones,
pero si las empresas al menos afinan modelos y luego los publican, al final los están haciendo públicos invirtiendo sus propios recursos, así que no creo que haya motivo para verlo negativamente.
Eso sí, si empiezan a recibir dinero de afuera, por ejemplo del gobierno, creo que ya no se podría ver de manera tan positiva...
> Yo pienso que hacer wrappers que dicen ser servicios de IA usando APIs externas es un trabajo sin ninguna productividad y un negocio de cobrar comisiones,
Sumando a eso, incluso si se usan APIs, si se aprovechan tan bien como Manus puede considerarse un logro, pero todavía no parece haber en Corea un wrapper de ese nivel.
Porque no se puede competir de forma sólida solo con la tarea de mejorar el rendimiento base.
¿Por qué las empresas coreanas o el gobierno se enfocan en modelos de lenguaje especializados en coreano? Si pensamos en la tendencia actual de los LLM, que mejoran su rendimiento entrenándose con datos masivos a escala de internet, más bien parecería más natural que existieran modelos de propósito general sin importar el idioma, así que no entiendo bien qué ventajas tendría un LM específicamente especializado en coreano.
Si de verdad creemos que la IA es la base de la próxima generación, entonces no sería deseable que una tecnología de infraestructura clave para el país dependiera de la tecnología de otros países... ¿no?
Creo que la tecnología de otro país != los datos de otro país.
Es cierto que la calidad en los idiomas con pocos usuarios tiende a ser más baja, pero tampoco creo que vayan a hacer que solo sea bueno en coreano. Tampoco hay una razón clara para eso. Y el problema es que nosotros somos usuarios de uno de esos idiomas con pocos usuarios....
Hablando con frialdad, es porque no tiene competitividad.
El desarrollo de modelos open source de frontera normalmente lo llevan a cabo equipos de Research Engineers que en las big tech reciben salarios anuales de varios miles de millones de wones, con un enorme respaldo de recursos de GPU. (Recuerdo que en el pasado, en Meta, las GPU asignadas a un solo proyecto eran 10 mil A100, y según recuerdo, eso era más que todo el volumen total de A100 que había en Corea en ese momento.)
De manera realista, el nivel de personal y recursos de GPU que se destinan en Corea al desarrollo de LLM está en un nivel con el que es difícil competir a escala global.
Más que decir que nosotros somos especialmente malos, creo que lo correcto es verlo como que Estados Unidos y China son tan abrumadoramente superiores que es difícil seguirles el paso.
Yo tampoco lo tengo muy claro, pero al ver esos procesos de thinking, a veces aunque hagas la consulta en coreano parece que lo hace en inglés; si ese proceso pudiera hacerse en coreano, ¿no podría dar respuestas más acordes con la sensibilidad local del país?
¿No será que están invirtiendo pensando en las nuevas IA que se desarrollarán o evolucionarán en el futuro, o en elevar el nivel general de las IA existentes? Como DeepSeek. Si a una IA así se le incorpora la sensibilidad cultural coreana, parece que tendría competitividad. Aunque es algo del futuro.
Parece que están tratando de chupar dinero público sin control.
¿No será porque el coreano se rompe? A Gemini también le pasa, y cuando lo usas por un tiempo, demasiadas veces en cierto punto salta a otro idioma..
El nombre del modelo de IA suena bastante inquietante, como si fuera algo que saldría en un mundo postapocalíptico o distópico jaja