Mi:dm 2.0 - el LLM open source desarrollado por KT

xguru · 2025-07-10T14:27:27+09:00

"Mi:dm" es un modelo open source de uso comercial que refleja las características lingüísticas y culturales de la sociedad coreana Usa una estrategia de optimización multinivel, que incluye selección de datos coreanos de alta calidad, generación de datos sintéticos, curriculum learning y un tokenizador propio especializado en coreano Tres modelos: mini para on-device (2.3B), base equilibrado en rendimiento y eficiencia (11.5B) y pro de nivel frontier (41B, próximo a publicarse) Mi:dm 2.0 Mini (2.3B): modelo ligero, optimizado para entornos embebidos y propósitos especializados Mi:dm 2.0 Base (11.5B): modelo general de gran escala, con mejor rendimiento al profundizar el modelo 8B existente mediante la técnica Depth-up Scaling Tanto Base como Mini soportan entrada de 32K tokens Muestra rendimiento de primer nivel en benchmarks en coreano como KMMLU y HAERAE, y se publica bajo licencia MIT, permitiendo tanto uso de investigación como comercial Composición y estrategia de datos Enfoque en asegurar documentos coreanos de alta calidad, seleccionados según criterios de contexto, legibilidad y ausencia de toxicidad Uso de datos sintéticos (traducción, generación de materiales educativos basada en palabras clave, Chain-of-Thought, etc.) para asegurar diversidad de dominios Curriculum learning y balanceo de dominios para corregir desequilibrios en los datos de entrenamiento Tokenizador optimizado para coreano para reforzar la eficiencia de compresión y reflejar mejor la estructura del idioma Sistema de clasificación de datos Aplicación de un sistema de clasificación multidimensional como idioma, dominio, fuente de datos y expresión/estilo 6 dominios principales (humanidades, STEM, ciencias aplicadas, salud/alimentos, vida/cultura y otros) y 20 subdominios Más del 85.7% está compuesto por datos naturales (organic), y 14% corresponde a datos sintéticos Pipeline de control de calidad Filtrado de documentos web masivos en 8 etapas: deduplicación, heurísticas, perplexity, daño/corrección de caracteres, filtro de calidad basado en modelos, filtro de toxicidad, duplicación por líneas y desidentificación de PII, entre otros Aplicación de limpieza y reglas separadas para cada fuente (por ejemplo, noticias, documentos legales, papers académicos, etc.) Generación de datos sintéticos En áreas de baja cobertura como STEM y economía, se refuerzan los datos usando como semilla datos open source de alta confiabilidad y generando en coreano materiales educativos, explicaciones y problemas Incluso los documentos web descartados (no aptos) se aprovechan extrayendo y reescribiendo solo los temas clave La diversidad estructural de documentos web en inglés se convierte y amplía al coreano para obtener datos extensos de QA y redacción Los datos Chain-of-Thought refuerzan el aprendizaje de razonamiento paso a paso en matemáticas, código y más Arquitectura y entrenamiento del modelo Estructura Transformer decoder-only Base: modelo 8B → Depth-up Scaling (32→48 capas) → expansión a 11.5B, con entrenamiento continuo en 2 etapas usando datos de alta calidad Mini: aligera el conocimiento de Base mediante width pruning y distillation multietapa, permitiendo inferencia eficiente Entrenamiento de long-context con soporte para hasta 32,768 tokens de entrada Incorpora tecnologías modernas como GQA, SiLU y RoPE Reseñas de uso y artículos de presentación Reseña de uso del modelo de IA coreano: KT Mi:dm 2.0 Introducción a Midm 2.0, la IA en coreano creada por KT Probando el modelo LLM coreano de KT, Mi:dm 2.0 Página de presentación de Mi:dm 2.0 de KT Material promocional del lanzamiento de Mi:dm 1.0 de KT - Mi:dm, expresar individualidad más allá de la razón y la emoción

(huggingface.co)

10 puntos por xguru 2025-07-10 | 16 comentarios | Compartir por WhatsApp

"Mi:dm" es un modelo open source de uso comercial que refleja las características lingüísticas y culturales de la sociedad coreana
Usa una estrategia de optimización multinivel, que incluye selección de datos coreanos de alta calidad, generación de datos sintéticos, curriculum learning y un tokenizador propio especializado en coreano
Tres modelos: mini para on-device (2.3B), base equilibrado en rendimiento y eficiencia (11.5B) y pro de nivel frontier (41B, próximo a publicarse)
- Mi:dm 2.0 Mini (2.3B): modelo ligero, optimizado para entornos embebidos y propósitos especializados
- Mi:dm 2.0 Base (11.5B): modelo general de gran escala, con mejor rendimiento al profundizar el modelo 8B existente mediante la técnica Depth-up Scaling
- Tanto Base como Mini soportan entrada de 32K tokens
Muestra rendimiento de primer nivel en benchmarks en coreano como KMMLU y HAERAE, y se publica bajo licencia MIT, permitiendo tanto uso de investigación como comercial

Composición y estrategia de datos

Enfoque en asegurar documentos coreanos de alta calidad, seleccionados según criterios de contexto, legibilidad y ausencia de toxicidad
Uso de datos sintéticos (traducción, generación de materiales educativos basada en palabras clave, Chain-of-Thought, etc.) para asegurar diversidad de dominios
Curriculum learning y balanceo de dominios para corregir desequilibrios en los datos de entrenamiento
Tokenizador optimizado para coreano para reforzar la eficiencia de compresión y reflejar mejor la estructura del idioma

Sistema de clasificación de datos
- Aplicación de un sistema de clasificación multidimensional como idioma, dominio, fuente de datos y expresión/estilo
- 6 dominios principales (humanidades, STEM, ciencias aplicadas, salud/alimentos, vida/cultura y otros) y 20 subdominios
- Más del 85.7% está compuesto por datos naturales (organic), y 14% corresponde a datos sintéticos
Pipeline de control de calidad
- Filtrado de documentos web masivos en 8 etapas: deduplicación, heurísticas, perplexity, daño/corrección de caracteres, filtro de calidad basado en modelos, filtro de toxicidad, duplicación por líneas y desidentificación de PII, entre otros
- Aplicación de limpieza y reglas separadas para cada fuente (por ejemplo, noticias, documentos legales, papers académicos, etc.)
Generación de datos sintéticos
- En áreas de baja cobertura como STEM y economía, se refuerzan los datos usando como semilla datos open source de alta confiabilidad y generando en coreano materiales educativos, explicaciones y problemas
- Incluso los documentos web descartados (no aptos) se aprovechan extrayendo y reescribiendo solo los temas clave
- La diversidad estructural de documentos web en inglés se convierte y amplía al coreano para obtener datos extensos de QA y redacción
- Los datos Chain-of-Thought refuerzan el aprendizaje de razonamiento paso a paso en matemáticas, código y más

Arquitectura y entrenamiento del modelo

Estructura Transformer decoder-only
Base: modelo 8B → Depth-up Scaling (32→48 capas) → expansión a 11.5B, con entrenamiento continuo en 2 etapas usando datos de alta calidad
Mini: aligera el conocimiento de Base mediante width pruning y distillation multietapa, permitiendo inferencia eficiente
Entrenamiento de long-context con soporte para hasta 32,768 tokens de entrada
Incorpora tecnologías modernas como GQA, SiLU y RoPE

Reseñas de uso y artículos de presentación

Página de presentación de Mi:dm 2.0 de KT
Material promocional del lanzamiento de Mi:dm 1.0 de KT - Mi:dm, expresar individualidad más allá de la razón y la emoción

16 comentarios

miseenscene 2025-07-11

Apoyo el intento, pero...
Ojalá no hagan cosas como crear una nueva organización y tirar por la borda la 1.0.

bakyeono 2025-07-11

Con solo ver el nombre, ya parece poco confiable.
¿Por qué habrán puesto dos puntos en medio del nombre? ¿Habrá alguna razón de significado? ¿O acaso creen que eso se ve genial?
Y además, si es 믿:음, ¿no deberían escribirlo en alfabeto latino como mid:m?

xguru 2025-07-11

Puede haber opiniones diversas, pero yo básicamente creo que todos los proyectos relacionados con IA que se intentan dentro del país tienen significado. Más que evaluar su nivel comparándolos con los demás, creo que estamos en una situación en la que hay que reconocer el intento en sí.

Es cierto que la respuesta llegó tarde, y que también estamos en desventaja en dinero y GPU frente a Estados Unidos y China, pero ¿no mejorará si lo reconocemos, lo usamos juntos y lo vamos perfeccionando?

crawler 2025-07-11

Estoy parcialmente de acuerdo.
Yo pienso que crear wrappers que se hacen pasar por servicios de IA usando APIs externas no tiene ninguna productividad y es un negocio de cobrar comisiones,
pero si las empresas al menos afinan modelos y luego los publican, al final los están haciendo públicos invirtiendo sus propios recursos, así que no creo que haya motivo para verlo negativamente.

Eso sí, si empiezan a recibir dinero de afuera, por ejemplo del gobierno, creo que ya no se podría ver de manera tan positiva...

crawler 2025-07-11

> Yo pienso que hacer wrappers que dicen ser servicios de IA usando APIs externas es un trabajo sin ninguna productividad y un negocio de cobrar comisiones,

Sumando a eso, incluso si se usan APIs, si se aprovechan tan bien como Manus puede considerarse un logro, pero todavía no parece haber en Corea un wrapper de ese nivel.

mssmss 2025-07-11

Porque no se puede competir de forma sólida solo con la tarea de mejorar el rendimiento base.

strn18 2025-07-10

¿Por qué las empresas coreanas o el gobierno se enfocan en modelos de lenguaje especializados en coreano? Si pensamos en la tendencia actual de los LLM, que mejoran su rendimiento entrenándose con datos masivos a escala de internet, más bien parecería más natural que existieran modelos de propósito general sin importar el idioma, así que no entiendo bien qué ventajas tendría un LM específicamente especializado en coreano.

ryj0902 2025-07-11

Si de verdad creemos que la IA es la base de la próxima generación, entonces no sería deseable que una tecnología de infraestructura clave para el país dependiera de la tecnología de otros países... ¿no?

roxie 2025-07-11

Creo que la tecnología de otro país != los datos de otro país.

dbs0829 2025-07-11

Es cierto que la calidad en los idiomas con pocos usuarios tiende a ser más baja, pero tampoco creo que vayan a hacer que solo sea bueno en coreano. Tampoco hay una razón clara para eso. Y el problema es que nosotros somos usuarios de uno de esos idiomas con pocos usuarios....

greenday 2025-07-11

Hablando con frialdad, es porque no tiene competitividad.
El desarrollo de modelos open source de frontera normalmente lo llevan a cabo equipos de Research Engineers que en las big tech reciben salarios anuales de varios miles de millones de wones, con un enorme respaldo de recursos de GPU. (Recuerdo que en el pasado, en Meta, las GPU asignadas a un solo proyecto eran 10 mil A100, y según recuerdo, eso era más que todo el volumen total de A100 que había en Corea en ese momento.)

De manera realista, el nivel de personal y recursos de GPU que se destinan en Corea al desarrollo de LLM está en un nivel con el que es difícil competir a escala global.
Más que decir que nosotros somos especialmente malos, creo que lo correcto es verlo como que Estados Unidos y China son tan abrumadoramente superiores que es difícil seguirles el paso.

helio 2025-07-11

Yo tampoco lo tengo muy claro, pero al ver esos procesos de thinking, a veces aunque hagas la consulta en coreano parece que lo hace en inglés; si ese proceso pudiera hacerse en coreano, ¿no podría dar respuestas más acordes con la sensibilidad local del país?

truestar 2025-07-11

¿No será que están invirtiendo pensando en las nuevas IA que se desarrollarán o evolucionarán en el futuro, o en elevar el nivel general de las IA existentes? Como DeepSeek. Si a una IA así se le incorpora la sensibilidad cultural coreana, parece que tendría competitividad. Aunque es algo del futuro.

zihado 2025-07-10

Parece que están tratando de chupar dinero público sin control.

clastneo 2025-07-10

¿No será porque el coreano se rompe? A Gemini también le pasa, y cuando lo usas por un tiempo, demasiadas veces en cierto punto salta a otro idioma..

cckn1985 2025-07-10

El nombre del modelo de IA suena bastante inquietante, como si fuera algo que saldría en un mundo postapocalíptico o distópico jaja

Mi:dm 2.0 - el LLM open source desarrollado por KT

Composición y estrategia de datos

Sistema de clasificación de datos

Pipeline de control de calidad

Generación de datos sintéticos

Arquitectura y entrenamiento del modelo

Reseñas de uso y artículos de presentación

Lecturas relacionadas

16 comentarios