10 puntos por GN⁺ 2025-02-27 | 3 comentarios | Compartir por WhatsApp
  • Kakao está desarrollando la ‘familia de modelos Kanana (Kanana Model Family)’ con el objetivo de crear modelos de IA optimizados para su aplicación en servicios, considerando al mismo tiempo alto rendimiento y eficiencia de costos.
  • Completó el entrenamiento del modelo de lenguaje de ultra gran escala ‘Kanana Flag’ y terminó de conformar su línea de modelos de lenguaje, que incluye Kanana Essence y Kanana Nano.
  • Para contribuir al ecosistema de investigación en IA y colaborar con la comunidad global de IA, publicó como open source el modelo ‘Kanana Nano 2.1B’ (base, instruct, embedding).

1. Logro de alto rendimiento en coreano e inglés a nivel Global Top

  • Kakao experimentó con diversas técnicas de entrenamiento con el objetivo de desarrollar un modelo con competitividad global y lograr el mejor rendimiento posible dentro de recursos limitados.
  • Kanana Flag registró un rendimiento de primer nivel (SOTA) al mismo tiempo que redujo en más de 50% el costo de entrenamiento frente a modelos de otras compañías mediante la optimización de recursos de entrenamiento.
  • En benchmarks en inglés (MMLU, MT-Bench) mostró un rendimiento similar al de modelos globales, y en benchmarks en coreano (KMMLU, KoMT-Bench) demostró un rendimiento ampliamente superior al de modelos competidores.
  • Resumen del rendimiento en benchmarks
    • Rendimiento en conversación y ejecución de solicitudes
      • Kanana Flag 32.5B obtuvo puntuaciones más altas que los modelos competidores en conversaciones basadas en inglés y coreano.
      • En particular, mostró un rendimiento sobresaliente en conversación en coreano basada en conocimiento (KoMT-Bench) y en evaluación de razonamiento lógico (LogicKor).
    • Rendimiento en conocimiento, código y matemáticas
      • Obtuvo puntuaciones altas en evaluaciones de conocimiento en inglés (81.08) y coreano (64.19), con resultados superiores a los de los modelos competidores.
      • También mostró alta precisión en completado de código y soluciones de código, y logró un rendimiento destacado en matemáticas básicas (GSM8K) con 90.83 puntos.

2. Menos de la mitad del costo de entrenamiento frente a modelos de tamaño similar gracias a una mayor eficiencia de entrenamiento

  • Como el entrenamiento de modelos de lenguaje a gran escala requiere enormes recursos de cómputo, Kakao aplicó una estrategia de pre-training para maximizar la eficiencia del entrenamiento.
  • Utilizó el enfoque de staged pre-training para entrenar modelos de tamaños 8B y 26.8B, y luego construyó el modelo Kanana Nano 2.1B mediante optimización.
  • Optimizó el modelo liviano usando técnicas de pruning y distillation.
  • Aplicó la técnica de DUS (Depth Up-Scaling) para desarrollar Kanana Essence 9.8B y Kanana Flag 32.5B.
  • Con ello, logró optimizar el entrenamiento a menos de la mitad del costo frente a modelos globales de tamaño similar.

3. Publicación open source de Kanana Nano 2.1B, un modelo liviano de alto rendimiento utilizable incluso on-device

  • Considerando la utilidad para investigadores y desarrolladores, publicó como open source las versiones base, instruct y embedding de ‘Kanana Nano 2.1B’.
  • Kanana Nano 2.1B fue diseñado para funcionar sin problemas incluso en entornos on-device, por lo que puede utilizarse con fines de investigación y desarrollo.
  • Considerando el alto costo de los modelos grandes y la baja precisión de los modelos pequeños, decidió publicar el modelo en el tamaño más práctico.
  • Aunque es un modelo relativamente pequeño, muestra un rendimiento comparable al de modelos globales y ofrece diversas posibilidades de aplicación.
  • Sin embargo, puede tener limitaciones en tareas de alta dificultad, como razonamiento complejo o resolución de problemas matemáticos, pero planea apoyar a investigadores y desarrolladores para que puedan realizar diversas investigaciones a partir de él.

Cierre

  • A través de este reporte técnico, Kakao presenta toda la línea de modelos de lenguaje Kanana y el modelo open source Kanana Nano 2.1B.
  • En adelante, planea incorporar tecnologías basadas en reinforcement learning (RL) para fortalecer la capacidad de reasoning (razonamiento), así como el rendimiento en matemáticas y código.
  • También planea mejorar el modelo mediante continual learning para que pueda aprender continuamente nuevos datos mientras conserva lo ya aprendido.
  • Busca perfeccionar las tecnologías de alignment para reforzar la capacidad de ejecutar solicitudes de los usuarios y hacer que la IA pueda comprender y conversar de manera más natural.
  • En última instancia, el modelo Kanana evolucionará hacia una IA multimodal para poder ver, escuchar, hablar y comunicarse de forma intuitiva como una persona.
  • Kakao continuará asumiendo desafíos para que la IA aporte valor a la vida cotidiana de los usuarios y seguirá fortaleciendo su competitividad tecnológica.

Kanana GitHub link
Kanana Technical Report link
Kanana Nano 2.1B Download

[1] pruning: técnica que poda componentes de un modelo de IA para dejar solo los elementos importantes.
[2] distillation: técnica que transfiere el conocimiento de un modelo grande a uno más pequeño.
[3] Depth Up-Scaling: método para aumentar eficazmente la escala de un modelo apilando más capas sobre un modelo existente.

3 comentarios

 
rtyu1120 2025-02-27

Estuve viendo qué licencia tiene y resulta que es CC BY-NC-ND 4.0..?? Si es NonCommercial, ¿eso significa que empresas aparte de Kakao no deberían usarlo...? La verdad no entiendo bien cuál es la intención.

 
bobross0 2025-03-13

jajajaja

 
cosine20 2025-03-03

jajaja