3 puntos por jinhyungpark 2025-05-16 | Aún no hay comentarios. | Compartir por WhatsApp

El secreto de Qwen3 de Alibaba, el modelo de código abierto más popular, está precisamente en su arquitectura Mixture-of-Experts (MoE). Sin embargo, la selección de expertos no siempre es correcta, y algunos expertos casi nunca son elegidos, por lo que resultan innecesarios.

Tomando como ejemplo el ajuste del router en arquitecturas MoE, incluido Qwen3 MoE, se presentan varias estrategias que van más allá del enfoque tradicional de usar solo los expertos con mayor frecuencia, para evaluar y seleccionar con precisión a los expertos que realmente contribuyen a la calidad de salida de la IA. Con estas estrategias, es posible mejorar tanto la precisión como la velocidad de los modelos MoE.

Aún no hay comentarios.

Aún no hay comentarios.