Entrenar un ModernBERT 100 veces más pequeño a partir de la capacidad de razonamiento de DeepSeek R1
(link.medium.com)Usando etiquetas creadas a partir de DeepSeek R1, se puede entrenar un modelo ModernBERT para predecir si “un artículo presenta un nuevo conjunto de datos”. El modelo creado de esta manera puede usarse de inmediato y, al hacer solo inferencia en un entorno de servicio en producción, no requiere recursos masivos como un LLM. Aun así, como hereda de forma indirecta la capacidad de razonamiento de un LLM en problemas de clasificación que requieren etiquetas, mantiene un nivel de precisión razonablemente bueno.
En particular, en RAG, cuando no basta con una simple coincidencia de texto y se necesita cierto nivel de razonamiento, y cuando faltan muchas etiquetas o es difícil crearlas, resulta útil entrenar un modelo ModernBERT a partir de etiquetas generadas por DeepSeek.
Aún no hay comentarios.