Entrenar un ModernBERT 100 veces más pequeño a partir de la capacidad de razonamiento de DeepSeek R1

(link.medium.com)

7 puntos por sigridjineth 2025-01-30 | Aún no hay comentarios. | Compartir por WhatsApp

Usando etiquetas creadas a partir de DeepSeek R1, se puede entrenar un modelo ModernBERT para predecir si “un artículo presenta un nuevo conjunto de datos”. El modelo creado de esta manera puede usarse de inmediato y, al hacer solo inferencia en un entorno de servicio en producción, no requiere recursos masivos como un LLM. Aun así, como hereda de forma indirecta la capacidad de razonamiento de un LLM en problemas de clasificación que requieren etiquetas, mantiene un nivel de precisión razonablemente bueno.

En particular, en RAG, cuando no basta con una simple coincidencia de texto y se necesita cierto nivel de razonamiento, y cuando faltan muchas etiquetas o es difícil crearlas, resulta útil entrenar un modelo ModernBERT a partir de etiquetas generadas por DeepSeek.

Entrenar un ModernBERT 100 veces más pequeño a partir de la capacidad de razonamiento de DeepSeek R1

Lecturas relacionadas

Aún no hay comentarios.