2 puntos por liang1008 2026-01-04 | 5 comentarios | Compartir por WhatsApp

Recientemente probé SFT y fine-tuning con LoRA usando los modelos pequeños de Gemma 3 para el dominio de recomendación de películas. Durante el experimento sentí algunas limitaciones en la capacidad de los modelos pequeños (SLM) para adquirir conocimiento, así que publico esta consulta.

[Experimento]

  • Modelos usados: gemma-3-270m-it, gemma-3-1b-it
  • Método de entrenamiento: LoRA y SFT
  • Resultado del experimento: el modelo de 1B podía razonar hasta cierto punto apoyándose en el conocimiento previo que ya tenía, pero el modelo de 270M me dio la impresión de que, por la limitación en el número de parámetros, le faltaba incluso el “recipiente” necesario para incorporar nuevo conocimiento de dominio.

Dejé registrado todo el proceso general de ajuste en varias publicaciones del siguiente blog.
https://seungsang.tistory.com/entry/…


[Problemas enfrentados]

  • Límite de capacidad de LoRA: como los parámetros entrenables rondan apenas el 1% del total, vi límites al intentar ir más allá de una simple adaptación de tarea (Task Adaptation) hacia una inyección de conocimiento (Knowledge Injection).
  • Dilema del ajuste completo (Full Fine-tuning): si se actualizan todos los pesos del modelo, parece favorable para inyectar conocimiento, pero creo que se perdería la capacidad general de razonamiento (Reasoning) que ya tenía. Aunque quisiera mezclar datos de replay para evitarlo, la situación es difícil porque los datos de entrenamiento del modelo base no son públicos.

En el caso de las películas, creo que el fine-tuning fue posible porque el modelo ya tenía conocimiento previo sobre ese tema.
Pero, si yo quisiera basarme en un dominio específico, ¿cómo debería hacerlo?
Cuando uno quiere especializar un modelo pequeño en un dominio concreto, ¿qué estrategias existen para superar la limitada capacidad de parámetros e inyectar conocimiento de dominio de forma efectiva?

Les agradecería mucho sus consejos. También agradecería si pueden compartir experiencias diversas, como CPT (Continue Pre-training).

5 comentarios

 
bungker 2026-01-05

Yo también estuve afinando un 7B y no salía bien, casi me vuelvo loco. Me está regresando el PTSD.

 
liang1008 2026-01-06

¿Todavía lo están haciendo?

¿Podrían compartir también lo que han sentido al probarlo y algunos consejos?

 
mammal 2026-01-04

LoRA y el fine-tuning no son adecuados para inyectar conocimiento. LoRA y el fine-tuning son óptimos para ajustar el estilo o el tono de salida. Si incluyes información relacionada con el conocimiento en el prompt de entrada en formato RAG, y luego evalúas el recall/la recuperación y la precisión de los datos de salida, después realizar LoRA/fine-tuning será mucho más efectivo.

 
tsboard 2026-02-14

Yo también quisiera sumar un voto más al uso de RAG.

 
liang1008 2026-01-04

Gracias por la respuesta.

Si es RAG, me preocupa un poco cómo traer de forma adecuada los datos relacionados con el dominio.
No sé si habría que entrenar el propio modelo de embeddings...

Quería internalizar el conocimiento para reducir también la cantidad de tokens del modelo pequeño, pero parece que con LoRA hay límites.

Voy a pensar en lo que me comentaste. Gracias.