El regreso del fine-tuning

(welovesota.com)

13 puntos por GN⁺ 2025-10-21 | 2 comentarios | Compartir por WhatsApp

El fine-tuning vuelve a posicionarse en el centro de las metodologías de desarrollo de IA, impulsado por el anuncio de Tinker de Thinking Machines Labs y por un cambio de paradigma hacia despliegues de LLM open source autogestionados
El fine-tuning, que en algún momento había caído a menos del 10% de las cargas de trabajo de inferencia de IA, vuelve a ganar atención gracias a las plataformas de GPU-as-a-service, a un ecosistema de modelos más estable y a la expansión de los modelos de pesos abiertos
La técnica LoRA (Low-Rank Adaptation) reduce drásticamente los costos al agregar solo pequeñas matrices de bajo rango en lugar de volver a entrenar miles de millones de parámetros, manteniendo o incluso mejorando el rendimiento
Tinker ofrece una arquitectura de aprendizaje continuo mediante aprendizaje por refuerzo en línea, presentando un futuro para el fine-tuning en el que se evalúan y mejoran las propias respuestas del modelo en vez de imitar respuestas redactadas de antemano
El fine-tuning está evolucionando más allá de una simple etapa técnica hacia una capa estratégica para propiedad, alineación y mejora continua, y se perfila como motor clave para las computadoras personales de IA y la operación de agentes especializados

Contexto histórico del fine-tuning

Thinking Machines Labs presentó Tinker, reavivando el debate sobre el fine-tuning-as-a-platform
- La startup, fundada por Mira Murati, ex CTO de OpenAI, alcanzó una valoración de 12 mil millones de dólares apenas 6 meses después de su creación
- Posiciona la plataforma de fine-tuning como base para la colaboración de investigación con universidades
Clément Delangue de Hugging Face detectó un cambio de paradigma hacia despliegues de LLM especializados, open source y autogestionados
- Hardware dedicado como el DGX Spark de NVIDIA respalda esta tendencia
- Personal AI Workstation de a16z es un caso de marketing que muestra esta tendencia
El fine-tuning recibió atención momentánea tras la primera ola de modelos de lenguaje a gran escala, pero luego desapareció con rapidez hasta representar hoy menos del 10% de las cargas de trabajo de inferencia de IA

La era anterior a Transformer

Antes de la revolución de Transformer, el NLP dependía de modelos especializados
- Las arquitecturas recurrentes como RNN y LSTM lograron avances iniciales
- Por primera vez, aprendían directamente de secuencias de palabras en lugar de características lingüísticas hechas a mano
- Cada aplicación tenía que empezar desde cero con datos específicos de la tarea

La llegada de Transformer y la consolidación de la metodología de fine-tuning

En 2017, el paper de Google Attention Is All You Need introdujo la arquitectura Transformer
- Reemplazó la recurrencia y la convolución únicamente con self-attention
Siete meses después, ULMFiT demostró que un modelo de lenguaje preentrenado (todavía basado en LSTM en ese momento) podía ajustarse con fine-tuning para distintas tareas
- Estableció la base metodológica que volvió práctico a Transformer
Un año después, BERT y GPT-1 llevaron ese diseño a la práctica
- BERT aprovechó el lado encoder con atención bidireccional para comprensión
- GPT usó el lado decoder con atención unidireccional para generación
BERT, en particular, reconfiguró la cultura del NLP
- En lugar de construir cada modelo desde cero, los investigadores comenzaron a hacer fine-tuning a Transformers preentrenados para lograr resultados que antes requerían meses de ingeniería manual de características

Los límites del Full Fine-Tuning y la aparición de LoRA

A medida que los parámetros explotaron de millones a cientos de miles de millones, el fine-tuning dejó de ser una opción sensata
- Full Fine-Tuning (FFT) implica volver a entrenar todas las capas y pesos
- Ofrecía precisión, pero a un costo enorme
- Lo que alguna vez fue unas pocas horas de trabajo en GPU se convirtió en una operación industrial a gran escala
En 2021, Microsoft Research presentó LoRA (Low-Rank Adaptation of Large Language Models)
- En vez de volver a entrenar miles de millones de parámetros, LoRA congela los pesos originales y agrega pequeñas matrices de bajo rango en capas seleccionadas
- Solo se entrenan esas matrices, lo que reduce los costos a una fracción mientras mantiene o mejora el rendimiento de FFT
- LoRA se convirtió en el enfoque por defecto
- Para 2024, gracias a la librería PEFT de Hugging Face, podía implementarse con una sola línea de comando

La complejidad del ajuste de hiperparámetros

El fine-tuning es más que un paquete para desplegar y mantener
- El ajuste en sí es donde ocurre la verdadera magia, y nunca existe una sola configuración que sirva para todo
El ajuste de hiperparámetros determina por sí mismo el éxito o fracaso del modelo
- Equilibrar rango, learning rate y proporción alfa se parece más a la alquimia que a la ciencia
- Hay que evitar que los adapters sobreajusten o que el modelo olvide lo que ya sabía (catastrophic forgetting)
Cuando algo funciona, la evaluación a veces se siente más cercana a la adivinación que a la validación
Mientras tanto, los LLM siguieron mejorando en casi todas las tareas, acercándose a una especie de omnipotencia
- Para 2023, la mayoría de los equipos descubrió que podía lograr cerca del 90% del rendimiento del fine-tuning mediante prompt engineering, gracias a ventanas de contexto más amplias
- RAG (Retrieval-Augmented Generation) también dio a los modelos acceso a bases de conocimiento externas
- Ambos enfoques evitan el reentrenamiento y ofrecen resultados aceptables con mucha menos carga operativa

Por qué el fine-tuning vuelve a llamar la atención

Los factores que antes hacían que el fine-tuning pareciera irrelevante o ineficiente ahora se están resolviendo uno por uno
- Plataformas de GPU-as-a-service como Together.ai permiten iniciar pipelines de fine-tuning con LoRA con una fricción mínima
- Aunque siguen apareciendo nuevos modelos rápidamente, el cambio ahora es más evolutivo que revolucionario
- Ecosistemas de pesos abiertos como Mistral, Llama, Falcon, Yi y Gemma ofrecen muchas alternativas para que las organizaciones posean, inspeccionen y mantengan variantes ajustadas sin depender de un proveedor
- Es posible que las empresas ya hayan llegado al límite de lo que pueden lograr solo con prompting
El fine-tuning vuelve lentamente al centro de atención no como una función de moda, sino como una palanca estratégica para control, diferenciación e inteligencia integrada

Tinker de Thinking Machines Lab y las mejoras a LoRA

Tinker de Thinking Machines Lab se enfoca en demostración de teoremas, razonamiento químico, aprendizaje por refuerzo multiagente y seguridad en IA
En su post LoRA Without Regret, compartieron cómo hacer fine-tuning de forma más efectiva
- Recomiendan aplicar LoRA a todos los módulos lineales, no solo a las capas de atención como en el paper original
- Destacan la importancia del rango de LoRA, un hiperparámetro que suele pasarse por alto
- Recomiendan learning rates más altos (al menos 10 veces mayores) y batch sizes más pequeños, lo contrario de la práctica común
- Aconsejan definir explícitamente la función de recompensa mediante verificación matemática o lógica
- Todas las recomendaciones están claramente explicadas y son reproducibles en TRL de Hugging Face

La modularidad de los pipelines modernos de fine-tuning

Los pipelines modernos de fine-tuning son completamente distintos a los de hace 5 años
- Son modulares, serverless y orquestados
Un solo despliegue puede ejecutar decenas de adapters LoRA junto al modelo base
- Cada uno representa un tono, una función o un dominio específico
Durante la inferencia, el sistema enruta la consulta hacia la combinación correcta de adapters en lugar de depender de archivos de modelo estáticos
Esta modularidad también trae sus propios desafíos
- Las plataformas all-in-one como Together.ai manejan gran parte del trabajo pesado, pero carecen de la configuración fina y la observabilidad que muchos equipos necesitan
- Los costos a gran escala pueden crecer rápidamente

El enfoque distintivo de Tinker

Tinker parece ofrecer lo mejor de ambos mundos
- Combina la comodidad de un stack moderno y completamente administrado de fine-tuning con control detallado para investigadores
- Ofrece acceso directo por API a primitivas de entrenamiento de bajo nivel para que los usuarios puedan orquestar flujos de trabajo de entrenamiento y algoritmos personalizados en el nivel más profundo
- Al mismo tiempo, se encarga del trabajo difícil
Por ahora, Tinker está reservado solo para fines de investigación, pero se espera que inspire a otras plataformas
Los problemas de infraestructura están dejando de ser el obstáculo principal, pero la gran dificultad de la evaluación sigue en pie

La dificultad de evaluar modelos y el aprendizaje por refuerzo en línea

Los modelos son muy difíciles de evaluar
- La evaluación humana es inconsistente, lenta y, sobre todo, costosa
- Los benchmarks envejecen rápido y pierden relevancia por contaminación de datos
- Incluso los enfoques automatizados como G-Eval o Chatbot Arena traen sus propios problemas y a menudo amplifican sesgos y generan puntajes inestables
Benjamin Anderson sugiere que Tinker podría tener parte de la solución
- Tinker da a los usuarios la capacidad de realizar aprendizaje por refuerzo en línea
- Toma completions a partir de los pesos actuales del modelo, les asigna un puntaje y actualiza el modelo según si esa completion fue buena o mala
- Mientras el fine-tuning supervisado enseña al modelo a imitar respuestas escritas de antemano, el RL en línea mejora al puntuar sus propias respuestas
Con esta arquitectura, el futuro del fine-tuning puede dejar de parecer fine-tuning
- Empieza a parecerse a aprendizaje continuo

La evolución estratégica del fine-tuning

Robert Hommes de Moyai.ai lo resume así
- "En teoría, el fine-tuning siempre tuvo sentido. Pero la velocidad con la que los laboratorios closed source expandían la inteligencia de los modelos lo convirtió en una mala elección en la práctica"
- "Ahora, con cómputo, datos y mejores frameworks, la balanza vuelve a inclinarse hacia la especialización"
El cambio hacia el self-hosting podría estar más cerca de lo esperado
- Constant Razel de Exxa afirma que "las computadoras personales de IA ya no son una idea lejana"
- La tecnología está mejorando y se vuelve más accesible
- La seguridad y el costo probablemente impulsen la adopción temprana
- El fine-tuning permitirá que agentes especializados y de alto rendimiento operen sobre esa base
El fine-tuning está cambiando de una búsqueda por fuerza bruta de precisión límite a un framework para propiedad, alineación y mejora continua, arraigado en proximidad y control
Ya no sería simplemente una etapa técnica, sino una capa estratégica en la forma en que se construye y se posee la inteligencia

2 comentarios

m00nlygreat 2025-10-22

Los humanos terminan siendo más bien un obstáculo para el desarrollo de la IA. Es un dilema interesante. Jaja

GN⁺ 2025-10-21

Opinión de Hacker News

Hace apenas un año yo era optimista. Hubo al menos un caso en el que el fine-tuning basado en RL sí tuvo sentido. Pero cuando intentas llevarlo a la práctica en trabajo real, hay muchos choques con las tecnologías ya establecidas en la industria. Viendo a los ingenieros de ML a mi alrededor, especialmente los que entraron después de la llegada de los LLM, muchas veces les falta conocimiento real de ML. En la práctica, son más bien desarrolladores de AI o perfiles de AI DevOps. El propio ML se está convirtiendo poco a poco en un oficio de usar herramientas de plataforma, como pasó con la ingeniería de datos o el análisis. De hecho, a simple vista, entre los productos de AI de plataformas en la nube hay varios que ni siquiera ofrecen métricas de evaluación, así que desarrollar una solución de ML como se debe resulta imposible. Casi nadie parece considerar esto un problema serio. El fine-tuning con RL requiere muchísimos detalles, puntos de monitoreo y refinamiento de datos. Si ya de por sí casi nadie aprende bien ni los modelos de ML más simples, la brecha de aprendizaje para el fine-tuning con RL es muchísimo mayor. Como hay pocos buenos casos reales, en el trabajo tampoco hay muchas oportunidades de aprender de gente con experiencia. También se está tendiendo a recortar costos en asignación de expertos y en labeling de datos. Soy escéptico de cuánto tiempo va a seguir una empresa apoyando este tipo de capacidades técnicas, o de si alguien va a hacerse cargo cuando yo ya no esté. AutoML tampoco logró masificarse, y creo que con RL probablemente tampoco sea fácil convertirlo en plataforma. La realidad es que a la mayoría de las empresas no les molesta pagar más por productos inferiores pero escalables a gran escala. La “experiencia” en la industria termina siendo experiencia con plataformas cerradas. A veces piden “pytorch” en el stack tecnológico, pero casi nadie en la empresa sabe usarlo de verdad. Y aunque hubiera alguien que sí, no pueden usarlo por la carga operativa
- El etiquetado es realmente esencial para validar un sistema de forma rápida y objetiva, incluso si no estás entrenando el modelo. Pero conseguir etiquetas siempre es una cadena de dificultades. A veces logras asegurar recursos de SME, pero comunicarles que necesitas que apliquen criterios consistentes de forma estricta es complicado, y las etiquetas finales terminan siendo difíciles de usar. Al final, muchas veces yo mismo terminaba etiquetando por iniciativa propia. Mi entendimiento del dominio era limitado, pero más o menos sabía “qué le gusta a la red neuronal”, así que al menos podía reducir bastante los tiempos de espera. Sigue siendo difícil justificar el ajuste de modelos grandes. Muchas veces basta esperar seis meses para que salga un mejor modelo base. Pero si hay un punto donde los modelos grandes son demasiado caros y poco eficientes, entonces sí tiene un valor claro hacer fine-tuning de un modelo pequeño para un objetivo específico
- Siento que la ingeniería de verdad, es decir, la capacidad de llevar teoría compleja a sistemas que realmente funcionen, se ha debilitado bastante en el sentido profundo. Ahora hay una tendencia más fuerte a subirse a servicios de ingeniería ya resueltos en lugar de invertir mucho tiempo en desarrollar habilidad de ingeniería propia. Desde una ética hacker, no hace falta exigir ROI para entrenar directamente un modelo en una GPU medio desconocida. Un ingeniero individual lo hace porque tiene hambre de aprender
- Al final, alguien va a obtener resultados sólidos midiendo desempeño real, Michael Lewis va a escribir un libro sobre eso, y entonces empezará de nuevo otro ciclo
- Yo también he visto muchos equipos que esperaban grandes resultados del fine-tuning y al final solo obtuvieron mejoras graduales o mínimas. Incluso después de convertirlo en producto, muchas veces terminaron arrepintiéndose por no poder seguir el ritmo de las actualizaciones SOTA más recientes. Yo estoy evitando el fine-tuning a propósito. La razón es que los propios modelos están mejorando demasiado rápido, y la velocidad de desarrollo de producto en las grandes empresas no logra seguirles el paso
Hace poco hice una encuesta en Twitter sobre casos donde el fine-tuning de LLM haya generado valor económico. Hago esta pregunta más o menos cada seis meses, y casi siempre los resultados eran decepcionantes. Esta vez reuní respuestas un poco más confiables que antes. Resumí los casos principales en mi hilo de Twitter, y para quienes no usan Twitter también compartí el enlace al visor del hilo. Un caso impresionante es Datadog, que logró una latencia inferior a 500 ms en su función de consultas de búsqueda en lenguaje natural tuit relacionado, ver también la documentación oficial. Vercel opera un modelo con fine-tuning personalizado para la generación automática de Next.js y también tiene un blog. Shopify usa un Vision LLM ajustado para análisis de fotos de productos, ver este artículo
- En tareas de regresión (regression), el fine-tuning es casi indispensable. También es útil en clasificación (classification), porque puedes usar directamente valores de probabilidad para ajustar umbrales de sí/no
- Para la mayoría de las empresas, creo que la relación riesgo-recompensa del fine-tuning será peor de lo esperado. Si simplemente es posible meter más datos en el prompt, eso suele ser más fácil
- Si tienes ideas sobre casos donde el fine-tuning podría producir un cambio importante, pero no tienes tiempo ni recursos para probarlo por tu cuenta, me interesa mucho que las compartas. Ahora mismo estoy recopilando este tipo de casos, y por el momento solo tengo tres casos reales/verificados
- Mucha gente que intenta fine-tunear conocimiento de dominio en un LLM comete el error de cortar, por ejemplo, libros de psicología y meter solo el texto. De esa forma no le estás enseñando a “aplicar la psicología”, sino simplemente a “escribir una introducción” sobre ella. Un mal diseño del dataset es la causa de muchos fracasos en fine-tuning. En cambio, si la composición del dataset está bien hecha, un modelo de 7B puede superar a uno de 180B en eficiencia
Estoy de acuerdo con la opinión de OP por varios casos que vi recientemente. PaddleOCR, con 0.9B parámetros, se acerca a precisión SOTA en texto, tablas, fórmulas, gráficos y escritura a mano paper. Y modelos de 3B/8B lograron precisión al nivel de GPT-5 en tareas de extraer HTML a JSON, con un costo 40 a 80 veces menor y una inferencia más rápida Reddit. Si quieres mejorar la eficiencia en una tarea específica, el fine-tuning sí tiene sentido
- Me pregunto si lo usaste directamente PaddleOCR. Me parece raro afirmar que es SOTA sin compararlo con Amazon Textract o Azure Document Intelligence (basado en LayoutLM v3). Cuando hice experimentos de reconocimiento documental, esos dos eran lo mejor que vi
- Esta discusión también vuelve al tema de SLM y LLM, es decir, al tamaño del modelo. Un SLM puede optimizarse para un trabajo específico y, para esa tarea concreta, puede vencer a un LLM. Pero salvo que 1. la precisión sea muy importante o 2. el tráfico sea enorme, el valor no suele compensar el tiempo y el esfuerzo
Como fundador de Lamini, una startup de fine-tuning para LLM, no estoy de acuerdo con OP. Nuestra hipótesis era que el fine-tuning sería mucho más fácil de usar que aprender deep learning desde cero. Asumíamos que sería más fácil porque ya partes de un LLM muy potente. Pero después de hacer unos 20 proyectos reales, vimos que el fine-tuning era tan difícil y tenía una barrera de entrada tan alta como el deep learning. Con la estructura actual del mercado, un ingeniero de ML que sea bueno en fine-tuning basado en deep learning puede fácilmente fundar una startup o entrar a Anthropic, OpenAI, etc. En cambio, en los equipos que construyen soluciones con LLM no se valora tanto a los ingenieros realmente buenos. Como resultado, los equipos especializados que construyen Claude, GPT, Qwen y similares son más competitivos que los intentos individuales de los usuarios por hacer fine-tuning. Hoy por hoy, RAG, prompt engineering, razonamiento, agentes de AI, memoria y SLM son soluciones mucho más fáciles y potentes
- Me pregunto si Anthropic u OpenAI realmente contratan a cualquiera que sepa hacer fine-tuning de LLM
- Me da curiosidad qué tipo de modelos estaban ajustando en ese momento, si eran modelos ya lo bastante maduros como para ajustarse bien, y si tuvieron problemas de catastrophic forgetting (olvido catastrófico). Ahora también hay muchos mejores modelos open source. Creo que si diseñas la arquitectura pensando en el fine-tuning, se pueden superar varias debilidades de la generación anterior. Las empresas quieren poseer su propio modelo en lugar de depender del de alguien más
El fine-tuning es una buena técnica que definitivamente debería estar en la caja de herramientas. Pero en la práctica, sus usos aplicables son más limitados de lo que parece. Por un lado, muchas tareas de NLP ya alcanzan una precisión bastante alta solo con el rendimiento base del LLM, así que no hace falta fine-tuning. Por otro lado, las tareas realmente complejas hacen que el fine-tuning sea muy difícil y la recolección de datos sea muy cara. Al final, el fine-tuning es una solución útil para tareas que están justo en ese punto medio: dificultad razonable y recolección de datos realista
- Creo que hay cientos de miles de casos de uso adecuados
- Me interesa saber qué ejemplos concretos entrarían en ese tipo de tareas “intermedias”
Este sitio web carga realmente rápido incluso desde Europa. El contenido se carga dinámicamente al hacer scroll, y las imágenes tienen una compresión alta pero buena calidad. La estructura del sitio está realmente impresionante
- Supongo que es por la magia del CDN y por usar el mínimo posible de JS (aunque todavía no reviso el código fuente)
Hace poco escribí una entrada de blog sobre un tema parecido blog. Hablé de “LoRA Land”, un estudio empírico a gran escala donde un modelo de 7B ajustado superó a GPT-4, y de cómo ha cambiado la tendencia del fine-tuning en los últimos seis meses
Me pregunto si con adaptadores LoRA se podrían meter dentro del modelo distintos elementos de contexto que hoy sí o sí hay que poner en el prompt, como estándares de trabajo, preferencias de estilo de nombres, materiales de referencia, definiciones de MCP, etc. Para crear los datos, bastaría con meter la mayor cantidad posible del contexto actual, probar distintos prompts y observar cómo cambia la respuesta frente al baseline. Luego ese resultado podría usarse para fine-tuning con algo como input=“refactor {base model output}”, output=“{full-context model output}”. LoRA fue diseñado originalmente para combinarse, así que MCP también podría distribuirse como adaptador y activarse o desactivarse. Incluso creo que este enfoque podría ayudar a prevenir el context poisoning
Soy desarrollador de inference.net y schematron. A medida que las empresas aplican LLM a productos reales, se preocupan cada vez más por la eficiencia. Desde el punto de vista del desarrollador, aunque estés dispuesto a pagar por un modelo caro tipo GPT-5-Super-AGI-Thinking-Max, el negocio real también se fija en la eficiencia. Si puedes tomar un modelo Llama de 8 mil millones de parámetros, hacerle fine-tuning con datos de GPT-5 en menos de 48 horas y ahorrar 100 mil dólares al mes, obviamente todos van a querer aprovechar esa oportunidad
Creo que la mayoría de las empresas ya llegó al límite de lo que se puede lograr solo con prompts simples. Necesitan un modelo que conozca con precisión el vocabulario, el tono, la taxonomía y los requisitos de cumplimiento propios de esa empresa. También es cierto que la velocidad y el costo son importantes, y esa es una razón principal para hacer fine-tuning. Pero las técnicas de gestión de contexto también permiten colaborar. A medida que creció el tamaño del contexto, RAG fue reemplazando al fine-tuning, y últimamente un mejor diseño de prompts también ha aumentado muchísimo la utilidad. Como en la discusión entre FPGA y CPU/GPU, la mayoría no logra capturar los beneficios del fine-tuning de alto nivel por el costo de desarrollo y el riesgo en los plazos