- "Los datos son el nuevo petróleo" fue el eslogan de la última década
- Las empresas entendieron cuánto valor tienen los datos, o cuánto valor podrían llegar a tener
- Las empresas se apresuraron a invertir en el stack de datos más reciente y almacenaron terabytes de datos en data warehouses
- Se suponía que los equipos de ciencia de datos debían analizar las cifras y usar esos resultados para decisiones de producto (o, en algunos casos, en funciones orientadas al cliente como feeds de recomendaciones)
- Hubo casos de éxito, pero muchas organizaciones fallaron en la ejecución
- Entre las razones están los datos aislados en silos (o equipos de datos), los costosos data warehouses en la nube y las consultas deficientes (algo que ahora está disminuyendo), y la falta de pipelines de datos limpios (lo que requiere un esfuerzo operativo considerable para mantener los datos en buen estado)
- Ahora, incluso usando "IA generativa", ¿los datos siguen siendo un foso defensivo?
- Cuando los conjuntos de datos sintéticos ocupan una parte no nula en los pipelines de entrenamiento e inferencia, ¿el valor de los datos aumenta o disminuye?
- Por un lado, "los datos de calidad siguen importando"
- Gran parte del enfoque en la mejora de los LLM se ha centrado en el modelo y en el tamaño del conjunto de datos
- Hay evidencias iniciales de que los LLM pueden verse muy afectados por la calidad de los datos con los que se entrenan
- WizardLM, TinyStories y phi-1 son ejemplos
- Del mismo modo, los conjuntos de datos de RLHF también son importantes
- Por otro lado, para el fine-tuning en formato de salida y estilo personalizado, "con unos 100 data points ya se logran mejoras importantes"
- Investigadores de LLM de Databricks, Meta, Spark y Audible realizaron un análisis empírico sobre la cantidad de datos necesaria para el fine-tuning
- Esa cantidad de datos es fácil de generar o curar manualmente
- La destilación de modelos (Model distillation) es real y puede hacerse de forma simple
- Se pueden usar LLM para generar datos sintéticos y entrenar o hacer fine-tuning de tu propio LLM, y parte del conocimiento se transfiere
- Esto es un problema si expones el LLM base a terceros (si lo usas internamente, no lo es tanto), pero también significa que los datos que no son especialmente únicos se pueden copiar con facilidad
Aún no hay comentarios.