¿Los datos siguen siendo un foso defensivo (moat)?

xguru · 2023-10-17T10:46:01+09:00

"Los datos son el nuevo petróleo" fue el eslogan de la última década Las empresas entendieron cuánto valor tienen los datos, o cuánto valor podrían llegar a tener Las empresas se apresuraron a invertir en el stack de datos más reciente y almacenaron terabytes de datos en data warehouses Se suponía que los equipos de ciencia de datos debían analizar las cifras y usar esos resultados para decisiones de producto (o, en algunos casos, en funciones orientadas al cliente como feeds de recomendaciones) Hubo casos de éxito, pero muchas organizaciones fallaron en la ejecución Entre las razones están los datos aislados en silos (o equipos de datos), los costosos data warehouses en la nube y las consultas deficientes (algo que ahora está disminuyendo), y la falta de pipelines de datos limpios (lo que requiere un esfuerzo operativo considerable para mantener los datos en buen estado) Ahora, incluso usando "IA generativa", ¿los datos siguen siendo un foso defensivo? Cuando los conjuntos de datos sintéticos ocupan una parte no nula en los pipelines de entrenamiento e inferencia, ¿el valor de los datos aumenta o disminuye? Por un lado, "los datos de calidad siguen importando" Gran parte del enfoque en la mejora de los LLM se ha centrado en el modelo y en el tamaño del conjunto de datos Hay evidencias iniciales de que los LLM pueden verse muy afectados por la calidad de los datos con los que se entrenan WizardLM, TinyStories y phi-1 son ejemplos Del mismo modo, los conjuntos de datos de RLHF también son importantes Por otro lado, para el fine-tuning en formato de salida y estilo personalizado, "con unos 100 data points ya se logran mejoras importantes" Investigadores de LLM de Databricks, Meta, Spark y Audible realizaron un análisis empírico sobre la cantidad de datos necesaria para el fine-tuning Esa cantidad de datos es fácil de generar o curar manualmente La destilación de modelos (Model distillation) es real y puede hacerse de forma simple Se pueden usar LLM para generar datos sintéticos y entrenar o hacer fine-tuning de tu propio LLM, y parte del conocimiento se transfiere Esto es un problema si expones el LLM base a terceros (si lo usas internamente, no lo es tanto), pero también significa que los datos que no son especialmente únicos se pueden copiar con facilidad

(matt-rickard.com)

12 puntos por xguru 2023-10-17 | Aún no hay comentarios. | Compartir por WhatsApp

"Los datos son el nuevo petróleo" fue el eslogan de la última década
- Las empresas entendieron cuánto valor tienen los datos, o cuánto valor podrían llegar a tener
- Las empresas se apresuraron a invertir en el stack de datos más reciente y almacenaron terabytes de datos en data warehouses
- Se suponía que los equipos de ciencia de datos debían analizar las cifras y usar esos resultados para decisiones de producto (o, en algunos casos, en funciones orientadas al cliente como feeds de recomendaciones)
- Hubo casos de éxito, pero muchas organizaciones fallaron en la ejecución
- Entre las razones están los datos aislados en silos (o equipos de datos), los costosos data warehouses en la nube y las consultas deficientes (algo que ahora está disminuyendo), y la falta de pipelines de datos limpios (lo que requiere un esfuerzo operativo considerable para mantener los datos en buen estado)
Ahora, incluso usando "IA generativa", ¿los datos siguen siendo un foso defensivo?
Cuando los conjuntos de datos sintéticos ocupan una parte no nula en los pipelines de entrenamiento e inferencia, ¿el valor de los datos aumenta o disminuye?
Por un lado, "los datos de calidad siguen importando"
- Gran parte del enfoque en la mejora de los LLM se ha centrado en el modelo y en el tamaño del conjunto de datos
- Hay evidencias iniciales de que los LLM pueden verse muy afectados por la calidad de los datos con los que se entrenan
- WizardLM, TinyStories y phi-1 son ejemplos
- Del mismo modo, los conjuntos de datos de RLHF también son importantes
Por otro lado, para el fine-tuning en formato de salida y estilo personalizado, "con unos 100 data points ya se logran mejoras importantes"
- Investigadores de LLM de Databricks, Meta, Spark y Audible realizaron un análisis empírico sobre la cantidad de datos necesaria para el fine-tuning
- Esa cantidad de datos es fácil de generar o curar manualmente
La destilación de modelos (Model distillation) es real y puede hacerse de forma simple
- Se pueden usar LLM para generar datos sintéticos y entrenar o hacer fine-tuning de tu propio LLM, y parte del conocimiento se transfiere
- Esto es un problema si expones el LLM base a terceros (si lo usas internamente, no lo es tanto), pero también significa que los datos que no son especialmente únicos se pueden copiar con facilidad

¿Los datos siguen siendo un foso defensivo (moat)?

Lecturas relacionadas

Aún no hay comentarios.