Estrategias de adquisición de datos para startups de IA en 2024

(press.airstreet.com)

31 puntos por xguru 2024-04-29 | 1 comentarios | Compartir por WhatsApp

[ #1 Modelos generativos grandes (Large Generative Models) ]

Generación de datos sintéticos con LLM y LMM

Mientras que los Large Language Model (LLM) generan salida de texto, los Large Multi-Modal Model (LMM) pueden generar datos sintéticos en diversas formas, como texto, código e imágenes
Se usan ampliamente, en especial en áreas donde hay escasez de datos reales, alta sensibilidad a la privacidad o costos elevados de recolección y etiquetado (por ejemplo: NLP, visión por computadora, desarrollo de sistemas de conducción autónoma, etc.)
Por lo general, los datos sintéticos se usan para complementar datos reales o para ajuste fino (fine-tuning), no para reemplazarlos por completo
Por más sofisticados que sean, solo pueden generar aproximaciones del dominio del problema, y una dependencia excesiva puede llevar al riesgo de que el modelo se sobreajuste a las características presentes en el proceso de generación de datos sintéticos
Métodos de generación de datos sintéticos
1. Auto-mejora (Self-improvement): el modelo genera instrucciones, contexto de entrada y respuestas; luego se filtran los ejemplos inválidos o demasiado parecidos a los datos existentes, y los datos restantes se usan para ajustar finamente el modelo original
2. Destilación (Distillation): proceso en el que el conocimiento de un modelo maestro más potente se transfiere a un modelo estudiante menos potente pero más eficiente. Incluso cuando los datos sintéticos suelen ser inexactos, pueden contribuir eficazmente al proceso de instruction-tuning
Microsoft lanzó una serie de modelos pequeños llamados Phi, entrenados principalmente con datos sintéticos generados por otros LLM, y mostraron un desempeño superior al de la mayoría de los modelos de frontera
Hugging Face creó Cosmopedia con el objetivo de reproducir esto en respuesta a la falta de información sobre la curación del dataset sintético de entrenamiento usado por Microsoft

Etiquetado de datos e integración de datasets con LLM

Los LLM más recientes pueden etiquetar datasets de texto a un nivel comparable o superior al de anotadores humanos
A diferencia de los anotadores humanos, los LLM pueden aplicar de forma consistente los mismos criterios de anotación a datasets a gran escala sin fatiga ni sesgos
Los grandes modelos generativos entrenados con datasets masivos, como Segment Anything, suelen mostrar mejor rendimiento en capacidades zero-shot que los modelos especializados de visión por computadora no generativos usados tradicionalmente para tareas como la segmentación semántica (semantic segmentation)
Los LLM también pueden usarse para ampliar el conjunto de datos reales disponibles mediante Dataset Stitching, integrando diversas fuentes de datos para crear un dataset unificado

LLM como grader

El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) fue la técnica clave de ajuste fino que convirtió a GPT-3 en un sistema innovador optimizado para la interacción conversacional con usuarios mediante chat
Ahora ha surgido un enfoque llamado aprendizaje por refuerzo a partir de retroalimentación de IA (RLAIF), que usa LLM en lugar de humanos para proporcionar retroalimentación
La principal ventaja de RLAIF es que permite escalar y reducir costos al sustituir humanos por máquinas

[ #2 Plataformas de etiquetado de datos ]

En los inicios, se usaban plataformas de crowdsourcing y subcontratación de tareas como Amazon Mechanical Turk para realizar etiquetado o limpieza de datos con mano de obra en línea de bajo costo
Más recientemente, han evolucionado y ganado popularidad plataformas como V7 y Scale AI, que ofrecen funciones automatizadas de etiquetado y gestión de datos
Estas plataformas, junto con medidas de cumplimiento normativo y aseguramiento de calidad, permiten a empresas con grandes necesidades de datos escalar con más eficiencia y ofrecer un mayor nivel de consistencia

Características por plataforma y nuevos jugadores

V7 tiende a enfocarse en trabajos que requieren un alto nivel de especialización, como imágenes médicas, mientras que Scale creció en el sector de conducción autónoma y luego se expandió al sector defensa
Nuevos jugadores como Invisible están cubriendo la demanda de talento especializado para flujos de trabajo centrados en LLM (por ejemplo: ajuste fino supervisado, RLHF, evaluación humana, red teaming, etc.)
Entre los servicios populares de etiquetado de datos están CVAT, Dataloop, Invisible, Labelbox, Scale AI y V7

Cómo mejorar la calidad de los datos anotados por humanos

Muchas plataformas todavía dependen en cierta medida de anotadores humanos, por lo que se necesita más esfuerzo para evaluar la calidad de salida a medida que la aplicación de la IA se expande a áreas complejas, subjetivas y socialmente relevantes
Se puede estimar la etiqueta real a partir de múltiples evaluaciones usando enfoques como voto mayoritario, tasa de acuerdo o modelado probabilístico, e identificar evaluadores poco confiables o "spammers"
Existen técnicas para capturar desacuerdos sistemáticos entre evaluadores y aprovecharlos para mejorar el entrenamiento (por ejemplo: deconvolución de desacuerdos, modelado de múltiples anotadores, etc.)
También pueden detectarse puntos de datos mal etiquetados mediante funciones de influencia, seguimiento de cambios en las predicciones durante el entrenamiento, entre otros métodos

[ #3 Datasets abiertos ]

Desde 2016, los datasets abiertos han crecido rápidamente gracias al movimiento de datos abiertos y al reconocimiento del valor de compartir datos entre industria, academia y gobierno
Los datasets abiertos existen en la mayoría de los dominios, pero son especialmente accesibles en visión por computadora, NLP, procesamiento de voz/audio, control robótico y navegación
Esto ha avanzado gracias a la combinación de esfuerzos comunitarios (por ejemplo: Hugging Face, PyTorch, TensorFlow, Kaggle, etc.) y la publicación de grandes datasets por parte de grandes empresas

Consideraciones al usar datasets abiertos

Aunque tienen la ventaja de ser gratuitos y útiles para benchmarking, hay ciertas consideraciones
En áreas sensibles o fuertemente reguladas, los datasets abiertos tienden a ser más escasos, más antiguos y de menor escala
La calidad y actualización de los datos abiertos puede variar mucho, por lo que en campos que cambian rápidamente puede haber problemas de relevancia
Su uso excesivo puede generar riesgo de sobreajuste por depender demasiado de datasets populares, haciendo que los modelos rindan bien en benchmarks pero mal en aplicaciones reales

Recursos útiles de datasets abiertos

Grandes empresas como Amazon, Google y Microsoft cuentan con diversos hubs y motores de búsqueda de datos abiertos
Hugging Face creó un hub de datasets listo para usar junto con herramientas relacionadas
La función de búsqueda de datasets de Kaggle
VisualData: hub para datasets de visión por computadora
V7 publicó una lista de más de 500 datasets abiertos

[ #4 Entornos de simulación ]

Los entornos de simulación permiten que modelos o agentes de IA aprendan en ambientes controlados para generar datos sintéticos y probar sistemas antes del despliegue real
Son especialmente útiles para complementar datos reales y explorar casos límite que son difíciles de encontrar o costosos de obtener en el mundo real
Esto es particularmente popular en áreas como robótica o vehículos autónomos, donde se necesita entrenar sistemas de forma segura y considerar innumerables variables del mundo real

Consideraciones al construir entornos de simulación

Crear y validar desde cero una simulación 3D con modelado físico rico y preciso puede requerir recursos e infraestructura considerables
NVIDIA creó ISAAC, una potente plataforma de robótica acelerada por GPU que incluye entornos de simulación basados en Omniverse, una plataforma integrada de flujos de trabajo 3D y física
Para reducir la carga de costos, se pueden aprovechar entornos de simulación open source
Unreal Engine de Epic Games se ha consolidado como una herramienta poderosa para construir entornos de simulación gracias a sus gráficos de alta fidelidad, simulación física realista e interfaces de programación flexibles

Casos de uso y entornos open source

Applied Intuition: ofrece soluciones de simulación y validación para desarrolladores de sistemas de conducción autónoma
Sereact: desarrolla software basado en entornos de simulación para que pueda comprender matices espaciales y físicos con el fin de automatizar pick-and-pack en almacenes
Wayve: startup británica de conducción autónoma que creó múltiples entornos de simulación 4D
En conducción autónoma: CARLA, LG SVL Simulator, AirSim, etc.
En robótica: Gazebo, CoppeliaSim, PyBullet, MuJoCo, etc.

[ #5 Scraping de la web/libros y otros materiales ]

El scraping masivo de texto, audio y video fue un elemento clave en el desarrollo de los foundation models
Mientras las grandes empresas usan sistemas propietarios propios, las startups pueden aprovechar diversas herramientas comerciales y open source
Han evolucionado frameworks de crawling distribuido como Apache Nutch, navegadores headless como Puppeteer o Selenium, bibliotecas de parsing como Beautiful Soup, servicios de proxy y gestión de IP como Luminati, así como tecnologías de OCR baratas y efectivas

Trade-off entre calidad y cantidad de datos

Según el dominio y la aplicación, el equilibrio entre calidad y cantidad de datos cambia
Los modelos de lenguaje pueden entrenarse eficazmente incluso con datos relativamente ruidosos y no curados, siempre que se disponga de suficiente cantidad
En cambio, en visión por computadora se pueden obtener buenos resultados ampliando pequeños datasets de alta calidad mediante transformaciones de imagen (por ejemplo: recorte, rotación, adición de ruido, etc.)

Curriculum learning y curación de datasets

Curriculum learning es una estrategia de entrenamiento que presenta los datos al modelo en un orden significativo, avanzando de ejemplos simples a ejemplos complejos
Al imitar la forma en que aprenden las personas, mejora la eficiencia al permitir que el modelo aprenda buenos parámetros iniciales antes de enfrentarse a ejemplos difíciles

Casos

DBRX, el reciente LLM abierto SOTA de Databricks, aprovechó esto para mejorar significativamente la calidad del modelo
Sync Labs entrenó un modelo capaz de resincronizar los labios de un video con audio nuevo usando grandes volúmenes de video de calidad relativamente baja
Metalware combinó un conjunto relativamente pequeño de imágenes escaneadas de libros de texto especializados con GPT-2 para crear un copiloto para ingenieros de firmware

[ #6 Problemas de copyright y posibilidades de licenciamiento ]

La maduración del ecosistema de IA desde 2016 ha tenido un impacto positivo para los fundadores, pero también ha generado complejidades adicionales
El scraping masivo de la web por parte de proveedores de foundation models ha llevado a empresas de medios, escritores y artistas a presentar diversas demandas por copyright
Estas demandas avanzan actualmente en los sistemas judiciales de Europa y Estados Unidos, y apuntan a grandes empresas (por ejemplo: Meta, OpenAI) o laboratorios cada vez más consolidados (por ejemplo: Midjourney, Stability)
Esto subraya que las startups deben ser cuidadosas con sus métodos de adquisición de datos
Si estas empresas pierden los casos, podrían verse obligadas a identificar material con copyright en sus datos de entrenamiento y compensar a los creadores, o destruir esos resultados y empezar de nuevo desde cero
Por eso, algunas empresas están impulsando de forma proactiva estrategias de adquisición de datos más amigables con los creadores, como asociarse con organizaciones de medios o compensar directamente a artistas por el uso de contenido o voces

Surgimiento de esquemas de certificación para abastecimiento ético de datos

Están surgiendo esquemas de certificación para datos de entrenamiento obtenidos éticamente, impulsados por exejecutivos de Stability, entre otros
Aunque estos esquemas todavía están en una etapa temprana, son una opción interesante y vale la pena seguirlos de cerca

Casos

ElevenLabs: pagos a actores de voz y alianzas para datos de voz
Google: firma de un acuerdo para poder usar datos de Reddit en el entrenamiento de Gemini
OpenAI: asociación para entrenar DALL-E con la biblioteca de imágenes, videos, música y metadatos de Shutterstock, y acuerdo de licencia del archivo de noticias de Associate Press

[ #7 Menor necesidad de datasets grandes etiquetados ]

Desde 2016, con el gran avance de las técnicas de aprendizaje no supervisado y semisupervisado, las startups pueden construir modelos potentes sin necesidad de grandes datasets etiquetados, que antes se consideraban indispensables
Aunque estos enfoques ya eran conocidos por los investigadores antes de 2016, en los últimos años han mejorado mucho en accesibilidad, sofisticación y practicidad
El aprendizaje no supervisado se centra en aprender patrones estadísticos y estructuras inherentes a los datos; tradicionalmente fue útil para explorar grandes datasets (por ejemplo: clustering no supervisado) y hoy es la base del preentrenamiento de LLM
El aprendizaje semisupervisado usa una pequeña cantidad de datos etiquetados junto con grandes volúmenes de datos no etiquetados, y es especialmente eficaz para mejorar y elevar el rendimiento del modelo
Estos enfoques pueden reforzarse mediante técnicas como aprendizaje contrastivo y few-shot learning
- El aprendizaje contrastivo (Contrastive Learning) permite al modelo aprender representaciones ricas distinguiendo entre puntos de datos similares y no similares, y es útil para tareas de visión por computadora (por ejemplo: CLIP de OpenAI)
- El few-shot learning permite que el modelo se adapte a tareas nuevas con muy pocos ejemplos
El artículo original sobre scaling laws mostró que los modelos más grandes son más hábiles en few-shot learning
Aunque el preentrenamiento no supervisado requiere mayores volúmenes de datos no etiquetados, esta etapa les da la capacidad de resolver tareas downstream con menos ejemplos etiquetados que los modelos pequeños no generativos

Limitaciones y consideraciones

Los modelos que aprovechan datos no etiquetados suelen requerir arquitecturas más complejas
Esto significa intercambiar el costo del etiquetado por costo de cómputo
Además de ser más difíciles de implementar y escalar, también ofrecen menor interpretabilidad, lo que puede ser una desventaja en áreas sensibles donde es importante entender el proceso de decisión
Esta complejidad requiere más recursos computacionales y a menudo implica un techo de rendimiento menor que el de los métodos supervisados

[ #8 Cosas para las que aún es temprano ]

Data marketplaces

Desde 2016, como recolectar, almacenar, procesar y compartir datos se volvió más fácil y barato, surgieron algunos data marketplaces, pero el sector no ha despegado de forma importante
Marketplaces y plataformas como Datarade, Dawex, AWS Data Exchange y Snowflake han facilitado encontrar datos de imagen, texto, audio y video para diversos casos de uso generales, pero esto ha servido principalmente para agregar valor a la decisión de los clientes de alojar ahí sus datos
Además de estos marketplaces, existen empresas como Appen, Scale AI, Invisible y Surge que ofrecen creación y etiquetado de datasets a medida mediante personal subcontratado especializado
Sin embargo, siguen vigentes las advertencias sobre especialización y la ventaja competitiva de los datos propietarios, y hay poca evidencia de que las startups de IA dependan fuertemente de estos marketplaces
Aunque pueden ser convenientes al principio, todavía requieren un esfuerzo considerable de limpieza, personalización, filtrado y submuestreo
Muchas startups prefieren construir sus propios datasets propietarios desde el inicio y usarlos como ventaja competitiva

Gamificación

La gamificación se ha explorado como estrategia de adquisición de datos por distintas empresas y organizaciones en el contexto de iniciativas de crowdsourcing y ciencia ciudadana (por ejemplo: Folding@Home)
Sin embargo, salvo unos pocos casos, la gamificación sigue siendo un nicho relativamente pequeño
Como solo atrae a un subconjunto específico de usuarios motivados por la competencia tipo juego y con tiempo libre, el potencial de cantidad de contribuyentes tiene un límite relativamente bajo
Incluso entre las personas motivadas, la calidad y precisión de los datos aportados sigue siendo un problema, especialmente al tratar casos límite, por lo que se requieren medidas adicionales de validación y control

Aprendizaje federado

El aprendizaje federado (Federated learning, FL), introducido por Google en 2016, prometía permitir entrenar modelos en varios servidores distribuidos o dispositivos móviles sin mover los datos de su ubicación local
En teoría, esto podría permitir que startups en sectores sensibles como salud o finanzas accedan, mediante alianzas, a datos de entrenamiento importantes sin caer en los problemas tradicionales de privacidad
Sin embargo, la adopción de FL se ha visto frenada en los sectores sensibles para los que fue diseñado debido a cuestiones de responsabilidad, propiedad de los datos y transferencia transfronteriza; además, a medida que los modelos y datasets se vuelven más complejos, el overhead computacional y de comunicación asociado al entrenamiento y la agregación distribuidos se ha convertido en un cuello de botella importante, y persiste la percepción de que los propietarios de datos deben aceptar una tecnología bastante compleja para asegurar la propuesta de valor

[ ## Conclusión ]

A pesar de los avances considerables desde 2016, la adquisición de datos sigue siendo un dolor de cabeza para las startups
No parece que la comunidad ni el mercado vayan a resolver este problema
La mayoría de las startups de IA seguirá enfrentando dificultades de adquisición de datos al momento de fundarse, pero esto también puede ser una oportunidad de diferenciación
Construir creativamente la base correcta sigue siendo una fuente muy real de ventaja competitiva
Los datos por sí solos nunca pueden convertirse en un moat
Con el tiempo, los competidores lograrán conseguir sus propios datos o encontrar técnicas más eficientes para alcanzar los mismos resultados
Esto puede verse con claridad en las evaluaciones de LLM del último año, donde la brecha de rendimiento entre modelos pequeños y grandes se ha ido reduciendo gradualmente
Una gran estrategia de adquisición de datos es, en última instancia, necesaria, pero no suficiente
Es un elemento para el éxito, junto con un producto killer y una comprensión real del cliente

1 comentarios

thfvkfk 2024-04-29

Gracias, es muchísima información~

Estrategias de adquisición de datos para startups de IA en 2024

[ #1 Modelos generativos grandes (Large Generative Models) ]

Generación de datos sintéticos con LLM y LMM

Etiquetado de datos e integración de datasets con LLM

LLM como grader

[ #2 Plataformas de etiquetado de datos ]

Características por plataforma y nuevos jugadores

Cómo mejorar la calidad de los datos anotados por humanos

[ #3 Datasets abiertos ]

Consideraciones al usar datasets abiertos

Recursos útiles de datasets abiertos

[ #4 Entornos de simulación ]

Consideraciones al construir entornos de simulación

Casos de uso y entornos open source

[ #5 Scraping de la web/libros y otros materiales ]

Trade-off entre calidad y cantidad de datos

Curriculum learning y curación de datasets

Casos

[ #6 Problemas de copyright y posibilidades de licenciamiento ]

Surgimiento de esquemas de certificación para abastecimiento ético de datos

Casos

[ #7 Menor necesidad de datasets grandes etiquetados ]

Limitaciones y consideraciones

[ #8 Cosas para las que aún es temprano ]

Data marketplaces

Gamificación

Aprendizaje federado

[ ## Conclusión ]

Lecturas relacionadas

1 comentarios