31 puntos por xguru 2024-04-29 | 1 comentarios | Compartir por WhatsApp

[ #1 Modelos generativos grandes (Large Generative Models) ]

Generación de datos sintéticos con LLM y LMM

  • Mientras que los Large Language Model (LLM) generan salida de texto, los Large Multi-Modal Model (LMM) pueden generar datos sintéticos en diversas formas, como texto, código e imágenes
  • Se usan ampliamente, en especial en áreas donde hay escasez de datos reales, alta sensibilidad a la privacidad o costos elevados de recolección y etiquetado (por ejemplo: NLP, visión por computadora, desarrollo de sistemas de conducción autónoma, etc.)
  • Por lo general, los datos sintéticos se usan para complementar datos reales o para ajuste fino (fine-tuning), no para reemplazarlos por completo
  • Por más sofisticados que sean, solo pueden generar aproximaciones del dominio del problema, y una dependencia excesiva puede llevar al riesgo de que el modelo se sobreajuste a las características presentes en el proceso de generación de datos sintéticos
  • Métodos de generación de datos sintéticos
    1. Auto-mejora (Self-improvement): el modelo genera instrucciones, contexto de entrada y respuestas; luego se filtran los ejemplos inválidos o demasiado parecidos a los datos existentes, y los datos restantes se usan para ajustar finamente el modelo original
    2. Destilación (Distillation): proceso en el que el conocimiento de un modelo maestro más potente se transfiere a un modelo estudiante menos potente pero más eficiente. Incluso cuando los datos sintéticos suelen ser inexactos, pueden contribuir eficazmente al proceso de instruction-tuning
  • Microsoft lanzó una serie de modelos pequeños llamados Phi, entrenados principalmente con datos sintéticos generados por otros LLM, y mostraron un desempeño superior al de la mayoría de los modelos de frontera
  • Hugging Face creó Cosmopedia con el objetivo de reproducir esto en respuesta a la falta de información sobre la curación del dataset sintético de entrenamiento usado por Microsoft

Etiquetado de datos e integración de datasets con LLM

  • Los LLM más recientes pueden etiquetar datasets de texto a un nivel comparable o superior al de anotadores humanos
  • A diferencia de los anotadores humanos, los LLM pueden aplicar de forma consistente los mismos criterios de anotación a datasets a gran escala sin fatiga ni sesgos
  • Los grandes modelos generativos entrenados con datasets masivos, como Segment Anything, suelen mostrar mejor rendimiento en capacidades zero-shot que los modelos especializados de visión por computadora no generativos usados tradicionalmente para tareas como la segmentación semántica (semantic segmentation)
  • Los LLM también pueden usarse para ampliar el conjunto de datos reales disponibles mediante Dataset Stitching, integrando diversas fuentes de datos para crear un dataset unificado

LLM como grader

  • El aprendizaje por refuerzo a partir de retroalimentación humana (RLHF) fue la técnica clave de ajuste fino que convirtió a GPT-3 en un sistema innovador optimizado para la interacción conversacional con usuarios mediante chat
  • Ahora ha surgido un enfoque llamado aprendizaje por refuerzo a partir de retroalimentación de IA (RLAIF), que usa LLM en lugar de humanos para proporcionar retroalimentación
  • La principal ventaja de RLAIF es que permite escalar y reducir costos al sustituir humanos por máquinas

[ #2 Plataformas de etiquetado de datos ]

  • En los inicios, se usaban plataformas de crowdsourcing y subcontratación de tareas como Amazon Mechanical Turk para realizar etiquetado o limpieza de datos con mano de obra en línea de bajo costo
  • Más recientemente, han evolucionado y ganado popularidad plataformas como V7 y Scale AI, que ofrecen funciones automatizadas de etiquetado y gestión de datos
  • Estas plataformas, junto con medidas de cumplimiento normativo y aseguramiento de calidad, permiten a empresas con grandes necesidades de datos escalar con más eficiencia y ofrecer un mayor nivel de consistencia

Características por plataforma y nuevos jugadores

  • V7 tiende a enfocarse en trabajos que requieren un alto nivel de especialización, como imágenes médicas, mientras que Scale creció en el sector de conducción autónoma y luego se expandió al sector defensa
  • Nuevos jugadores como Invisible están cubriendo la demanda de talento especializado para flujos de trabajo centrados en LLM (por ejemplo: ajuste fino supervisado, RLHF, evaluación humana, red teaming, etc.)
  • Entre los servicios populares de etiquetado de datos están CVAT, Dataloop, Invisible, Labelbox, Scale AI y V7

Cómo mejorar la calidad de los datos anotados por humanos

  • Muchas plataformas todavía dependen en cierta medida de anotadores humanos, por lo que se necesita más esfuerzo para evaluar la calidad de salida a medida que la aplicación de la IA se expande a áreas complejas, subjetivas y socialmente relevantes
  • Se puede estimar la etiqueta real a partir de múltiples evaluaciones usando enfoques como voto mayoritario, tasa de acuerdo o modelado probabilístico, e identificar evaluadores poco confiables o "spammers"
  • Existen técnicas para capturar desacuerdos sistemáticos entre evaluadores y aprovecharlos para mejorar el entrenamiento (por ejemplo: deconvolución de desacuerdos, modelado de múltiples anotadores, etc.)
  • También pueden detectarse puntos de datos mal etiquetados mediante funciones de influencia, seguimiento de cambios en las predicciones durante el entrenamiento, entre otros métodos

[ #3 Datasets abiertos ]

  • Desde 2016, los datasets abiertos han crecido rápidamente gracias al movimiento de datos abiertos y al reconocimiento del valor de compartir datos entre industria, academia y gobierno
  • Los datasets abiertos existen en la mayoría de los dominios, pero son especialmente accesibles en visión por computadora, NLP, procesamiento de voz/audio, control robótico y navegación
  • Esto ha avanzado gracias a la combinación de esfuerzos comunitarios (por ejemplo: Hugging Face, PyTorch, TensorFlow, Kaggle, etc.) y la publicación de grandes datasets por parte de grandes empresas

Consideraciones al usar datasets abiertos

  • Aunque tienen la ventaja de ser gratuitos y útiles para benchmarking, hay ciertas consideraciones
  • En áreas sensibles o fuertemente reguladas, los datasets abiertos tienden a ser más escasos, más antiguos y de menor escala
  • La calidad y actualización de los datos abiertos puede variar mucho, por lo que en campos que cambian rápidamente puede haber problemas de relevancia
  • Su uso excesivo puede generar riesgo de sobreajuste por depender demasiado de datasets populares, haciendo que los modelos rindan bien en benchmarks pero mal en aplicaciones reales

Recursos útiles de datasets abiertos

[ #4 Entornos de simulación ]

  • Los entornos de simulación permiten que modelos o agentes de IA aprendan en ambientes controlados para generar datos sintéticos y probar sistemas antes del despliegue real
  • Son especialmente útiles para complementar datos reales y explorar casos límite que son difíciles de encontrar o costosos de obtener en el mundo real
  • Esto es particularmente popular en áreas como robótica o vehículos autónomos, donde se necesita entrenar sistemas de forma segura y considerar innumerables variables del mundo real

Consideraciones al construir entornos de simulación

  • Crear y validar desde cero una simulación 3D con modelado físico rico y preciso puede requerir recursos e infraestructura considerables
  • NVIDIA creó ISAAC, una potente plataforma de robótica acelerada por GPU que incluye entornos de simulación basados en Omniverse, una plataforma integrada de flujos de trabajo 3D y física
  • Para reducir la carga de costos, se pueden aprovechar entornos de simulación open source
  • Unreal Engine de Epic Games se ha consolidado como una herramienta poderosa para construir entornos de simulación gracias a sus gráficos de alta fidelidad, simulación física realista e interfaces de programación flexibles

Casos de uso y entornos open source

  • Applied Intuition: ofrece soluciones de simulación y validación para desarrolladores de sistemas de conducción autónoma
  • Sereact: desarrolla software basado en entornos de simulación para que pueda comprender matices espaciales y físicos con el fin de automatizar pick-and-pack en almacenes
  • Wayve: startup británica de conducción autónoma que creó múltiples entornos de simulación 4D
  • En conducción autónoma: CARLA, LG SVL Simulator, AirSim, etc.
  • En robótica: Gazebo, CoppeliaSim, PyBullet, MuJoCo, etc.

[ #5 Scraping de la web/libros y otros materiales ]

  • El scraping masivo de texto, audio y video fue un elemento clave en el desarrollo de los foundation models
  • Mientras las grandes empresas usan sistemas propietarios propios, las startups pueden aprovechar diversas herramientas comerciales y open source
  • Han evolucionado frameworks de crawling distribuido como Apache Nutch, navegadores headless como Puppeteer o Selenium, bibliotecas de parsing como Beautiful Soup, servicios de proxy y gestión de IP como Luminati, así como tecnologías de OCR baratas y efectivas

Trade-off entre calidad y cantidad de datos

  • Según el dominio y la aplicación, el equilibrio entre calidad y cantidad de datos cambia
  • Los modelos de lenguaje pueden entrenarse eficazmente incluso con datos relativamente ruidosos y no curados, siempre que se disponga de suficiente cantidad
  • En cambio, en visión por computadora se pueden obtener buenos resultados ampliando pequeños datasets de alta calidad mediante transformaciones de imagen (por ejemplo: recorte, rotación, adición de ruido, etc.)

Curriculum learning y curación de datasets

  • Curriculum learning es una estrategia de entrenamiento que presenta los datos al modelo en un orden significativo, avanzando de ejemplos simples a ejemplos complejos
  • Al imitar la forma en que aprenden las personas, mejora la eficiencia al permitir que el modelo aprenda buenos parámetros iniciales antes de enfrentarse a ejemplos difíciles

Casos

  • DBRX, el reciente LLM abierto SOTA de Databricks, aprovechó esto para mejorar significativamente la calidad del modelo
  • Sync Labs entrenó un modelo capaz de resincronizar los labios de un video con audio nuevo usando grandes volúmenes de video de calidad relativamente baja
  • Metalware combinó un conjunto relativamente pequeño de imágenes escaneadas de libros de texto especializados con GPT-2 para crear un copiloto para ingenieros de firmware

[ #6 Problemas de copyright y posibilidades de licenciamiento ]

  • La maduración del ecosistema de IA desde 2016 ha tenido un impacto positivo para los fundadores, pero también ha generado complejidades adicionales
  • El scraping masivo de la web por parte de proveedores de foundation models ha llevado a empresas de medios, escritores y artistas a presentar diversas demandas por copyright
  • Estas demandas avanzan actualmente en los sistemas judiciales de Europa y Estados Unidos, y apuntan a grandes empresas (por ejemplo: Meta, OpenAI) o laboratorios cada vez más consolidados (por ejemplo: Midjourney, Stability)
  • Esto subraya que las startups deben ser cuidadosas con sus métodos de adquisición de datos
  • Si estas empresas pierden los casos, podrían verse obligadas a identificar material con copyright en sus datos de entrenamiento y compensar a los creadores, o destruir esos resultados y empezar de nuevo desde cero
  • Por eso, algunas empresas están impulsando de forma proactiva estrategias de adquisición de datos más amigables con los creadores, como asociarse con organizaciones de medios o compensar directamente a artistas por el uso de contenido o voces

Surgimiento de esquemas de certificación para abastecimiento ético de datos

  • Están surgiendo esquemas de certificación para datos de entrenamiento obtenidos éticamente, impulsados por exejecutivos de Stability, entre otros
  • Aunque estos esquemas todavía están en una etapa temprana, son una opción interesante y vale la pena seguirlos de cerca

Casos

  • ElevenLabs: pagos a actores de voz y alianzas para datos de voz
  • Google: firma de un acuerdo para poder usar datos de Reddit en el entrenamiento de Gemini
  • OpenAI: asociación para entrenar DALL-E con la biblioteca de imágenes, videos, música y metadatos de Shutterstock, y acuerdo de licencia del archivo de noticias de Associate Press

[ #7 Menor necesidad de datasets grandes etiquetados ]

  • Desde 2016, con el gran avance de las técnicas de aprendizaje no supervisado y semisupervisado, las startups pueden construir modelos potentes sin necesidad de grandes datasets etiquetados, que antes se consideraban indispensables
  • Aunque estos enfoques ya eran conocidos por los investigadores antes de 2016, en los últimos años han mejorado mucho en accesibilidad, sofisticación y practicidad
  • El aprendizaje no supervisado se centra en aprender patrones estadísticos y estructuras inherentes a los datos; tradicionalmente fue útil para explorar grandes datasets (por ejemplo: clustering no supervisado) y hoy es la base del preentrenamiento de LLM
  • El aprendizaje semisupervisado usa una pequeña cantidad de datos etiquetados junto con grandes volúmenes de datos no etiquetados, y es especialmente eficaz para mejorar y elevar el rendimiento del modelo
  • Estos enfoques pueden reforzarse mediante técnicas como aprendizaje contrastivo y few-shot learning
    • El aprendizaje contrastivo (Contrastive Learning) permite al modelo aprender representaciones ricas distinguiendo entre puntos de datos similares y no similares, y es útil para tareas de visión por computadora (por ejemplo: CLIP de OpenAI)
    • El few-shot learning permite que el modelo se adapte a tareas nuevas con muy pocos ejemplos
  • El artículo original sobre scaling laws mostró que los modelos más grandes son más hábiles en few-shot learning
  • Aunque el preentrenamiento no supervisado requiere mayores volúmenes de datos no etiquetados, esta etapa les da la capacidad de resolver tareas downstream con menos ejemplos etiquetados que los modelos pequeños no generativos

Limitaciones y consideraciones

  • Los modelos que aprovechan datos no etiquetados suelen requerir arquitecturas más complejas
  • Esto significa intercambiar el costo del etiquetado por costo de cómputo
  • Además de ser más difíciles de implementar y escalar, también ofrecen menor interpretabilidad, lo que puede ser una desventaja en áreas sensibles donde es importante entender el proceso de decisión
  • Esta complejidad requiere más recursos computacionales y a menudo implica un techo de rendimiento menor que el de los métodos supervisados

[ #8 Cosas para las que aún es temprano ]

Data marketplaces

  • Desde 2016, como recolectar, almacenar, procesar y compartir datos se volvió más fácil y barato, surgieron algunos data marketplaces, pero el sector no ha despegado de forma importante
  • Marketplaces y plataformas como Datarade, Dawex, AWS Data Exchange y Snowflake han facilitado encontrar datos de imagen, texto, audio y video para diversos casos de uso generales, pero esto ha servido principalmente para agregar valor a la decisión de los clientes de alojar ahí sus datos
  • Además de estos marketplaces, existen empresas como Appen, Scale AI, Invisible y Surge que ofrecen creación y etiquetado de datasets a medida mediante personal subcontratado especializado
  • Sin embargo, siguen vigentes las advertencias sobre especialización y la ventaja competitiva de los datos propietarios, y hay poca evidencia de que las startups de IA dependan fuertemente de estos marketplaces
  • Aunque pueden ser convenientes al principio, todavía requieren un esfuerzo considerable de limpieza, personalización, filtrado y submuestreo
  • Muchas startups prefieren construir sus propios datasets propietarios desde el inicio y usarlos como ventaja competitiva

Gamificación

  • La gamificación se ha explorado como estrategia de adquisición de datos por distintas empresas y organizaciones en el contexto de iniciativas de crowdsourcing y ciencia ciudadana (por ejemplo: Folding@Home)
  • Sin embargo, salvo unos pocos casos, la gamificación sigue siendo un nicho relativamente pequeño
  • Como solo atrae a un subconjunto específico de usuarios motivados por la competencia tipo juego y con tiempo libre, el potencial de cantidad de contribuyentes tiene un límite relativamente bajo
  • Incluso entre las personas motivadas, la calidad y precisión de los datos aportados sigue siendo un problema, especialmente al tratar casos límite, por lo que se requieren medidas adicionales de validación y control

Aprendizaje federado

  • El aprendizaje federado (Federated learning, FL), introducido por Google en 2016, prometía permitir entrenar modelos en varios servidores distribuidos o dispositivos móviles sin mover los datos de su ubicación local
  • En teoría, esto podría permitir que startups en sectores sensibles como salud o finanzas accedan, mediante alianzas, a datos de entrenamiento importantes sin caer en los problemas tradicionales de privacidad
  • Sin embargo, la adopción de FL se ha visto frenada en los sectores sensibles para los que fue diseñado debido a cuestiones de responsabilidad, propiedad de los datos y transferencia transfronteriza; además, a medida que los modelos y datasets se vuelven más complejos, el overhead computacional y de comunicación asociado al entrenamiento y la agregación distribuidos se ha convertido en un cuello de botella importante, y persiste la percepción de que los propietarios de datos deben aceptar una tecnología bastante compleja para asegurar la propuesta de valor

[ ## Conclusión ]

  • A pesar de los avances considerables desde 2016, la adquisición de datos sigue siendo un dolor de cabeza para las startups
  • No parece que la comunidad ni el mercado vayan a resolver este problema
  • La mayoría de las startups de IA seguirá enfrentando dificultades de adquisición de datos al momento de fundarse, pero esto también puede ser una oportunidad de diferenciación
  • Construir creativamente la base correcta sigue siendo una fuente muy real de ventaja competitiva
  • Los datos por sí solos nunca pueden convertirse en un moat
  • Con el tiempo, los competidores lograrán conseguir sus propios datos o encontrar técnicas más eficientes para alcanzar los mismos resultados
  • Esto puede verse con claridad en las evaluaciones de LLM del último año, donde la brecha de rendimiento entre modelos pequeños y grandes se ha ido reduciendo gradualmente
  • Una gran estrategia de adquisición de datos es, en última instancia, necesaria, pero no suficiente
  • Es un elemento para el éxito, junto con un producto killer y una comprensión real del cliente

1 comentarios

 
thfvkfk 2024-04-29

Gracias, es muchísima información~