Cómo reduje los costos de IA de $100 al día a $1: fine-tuning de Mixtral usando GPT-4

xguru · 2024-01-23T10:11:02+09:00

Creé una app de exploración profesional impulsada por IA y, a medida que creció de forma explosiva, el costo de GPT-4 empezó a superar los $100 por día El método que usé para reducir los costos de IA hasta en un 99% manteniendo la calidad y reduciendo la latencia Generar resultados con el modelo más potente (GPT-4) y luego usar esos resultados para hacer fine-tuning de un modelo más pequeño Guardar las solicitudes/respuestas de IA de forma que se puedan exportar fácilmente. Usé Helicone AI. Con solo reemplazar la API de OpenAI, las solicitudes de IA se guardan en una tabla Una vez que se hayan almacenado entre unas 100 y 500 parejas de solicitud/respuesta, exportarlas y depurar los datos para dejarlos con buena calidad Usar ese dataset para hacer fine-tuning de Mixtral 8x7B con un servicio de hosting como Together/Anyscale Reemplazar GPT-4 por el modelo recién ajustado

(twitter.com/wenquai)

22 puntos por xguru 2024-01-23 | 4 comentarios | Compartir por WhatsApp

Creé una app de exploración profesional impulsada por IA y, a medida que creció de forma explosiva, el costo de GPT-4 empezó a superar los $100 por día
El método que usé para reducir los costos de IA hasta en un 99% manteniendo la calidad y reduciendo la latencia
- Generar resultados con el modelo más potente (GPT-4) y luego usar esos resultados para hacer fine-tuning de un modelo más pequeño
- Guardar las solicitudes/respuestas de IA de forma que se puedan exportar fácilmente. Usé Helicone AI. Con solo reemplazar la API de OpenAI, las solicitudes de IA se guardan en una tabla
- Una vez que se hayan almacenado entre unas 100 y 500 parejas de solicitud/respuesta, exportarlas y depurar los datos para dejarlos con buena calidad
- Usar ese dataset para hacer fine-tuning de Mixtral 8x7B con un servicio de hosting como Together/Anyscale
- Reemplazar GPT-4 por el modelo recién ajustado

4 comentarios

kuroneko 2024-01-23

Entonces, ¿eso significa que violaron tanto los términos de GPT-4 como la licencia de Mixtral...? @_@

xguru 2024-01-23

Eso parece. Como esto no se hace tan evidente, da la impresión de que a muchos les pasa lo mismo.

kuroneko 2024-01-23

Había cosas que se venían usando medio de boca en boca o que se publicaban para investigación,
pero que salgan a promocionarlo así de frente, diciendo: ¡nosotros lo usamos!, sí se siente un poco... curioso.

¿No les dirán nada por eso...?

xguru 2024-01-23

Opiniones de Hacker News

La mayoría de las empresas tecnológicas, salvo en investigación central, han estado generando datos de entrenamiento con GPT-4 o 3.5 durante al menos medio año, y con base en eso ajustan QLoRA para lanzar un modelo de IA "propio". La gerencia presume grandes logros y dice que su empresa es líder en IA para una "industria específica". Este proceso casi no requiere conocimientos de aprendizaje automático y puede hacerse con menos de $1,000 en costos de computación en la nube. Pero en trabajo real terminas obteniendo resultados de nivel GPT-3.5, y especialmente si usas GPU en la nube, es difícil competir con GPT-3.5 en costos.
Revisé la app Wanderer de esta persona, y es muy sospechosa porque no hay términos de uso, política de privacidad, precios claros ni ninguna mención de IA.
Según la documentación de Together.ai, Mixtral no puede usarse para ajuste fino y parece que no ejecutan modelos ajustados en modo serverless. Eso sugiere que la historia no es consistente.
Dejando de lado los problemas éticos y las condiciones limitadas, quizá GPT-4 no era necesario para lo que hizo quien publicó esto. ¿Qué tan peor o más difícil habría sido generar las primeras 100 buenas parejas de prompt-respuesta con Mixtral o 3.5 y luego ajustarlas manualmente?
Estoy desarrollando una app como proyecto secundario para resumir contenido a gran escala usando IA, y espero que se convierta en un SaaS que genere ingresos. Para lanzar rápido planeo usar OpenAI por ahora, pero después espero migrar a una opción de LLM autoalojada si resulta viable en términos económicos y técnicos. Si alguien tiene experiencia con esto, podría compartir tips o trucos.
Me pregunto si esto no viola los términos de uso de OpenAI.
Piden que explique cómo se redujo el costo a $1. Se reemplazó GPT-4 por una versión ajustada de Mixtral 8x7b, pero eso requiere varias GPU. Incluso si el modelo se cuantizó por cuenta propia, sigue habiendo costos de hardware e infraestructura, y eso sería más de $1. ¿Tal vez lo están autoalojando?
Se menciona la metodología clásica de destilación de conocimiento. Aquí se argumenta que no haría falta un 8x7b para el ajuste fino, y que pronto modelos como phi-2 o phixtral serán lo bastante potentes para estos dominios.
Sin hacer ningún cambio, obtuve excelentes resultados con openhermes 7b chat; cubre el 90% de los casos de uso de GPT-4 y corre rápido. Lo recomiendo.

Cómo reduje los costos de IA de $100 al día a $1: fine-tuning de Mixtral usando GPT-4

Lecturas relacionadas

4 comentarios

Opiniones de Hacker News