22 puntos por xguru 2024-01-23 | 4 comentarios | Compartir por WhatsApp
  • Creé una app de exploración profesional impulsada por IA y, a medida que creció de forma explosiva, el costo de GPT-4 empezó a superar los $100 por día
  • El método que usé para reducir los costos de IA hasta en un 99% manteniendo la calidad y reduciendo la latencia
    • Generar resultados con el modelo más potente (GPT-4) y luego usar esos resultados para hacer fine-tuning de un modelo más pequeño
    • Guardar las solicitudes/respuestas de IA de forma que se puedan exportar fácilmente. Usé Helicone AI. Con solo reemplazar la API de OpenAI, las solicitudes de IA se guardan en una tabla
    • Una vez que se hayan almacenado entre unas 100 y 500 parejas de solicitud/respuesta, exportarlas y depurar los datos para dejarlos con buena calidad
    • Usar ese dataset para hacer fine-tuning de Mixtral 8x7B con un servicio de hosting como Together/Anyscale
    • Reemplazar GPT-4 por el modelo recién ajustado

4 comentarios

 
kuroneko 2024-01-23

Entonces, ¿eso significa que violaron tanto los términos de GPT-4 como la licencia de Mixtral...? @_@

 
xguru 2024-01-23

Eso parece. Como esto no se hace tan evidente, da la impresión de que a muchos les pasa lo mismo.

 
kuroneko 2024-01-23

Había cosas que se venían usando medio de boca en boca o que se publicaban para investigación,
pero que salgan a promocionarlo así de frente, diciendo: ¡nosotros lo usamos!, sí se siente un poco... curioso.

¿No les dirán nada por eso...?

 
xguru 2024-01-23

Opiniones de Hacker News

  • La mayoría de las empresas tecnológicas, salvo en investigación central, han estado generando datos de entrenamiento con GPT-4 o 3.5 durante al menos medio año, y con base en eso ajustan QLoRA para lanzar un modelo de IA "propio". La gerencia presume grandes logros y dice que su empresa es líder en IA para una "industria específica". Este proceso casi no requiere conocimientos de aprendizaje automático y puede hacerse con menos de $1,000 en costos de computación en la nube. Pero en trabajo real terminas obteniendo resultados de nivel GPT-3.5, y especialmente si usas GPU en la nube, es difícil competir con GPT-3.5 en costos.
  • Revisé la app Wanderer de esta persona, y es muy sospechosa porque no hay términos de uso, política de privacidad, precios claros ni ninguna mención de IA.
  • Según la documentación de Together.ai, Mixtral no puede usarse para ajuste fino y parece que no ejecutan modelos ajustados en modo serverless. Eso sugiere que la historia no es consistente.
  • Dejando de lado los problemas éticos y las condiciones limitadas, quizá GPT-4 no era necesario para lo que hizo quien publicó esto. ¿Qué tan peor o más difícil habría sido generar las primeras 100 buenas parejas de prompt-respuesta con Mixtral o 3.5 y luego ajustarlas manualmente?
  • Estoy desarrollando una app como proyecto secundario para resumir contenido a gran escala usando IA, y espero que se convierta en un SaaS que genere ingresos. Para lanzar rápido planeo usar OpenAI por ahora, pero después espero migrar a una opción de LLM autoalojada si resulta viable en términos económicos y técnicos. Si alguien tiene experiencia con esto, podría compartir tips o trucos.
  • Me pregunto si esto no viola los términos de uso de OpenAI.
  • Piden que explique cómo se redujo el costo a $1. Se reemplazó GPT-4 por una versión ajustada de Mixtral 8x7b, pero eso requiere varias GPU. Incluso si el modelo se cuantizó por cuenta propia, sigue habiendo costos de hardware e infraestructura, y eso sería más de $1. ¿Tal vez lo están autoalojando?
  • Se menciona la metodología clásica de destilación de conocimiento. Aquí se argumenta que no haría falta un 8x7b para el ajuste fino, y que pronto modelos como phi-2 o phixtral serán lo bastante potentes para estos dominios.
  • Sin hacer ningún cambio, obtuve excelentes resultados con openhermes 7b chat; cubre el 90% de los casos de uso de GPT-4 y corre rápido. Lo recomiendo.