26 puntos por xguru 2024-02-29 | 1 comentarios | Compartir por WhatsApp

Resumen de las respuestas a una pregunta publicada en HN

  • Ha ayudado a decenas de clientes a pasar de GPT-4/GPT-3.5 a sus propios modelos ajustados finamente sobre OpenPipe
    • La reacción más común es: "Wow, no sabía que funcionaría tan bien con tan poco esfuerzo"
    • En la mayoría de las tareas, Mistral 7B ajustado finamente supera a GPT-3.5 con un costo mucho menor
    • En algunos casos de uso, ofrece un rendimiento similar o mejor que GPT-4 (especialmente en tareas como clasificación, extracción de información y resumen)
  • Han usado Mistral-Instruct-0.1 para resumir llamadas/correos electrónicos, Mixtral para minería de contratos y OpenChat para reforzar un chatbot agente con herramientas RAG
    • La experiencia ha sido excelente, y el compromiso de INT8 sigue siendo aceptable hasta que el hardware FP8 (FP4) esté más extendido y sea más barato
    • Los costos on-premise ya quedaron absorbidos al ejecutar millones de interacciones con equipos legacy A100 y V100
  • Usa Continue junto con Ollama, y su LLM principal es deepseek-coder 7b. Esta configuración es tan buena como ChatGPT 4, prioriza lo local y en general está satisfecho
  • Ajustó un LLM para realizar trabajo técnico, y funcionó muy bien. Sin embargo, descubrió que evaluar un LLM es sorprendentemente difícil, y que GPT-4 en general no es tan excelente
  • Cuando hay que extraer o procesar datos de más de 10,000 registros, prefiere usar un modelo local. Un servicio alojado sería lento y frágil en este punto. Mistral 7B ajustado finamente (OpenChat es el mejor) procesa los datos rápido. Usa ChatGPT-4 para resumir información de prompts complejos, y luego lo ejecuta en el modelo local. Cree que la situación seguirá mejorando
  • En apps y productos empresariales, soportan tanto la API de OpenAI como bibliotecas on-device (por ejemplo, llama.cpp). La API y las bibliotecas son muy parecidas, así que para el usuario el cambio es casi transparente. También planean soportar pronto APIs de otras plataformas, igual de fáciles de integrar que OpenAI
  • Usó Mistral 7B durante un vuelo sin wifi, y fue bastante bueno para encontrar la información necesaria, aunque tuvo resultados mixtos al dar instrucciones paso a paso
  • Mientras construían Double.bot probaron varios modelos, pero al final volvieron a gpt4. Los otros modelos son divertidos, pero decepciona que gpt4 resuelva 100 preguntas y otro falle en 1. Actualmente están obteniendo más valor al implementar funciones alrededor del modelo, lo que resuelve problemas de GitHub copilot (autocompletado que cierra paréntesis correctamente, importar automáticamente al aceptar sugerencias, desactivar sugerencias al escribir comentarios para que no estorben, completado en medio de línea, etc.). Espera que en menos de 6 meses los modelos open source alcancen a gpt4
  • En general, cree que Llama 2 es bastante malo, especialmente en idiomas distintos del inglés. Ha obtenido muy buenos resultados con Mixtral para chat. Claro, comparados con el ChatGPT real, todos se sienten como Frankenstein. A veces parecen similares y funcionan bien, pero otras veces sueltan basura o artefactos totalmente rotos y uno se pregunta si descuidaron demasiado el ajuste fino
  • Hacen la primera etapa con su propio modelo, y si el resultado no es suficientemente confiable, lo escalan a gpt
  • Espera que en 2024 mucha más gente deje OpenAI debido a costos y latencia, frente a competidores menos validados/escalados. La velocidad y la calidad suelen estar en tensión, pero ha visto varios proveedores más de 3 veces más rápidos que OpenAI y con más de 1/3 de su calidad
  • Está usando Mixtral 8x7b (q5) para casos de uso como scripting, búsqueda de ideas y/o definiciones que siempre requieren verificación de hechos. Actualmente usa lmstudio en un M2 con 96GB de RAM, pero está considerando cambiarse a Ollama u otra solución OSS

1 comentarios

 
nullptr 2024-02-29

Como es HN, probablemente haya que tener en cuenta que está basado en el inglés.