- La mayoría de las empresas que crean productos de IA están atrapadas en la etapa experimental y carecen de sistemas y herramientas confiables
- Nuestro caso
- A inicios de este año, actualizamos el modelo LLM de
gpt-4o-2024-08-06 a gpt-4o-2024-11-20
- La tasa de aprobación de las pruebas de prompts clave cayó del 100% al 79%
- Mientras tanto, Sonnet 3.5 de Anthropic mostró una tasa de aprobación del 95%
- Muchas empresas de IA hablan con demasiada ligereza sobre cambiar entre proveedores
- Esto implica mucho más que simplemente probar la IA
- Construir infraestructura de pruebas para medir el rendimiento de los modelos y cuantificar qué impacto trae un cambio de modelo no es algo tan sencillo
- Lo que construimos para poder cuantificar
- Al menos 30 escenarios de prueba únicos
- Código para comparar la salida esperada del prompt con la salida real
- El test runner en sí
- Una estrategia para ejecutar pruebas en CI con un costo razonable
- La trampa del MVP de IA en la que cae la mayoría de los equipos
- Etapa 1. MVP engañoso: aparece una demo que parece hecha en apenas unos días. Pero pronto empieza a cometer errores básicos
- Etapa 2. ±0: se intenta mejorar, pero todo solo se vuelve cada vez más complejo e impredecible. El 90% de la mayoría de las empresas está en esta etapa
- Etapa 3. Ciencia: en este punto, se dan cuenta de que necesitan pruebas de evaluación, herramientas de observabilidad, etc., y empiezan a construirlas
- Etapa 4. De verdad funciona: por fin cuentan con monitoreo continuo, un conjunto integral de pruebas de evaluación y herramientas rápidas de análisis
- Nada de esto es fácil, simple ni sencillo; es un trabajo difícil
- Muchas empresas se quedan en la confusa etapa de MVP y ni siquiera entienden cómo está rindiendo la funcionalidad de IA que lanzaron
- Vender productos de IA diciendo que "todo lo que hace falta es X" simplifica demasiado la realidad
- Si alguien dice que está construyendo una estrategia de IA multiproveedor, pregúntale cómo mide y evalúa
Aún no hay comentarios.