16 puntos por winterjung 2025-04-03 | Aún no hay comentarios. | Compartir por WhatsApp
  • La mayoría de las empresas que crean productos de IA están atrapadas en la etapa experimental y carecen de sistemas y herramientas confiables
  • Nuestro caso
    • A inicios de este año, actualizamos el modelo LLM de gpt-4o-2024-08-06 a gpt-4o-2024-11-20
    • La tasa de aprobación de las pruebas de prompts clave cayó del 100% al 79%
    • Mientras tanto, Sonnet 3.5 de Anthropic mostró una tasa de aprobación del 95%
  • Muchas empresas de IA hablan con demasiada ligereza sobre cambiar entre proveedores
    • Esto implica mucho más que simplemente probar la IA
    • Construir infraestructura de pruebas para medir el rendimiento de los modelos y cuantificar qué impacto trae un cambio de modelo no es algo tan sencillo
  • Lo que construimos para poder cuantificar
    • Al menos 30 escenarios de prueba únicos
    • Código para comparar la salida esperada del prompt con la salida real
    • El test runner en sí
    • Una estrategia para ejecutar pruebas en CI con un costo razonable
  • La trampa del MVP de IA en la que cae la mayoría de los equipos
    • Etapa 1. MVP engañoso: aparece una demo que parece hecha en apenas unos días. Pero pronto empieza a cometer errores básicos
    • Etapa 2. ±0: se intenta mejorar, pero todo solo se vuelve cada vez más complejo e impredecible. El 90% de la mayoría de las empresas está en esta etapa
    • Etapa 3. Ciencia: en este punto, se dan cuenta de que necesitan pruebas de evaluación, herramientas de observabilidad, etc., y empiezan a construirlas
    • Etapa 4. De verdad funciona: por fin cuentan con monitoreo continuo, un conjunto integral de pruebas de evaluación y herramientas rápidas de análisis
  • Nada de esto es fácil, simple ni sencillo; es un trabajo difícil
    • Muchas empresas se quedan en la confusa etapa de MVP y ni siquiera entienden cómo está rindiendo la funcionalidad de IA que lanzaron
    • Vender productos de IA diciendo que "todo lo que hace falta es X" simplifica demasiado la realidad
    • Si alguien dice que está construyendo una estrategia de IA multiproveedor, pregúntale cómo mide y evalúa

Aún no hay comentarios.

Aún no hay comentarios.