Más allá del MVP de IA: lo que realmente se necesita

winterjung · 2025-04-03T12:56:26+09:00

La mayoría de las empresas que crean productos de IA están atrapadas en la etapa experimental y carecen de sistemas y herramientas confiables Nuestro caso A inicios de este año, actualizamos el modelo LLM de gpt-4o-2024-08-06 a gpt-4o-2024-11-20 La tasa de aprobación de las pruebas de prompts clave cayó del 100% al 79% Mientras tanto, Sonnet 3.5 de Anthropic mostró una tasa de aprobación del 95% Muchas empresas de IA hablan con demasiada ligereza sobre cambiar entre proveedores Esto implica mucho más que simplemente probar la IA Construir infraestructura de pruebas para medir el rendimiento de los modelos y cuantificar qué impacto trae un cambio de modelo no es algo tan sencillo Lo que construimos para poder cuantificar Al menos 30 escenarios de prueba únicos Código para comparar la salida esperada del prompt con la salida real El test runner en sí Una estrategia para ejecutar pruebas en CI con un costo razonable La trampa del MVP de IA en la que cae la mayoría de los equipos Etapa 1. MVP engañoso: aparece una demo que parece hecha en apenas unos días. Pero pronto empieza a cometer errores básicos Etapa 2. ±0: se intenta mejorar, pero todo solo se vuelve cada vez más complejo e impredecible. El 90% de la mayoría de las empresas está en esta etapa Etapa 3. Ciencia: en este punto, se dan cuenta de que necesitan pruebas de evaluación, herramientas de observabilidad, etc., y empiezan a construirlas Etapa 4. De verdad funciona: por fin cuentan con monitoreo continuo, un conjunto integral de pruebas de evaluación y herramientas rápidas de análisis Nada de esto es fácil, simple ni sencillo; es un trabajo difícil Muchas empresas se quedan en la confusa etapa de MVP y ni siquiera entienden cómo está rindiendo la funcionalidad de IA que lanzaron Vender productos de IA diciendo que "todo lo que hace falta es X" simplifica demasiado la realidad Si alguien dice que está construyendo una estrategia de IA multiproveedor, pregúntale cómo mide y evalúa

(blog.lawrencejones.dev)

16 puntos por winterjung 2025-04-03 | Aún no hay comentarios. | Compartir por WhatsApp

La mayoría de las empresas que crean productos de IA están atrapadas en la etapa experimental y carecen de sistemas y herramientas confiables
Nuestro caso
- A inicios de este año, actualizamos el modelo LLM de gpt-4o-2024-08-06 a gpt-4o-2024-11-20
- La tasa de aprobación de las pruebas de prompts clave cayó del 100% al 79%
- Mientras tanto, Sonnet 3.5 de Anthropic mostró una tasa de aprobación del 95%
Muchas empresas de IA hablan con demasiada ligereza sobre cambiar entre proveedores
- Esto implica mucho más que simplemente probar la IA
- Construir infraestructura de pruebas para medir el rendimiento de los modelos y cuantificar qué impacto trae un cambio de modelo no es algo tan sencillo
Lo que construimos para poder cuantificar
- Al menos 30 escenarios de prueba únicos
- Código para comparar la salida esperada del prompt con la salida real
- El test runner en sí
- Una estrategia para ejecutar pruebas en CI con un costo razonable
La trampa del MVP de IA en la que cae la mayoría de los equipos
- Etapa 1. MVP engañoso: aparece una demo que parece hecha en apenas unos días. Pero pronto empieza a cometer errores básicos
- Etapa 2. ±0: se intenta mejorar, pero todo solo se vuelve cada vez más complejo e impredecible. El 90% de la mayoría de las empresas está en esta etapa
- Etapa 3. Ciencia: en este punto, se dan cuenta de que necesitan pruebas de evaluación, herramientas de observabilidad, etc., y empiezan a construirlas
- Etapa 4. De verdad funciona: por fin cuentan con monitoreo continuo, un conjunto integral de pruebas de evaluación y herramientas rápidas de análisis
Nada de esto es fácil, simple ni sencillo; es un trabajo difícil
- Muchas empresas se quedan en la confusa etapa de MVP y ni siquiera entienden cómo está rindiendo la funcionalidad de IA que lanzaron
- Vender productos de IA diciendo que "todo lo que hace falta es X" simplifica demasiado la realidad
- Si alguien dice que está construyendo una estrategia de IA multiproveedor, pregúntale cómo mide y evalúa

Más allá del MVP de IA: lo que realmente se necesita

Lecturas relacionadas

Aún no hay comentarios.