- Muchos equipos de IA se concentran solo en elegir herramientas y pasan por alto lo realmente importante: medir resultados y aprender iterando
- Con base en su experiencia ayudando a construir más de 30 productos de IA, el autor presenta las prácticas de ejecución en común de los equipos exitosos
- La clave está en una mentalidad centrada en la medición y en construir una hoja de ruta basada en experimentos
1. El error más común: omitir el análisis de errores
- La mayoría de los equipos de IA se obsesionan con la arquitectura o el diseño del framework, pero en la práctica no miden la efectividad real
- Las métricas generales de dashboard no ayudan
- Se aferran a “métricas de vanidad” sin sentido
- Demasiadas métricas dispersan el enfoque del equipo
- El análisis de errores es la actividad con mayor ROI
- Revisar logs de conversaciones reales
- Clasificar tipos de fallas
- Escribir tests para esos problemas y medir la mejora
- Caso de NurtureBoss:
- Se resolvieron errores en el manejo de fechas
- La precisión mejoró de 33% a 95%
- El análisis bottom-up es más efectivo que el análisis top-down
- Permite detectar patrones de falla a partir de datos reales
- Incluso una tabla dinámica sencilla puede dar grandes hallazgos
2. La inversión más importante en IA: un visor de datos simple
- La herramienta más importante es la que permite al equipo ver fácilmente las salidas reales de la IA
- Más que herramientas open source, suele funcionar mejor una interfaz personalizada adaptada al dominio
- NurtureBoss habilitó iteraciones rápidas gracias a su propio visor de datos
- Requisitos de un buen visor:
- Mostrar todo el contexto en una sola pantalla
- Facilitar la recolección de feedback
- Permitir anotaciones abiertas
- Filtrado y ordenamiento rápidos
- Soporte para atajos de teclado para mejorar la usabilidad
- Puede construirse en pocas horas con FastHTML, MonsterUI, etc.
- Incluso se puede empezar con una hoja de cálculo simple
3. Dar a los expertos del dominio poder sobre los prompts
- Mejorar el rendimiento de la IA puede ser más efectivo cuando lo lideran expertos que no necesariamente saben mucho de IA
- Los prompts son oraciones en inglés, así que también pueden escribirlos personas no técnicas
- Si se ofrece un entorno integrado de prompts dentro de la UI del producto como “modo administrador”, se optimiza la iteración
- Consejos para comunicarse con expertos del dominio:
- Eliminar jerga técnica innecesaria
- Ejemplo: “método RAG” → “asegurar el contexto para que la IA pueda responder preguntas”
- Por qué es importante usar lenguaje preciso en la comunicación del equipo
4. Posible incluso sin usuarios: hacer bootstrap con datos sintéticos
- Se puede evaluar una IA incluso sin datos de usuarios
- Un LLM puede generar datos sintéticos
- Tres dimensiones para datos sintéticos efectivos:
- Función (por ejemplo, búsqueda inmobiliaria, reservaciones, etc.)
- Escenario (por ejemplo, sin coincidencias, múltiples coincidencias, etc.)
- Persona (por ejemplo, comprador principiante, inversionista, etc.)
- Ejemplo de un proyecto inmobiliario real:
- Se armó una base de datos por escenario para generar queries sintéticas
- El LLM generó preguntas de usuarios y puso a prueba el sistema
- Guía para crear datos sintéticos:
- Generar ejemplos diversos
- Basarse en los datos de entrada
- Reflejar las restricciones del sistema
- Validar la utilidad de los escenarios de prueba
- Empezar con casos simples y expandir gradualmente
5. Mantener la confianza en el sistema de evaluación
- Muchos equipos crean un sistema de evaluación y después lo ignoran por falta de confianza
- Es común que los criterios de evaluación se desplacen con el tiempo (criteria drift)
- Enfoques para mantener la confianza:
- Preferir evaluaciones binarias (pass/fail) para asegurar claridad y consistencia
- Agregar críticas detalladas para dar contexto cualitativo
- Medir la alineación entre la evaluación automática y la humana
- Ejemplo: en el proyecto Honeycomb, tras 3 iteraciones se logró más de 90% de coincidencia entre la evaluación del LLM y la humana
- También puede usarse la herramienta AlignEval de Eugene Yan
- Estrategia para escalar:
- No eliminar por completo la evaluación humana; enfocarla en muestras con alta cantidad de información
- Comparar periódicamente la evaluación automática con el juicio humano para recalibrar criterios
6. Una hoja de ruta de IA centrada en experimentos, no en features
- La tradicional “hoja de ruta centrada en features” no es adecuada para IA
- Bryan Bischof, exlíder de IA en Hex, propone el enfoque de “capability funnel”
- Ejemplo: funnel de un asistente de queries
- Solo acierta la sintaxis de la query
- Puede ejecutarse sin errores
- Devuelve resultados relevantes
- Coincide con la intención
- Resuelve completamente el problema
- Gestión del calendario basada en experimentos según Eugene Yan:
- Revisión de viabilidad de datos → revisión de viabilidad técnica → creación de prototipo → prueba A/B
- Compartir con dirección los resultados del experimento y, si no hay viabilidad, decidir un cambio temprano de rumbo
- Fomentar una cultura de compartir fracasos:
- Dentro del equipo, compartir que “fallar también es un resultado”
- Crear un entorno que promueva la iteración y la experimentación
Conclusión y principios clave
- Los equipos de IA exitosos se enfocan más en medición, iteración y aprendizaje que en herramientas complejas
- Seis principios para poner en práctica:
- Revisar directamente los datos y hacer análisis de errores
- Construir herramientas simples y eficientes para apoyar la iteración
- Involucrar y empoderar a expertos del dominio
- Hacer bootstrap del sistema de evaluación inicial con datos sintéticos
- Mantener la confianza con evaluación binaria + crítica + chequeo de alineación
- Operar la hoja de ruta según la cantidad de experimentos, no de features
Aún no hay comentarios.