Guía práctica para mejorar productos de IA rápidamente

(hamel.dev)

9 puntos por GN⁺ 2025-04-02 | Aún no hay comentarios. | Compartir por WhatsApp

Muchos equipos de IA se concentran solo en elegir herramientas y pasan por alto lo realmente importante: medir resultados y aprender iterando
Con base en su experiencia ayudando a construir más de 30 productos de IA, el autor presenta las prácticas de ejecución en común de los equipos exitosos
La clave está en una mentalidad centrada en la medición y en construir una hoja de ruta basada en experimentos

1. El error más común: omitir el análisis de errores

La mayoría de los equipos de IA se obsesionan con la arquitectura o el diseño del framework, pero en la práctica no miden la efectividad real
Las métricas generales de dashboard no ayudan
- Se aferran a “métricas de vanidad” sin sentido
- Demasiadas métricas dispersan el enfoque del equipo
El análisis de errores es la actividad con mayor ROI
- Revisar logs de conversaciones reales
- Clasificar tipos de fallas
- Escribir tests para esos problemas y medir la mejora
Caso de NurtureBoss:
- Se resolvieron errores en el manejo de fechas
- La precisión mejoró de 33% a 95%
El análisis bottom-up es más efectivo que el análisis top-down
- Permite detectar patrones de falla a partir de datos reales
- Incluso una tabla dinámica sencilla puede dar grandes hallazgos

La herramienta más importante es la que permite al equipo ver fácilmente las salidas reales de la IA
- Más que herramientas open source, suele funcionar mejor una interfaz personalizada adaptada al dominio
- NurtureBoss habilitó iteraciones rápidas gracias a su propio visor de datos
Requisitos de un buen visor:
- Mostrar todo el contexto en una sola pantalla
- Facilitar la recolección de feedback
- Permitir anotaciones abiertas
- Filtrado y ordenamiento rápidos
- Soporte para atajos de teclado para mejorar la usabilidad
Puede construirse en pocas horas con FastHTML, MonsterUI, etc.
- Incluso se puede empezar con una hoja de cálculo simple

Mejorar el rendimiento de la IA puede ser más efectivo cuando lo lideran expertos que no necesariamente saben mucho de IA
Los prompts son oraciones en inglés, así que también pueden escribirlos personas no técnicas
Si se ofrece un entorno integrado de prompts dentro de la UI del producto como “modo administrador”, se optimiza la iteración
Consejos para comunicarse con expertos del dominio:
- Eliminar jerga técnica innecesaria
- Ejemplo: “método RAG” → “asegurar el contexto para que la IA pueda responder preguntas”
- Por qué es importante usar lenguaje preciso en la comunicación del equipo

Se puede evaluar una IA incluso sin datos de usuarios
- Un LLM puede generar datos sintéticos
Tres dimensiones para datos sintéticos efectivos:
- Función (por ejemplo, búsqueda inmobiliaria, reservaciones, etc.)
- Escenario (por ejemplo, sin coincidencias, múltiples coincidencias, etc.)
- Persona (por ejemplo, comprador principiante, inversionista, etc.)
Ejemplo de un proyecto inmobiliario real:
- Se armó una base de datos por escenario para generar queries sintéticas
- El LLM generó preguntas de usuarios y puso a prueba el sistema
Guía para crear datos sintéticos:
- Generar ejemplos diversos
- Basarse en los datos de entrada
- Reflejar las restricciones del sistema
- Validar la utilidad de los escenarios de prueba
- Empezar con casos simples y expandir gradualmente

Muchos equipos crean un sistema de evaluación y después lo ignoran por falta de confianza
Es común que los criterios de evaluación se desplacen con el tiempo (criteria drift)
Enfoques para mantener la confianza:
- Preferir evaluaciones binarias (pass/fail) para asegurar claridad y consistencia
- Agregar críticas detalladas para dar contexto cualitativo
- Medir la alineación entre la evaluación automática y la humana
  - Ejemplo: en el proyecto Honeycomb, tras 3 iteraciones se logró más de 90% de coincidencia entre la evaluación del LLM y la humana
  - También puede usarse la herramienta AlignEval de Eugene Yan
Estrategia para escalar:
- No eliminar por completo la evaluación humana; enfocarla en muestras con alta cantidad de información
- Comparar periódicamente la evaluación automática con el juicio humano para recalibrar criterios

La tradicional “hoja de ruta centrada en features” no es adecuada para IA
Bryan Bischof, exlíder de IA en Hex, propone el enfoque de “capability funnel”
- Ejemplo: funnel de un asistente de queries
  1. Solo acierta la sintaxis de la query
  2. Puede ejecutarse sin errores
  3. Devuelve resultados relevantes
  4. Coincide con la intención
  5. Resuelve completamente el problema
Gestión del calendario basada en experimentos según Eugene Yan:
- Revisión de viabilidad de datos → revisión de viabilidad técnica → creación de prototipo → prueba A/B
- Compartir con dirección los resultados del experimento y, si no hay viabilidad, decidir un cambio temprano de rumbo
Fomentar una cultura de compartir fracasos:
- Dentro del equipo, compartir que “fallar también es un resultado”
- Crear un entorno que promueva la iteración y la experimentación

Los equipos de IA exitosos se enfocan más en medición, iteración y aprendizaje que en herramientas complejas
Seis principios para poner en práctica:
1. Revisar directamente los datos y hacer análisis de errores
2. Construir herramientas simples y eficientes para apoyar la iteración
3. Involucrar y empoderar a expertos del dominio
4. Hacer bootstrap del sistema de evaluación inicial con datos sintéticos
5. Mantener la confianza con evaluación binaria + crítica + chequeo de alineación
6. Operar la hoja de ruta según la cantidad de experimentos, no de features