9 puntos por GN⁺ 2025-04-02 | Aún no hay comentarios. | Compartir por WhatsApp
  • Muchos equipos de IA se concentran solo en elegir herramientas y pasan por alto lo realmente importante: medir resultados y aprender iterando
  • Con base en su experiencia ayudando a construir más de 30 productos de IA, el autor presenta las prácticas de ejecución en común de los equipos exitosos
  • La clave está en una mentalidad centrada en la medición y en construir una hoja de ruta basada en experimentos

1. El error más común: omitir el análisis de errores

  • La mayoría de los equipos de IA se obsesionan con la arquitectura o el diseño del framework, pero en la práctica no miden la efectividad real
  • Las métricas generales de dashboard no ayudan
    • Se aferran a “métricas de vanidad” sin sentido
    • Demasiadas métricas dispersan el enfoque del equipo
  • El análisis de errores es la actividad con mayor ROI
    • Revisar logs de conversaciones reales
    • Clasificar tipos de fallas
    • Escribir tests para esos problemas y medir la mejora
  • Caso de NurtureBoss:
    • Se resolvieron errores en el manejo de fechas
    • La precisión mejoró de 33% a 95%
  • El análisis bottom-up es más efectivo que el análisis top-down
    • Permite detectar patrones de falla a partir de datos reales
    • Incluso una tabla dinámica sencilla puede dar grandes hallazgos

2. La inversión más importante en IA: un visor de datos simple

  • La herramienta más importante es la que permite al equipo ver fácilmente las salidas reales de la IA
    • Más que herramientas open source, suele funcionar mejor una interfaz personalizada adaptada al dominio
    • NurtureBoss habilitó iteraciones rápidas gracias a su propio visor de datos
  • Requisitos de un buen visor:
    • Mostrar todo el contexto en una sola pantalla
    • Facilitar la recolección de feedback
    • Permitir anotaciones abiertas
    • Filtrado y ordenamiento rápidos
    • Soporte para atajos de teclado para mejorar la usabilidad
  • Puede construirse en pocas horas con FastHTML, MonsterUI, etc.
    • Incluso se puede empezar con una hoja de cálculo simple

3. Dar a los expertos del dominio poder sobre los prompts

  • Mejorar el rendimiento de la IA puede ser más efectivo cuando lo lideran expertos que no necesariamente saben mucho de IA
  • Los prompts son oraciones en inglés, así que también pueden escribirlos personas no técnicas
  • Si se ofrece un entorno integrado de prompts dentro de la UI del producto como “modo administrador”, se optimiza la iteración
  • Consejos para comunicarse con expertos del dominio:
    • Eliminar jerga técnica innecesaria
    • Ejemplo: “método RAG” → “asegurar el contexto para que la IA pueda responder preguntas”
    • Por qué es importante usar lenguaje preciso en la comunicación del equipo

4. Posible incluso sin usuarios: hacer bootstrap con datos sintéticos

  • Se puede evaluar una IA incluso sin datos de usuarios
    • Un LLM puede generar datos sintéticos
  • Tres dimensiones para datos sintéticos efectivos:
    • Función (por ejemplo, búsqueda inmobiliaria, reservaciones, etc.)
    • Escenario (por ejemplo, sin coincidencias, múltiples coincidencias, etc.)
    • Persona (por ejemplo, comprador principiante, inversionista, etc.)
  • Ejemplo de un proyecto inmobiliario real:
    • Se armó una base de datos por escenario para generar queries sintéticas
    • El LLM generó preguntas de usuarios y puso a prueba el sistema
  • Guía para crear datos sintéticos:
    • Generar ejemplos diversos
    • Basarse en los datos de entrada
    • Reflejar las restricciones del sistema
    • Validar la utilidad de los escenarios de prueba
    • Empezar con casos simples y expandir gradualmente

5. Mantener la confianza en el sistema de evaluación

  • Muchos equipos crean un sistema de evaluación y después lo ignoran por falta de confianza
  • Es común que los criterios de evaluación se desplacen con el tiempo (criteria drift)
  • Enfoques para mantener la confianza:
    • Preferir evaluaciones binarias (pass/fail) para asegurar claridad y consistencia
    • Agregar críticas detalladas para dar contexto cualitativo
    • Medir la alineación entre la evaluación automática y la humana
      • Ejemplo: en el proyecto Honeycomb, tras 3 iteraciones se logró más de 90% de coincidencia entre la evaluación del LLM y la humana
      • También puede usarse la herramienta AlignEval de Eugene Yan
  • Estrategia para escalar:
    • No eliminar por completo la evaluación humana; enfocarla en muestras con alta cantidad de información
    • Comparar periódicamente la evaluación automática con el juicio humano para recalibrar criterios

6. Una hoja de ruta de IA centrada en experimentos, no en features

  • La tradicional “hoja de ruta centrada en features” no es adecuada para IA
  • Bryan Bischof, exlíder de IA en Hex, propone el enfoque de “capability funnel”
    • Ejemplo: funnel de un asistente de queries
      1. Solo acierta la sintaxis de la query
      2. Puede ejecutarse sin errores
      3. Devuelve resultados relevantes
      4. Coincide con la intención
      5. Resuelve completamente el problema
  • Gestión del calendario basada en experimentos según Eugene Yan:
    • Revisión de viabilidad de datos → revisión de viabilidad técnica → creación de prototipo → prueba A/B
    • Compartir con dirección los resultados del experimento y, si no hay viabilidad, decidir un cambio temprano de rumbo
  • Fomentar una cultura de compartir fracasos:
    • Dentro del equipo, compartir que “fallar también es un resultado”
    • Crear un entorno que promueva la iteración y la experimentación

Conclusión y principios clave

  • Los equipos de IA exitosos se enfocan más en medición, iteración y aprendizaje que en herramientas complejas
  • Seis principios para poner en práctica:
    1. Revisar directamente los datos y hacer análisis de errores
    2. Construir herramientas simples y eficientes para apoyar la iteración
    3. Involucrar y empoderar a expertos del dominio
    4. Hacer bootstrap del sistema de evaluación inicial con datos sintéticos
    5. Mantener la confianza con evaluación binaria + crítica + chequeo de alineación
    6. Operar la hoja de ruta según la cantidad de experimentos, no de features

Aún no hay comentarios.

Aún no hay comentarios.