23 puntos por xguru 2025-02-20 | Aún no hay comentarios. | Compartir por WhatsApp

> "El Deep Research de OpenAI fue hecho para mí, pero no lo puedo usar. Parece una demo genial, pero al final, como era de esperarse, surgen problemas. Y la forma en que aparecen esos problemas es bastante interesante." - Benedict Evans

  • Mi trabajo principal es la investigación y el análisis
    • Busco los datos que quiero, los organizo, hago gráficos y saco insights de ahí para expresarlos en texto y gráficos
    • Luego converso con otras personas a partir de esos resultados
  • Deep Research de OpenAI parece una solución para automatizar este tipo de “trabajo de investigación”
    • Me dio curiosidad probar si esta herramienta realmente era adecuada
    • Justo el tema del reporte de muestra que ofrecía Deep Research era el “mercado de smartphones”, un área que conozco bien
  • La tabla presentada en el reporte de muestra parecía excelente a simple vista
    • Pero antes hay que hacerse una pregunta fundamental: “¿de dónde salieron estos datos?”
    • Deep Research mencionó a ‘Statista’ y ‘Statcounter’ como fuentes, pero ambas tienen problemas
      • Statcounter se basa en estadísticas de tráfico, así que, por las diferencias en el uso de dispositivos, tiende a sobrerrepresentar o subrepresentar ciertas plataformas
      • Statista reaprovecha otras fuentes usando optimización SEO, y la fuente real existe por separado
        • Eso no es muy distinto de decir que “la fuente son los resultados de búsqueda de Google”
  • Por ejemplo, al ver las cifras de participación de iOS/Android en el mercado japonés, Deep Research presenta “iOS 69%, Android 31%”
    • Ni siquiera Statcounter ha publicado alguna vez una cifra de 69% en el último año
    • La fuente real detrás de Statista es Kantar Worldpanel, pero las cifras que entrega Kantar son prácticamente lo contrario (aprox. Android 63%, iOS 36%)
    • Mientras tanto, datos de una agencia del gobierno japonés (enlace, página 25) indican “aprox. 53% Android, 47% iOS”
    • Además, las cifras de Kantar llegan a variar hasta 20 puntos porcentuales por mes, por lo que es difícil verlas como datos que reflejen la “proporción real instalada de hardware”
  • Para verificar todas estas diferencias, al final hay que volver a validar cada número de la tabla
    • En ese caso, se pierde en gran medida la ventaja de ahorro de tiempo que supuestamente justificaba usar la herramienta
    • Al final, resulta difícil confiar ciegamente en los datos que Deep Research puso en la tabla
  • El problema aquí es que “un LLM no es una base de datos”
    • Los LLM son fuertes para entender la intención de una pregunta de forma probabilística, pero débiles en tareas “determinísticas” como extraer cifras exactas desde una fuente específica
    • Deep Research tendría que entender correctamente qué significado de cuota de mercado se está pidiendo y traer la cifra correcta desde una fuente confiable, pero no lo logró
  • Esto muestra precisamente el fenómeno de que “los LLM hacen bien lo que a las computadoras se les da mal (entender contexto), pero hacen mal lo que las computadoras hacen bien (extraer información precisa)”
    • OpenAI intenta encargarle a la vez la tarea de inferir la intención del usuario y la de recopilar información exacta, pero en su estado actual ahí se produce un desajuste
    • Más aún, los errores aparecen incluso cuando la muestra en sí era material promocional presentado por OpenAI
  • Algunas personas podrían decir que “el modelo irá mejorando poco a poco, así que esto se resolverá”
    • Pero aunque la tabla esté correcta en un 85%, si el 15% restante está mal, la confiabilidad general sigue siendo baja
    • Solo al acercarse al 100% sería posible una “investigación completamente automatizada”, y soy escéptico respecto de si ese punto realmente es alcanzable
  • Aun así, eso no significa que esta tecnología no sirva para nada
    • Si se trata de un tema que uno conoce bien, se puede generar rápidamente un informe de 20 páginas y luego corregir solo los errores, ahorrando tiempo
    • Yo llamo a los LLM un “intern infinito”, y se parece a cuando el borrador que trae un intern necesita correcciones
    • Citando la idea de Steve Jobs de que la computadora es una bicicleta para la mente, sería bueno usarla como una herramienta que amplifica las capacidades humanas
  • Pero, en el fondo, hay dos problemas
    • No está claro si hay que construir productos asumiendo que el modelo puede equivocarse, o si hay que asumir que el modelo mismo llegará a ser confiable
    • Empresas como OpenAI, aparte del enorme capital, no parecen tener barreras de entrada especiales ni capacidades de producto distintivas (fuera de áreas como programación o marketing)
      • Para que intentos como Deep Research se conviertan en un ‘producto’ que sea algo más que “caja de texto + API”, tienen que resolver el manejo de errores y el contexto de uso
      • También están apareciendo competidores como Perplexity y, al final, parece más probable un escenario donde otro software gestione la tasa de errores sobre una API que abstrae los LLM
  • En conclusión, Deep Research es un intento interesante, pero todavía es difícil garantizar su confiabilidad, y no está claro en qué dirección evolucionará la industria

Aún no hay comentarios.

Aún no hay comentarios.