Los problemas de OpenAI Deep Research
(ben-evans.com)> "El Deep Research de OpenAI fue hecho para mí, pero no lo puedo usar. Parece una demo genial, pero al final, como era de esperarse, surgen problemas. Y la forma en que aparecen esos problemas es bastante interesante." - Benedict Evans
- Mi trabajo principal es la investigación y el análisis
- Busco los datos que quiero, los organizo, hago gráficos y saco insights de ahí para expresarlos en texto y gráficos
- Luego converso con otras personas a partir de esos resultados
- Deep Research de OpenAI parece una solución para automatizar este tipo de “trabajo de investigación”
- Me dio curiosidad probar si esta herramienta realmente era adecuada
- Justo el tema del reporte de muestra que ofrecía Deep Research era el “mercado de smartphones”, un área que conozco bien
- La tabla presentada en el reporte de muestra parecía excelente a simple vista
- Pero antes hay que hacerse una pregunta fundamental: “¿de dónde salieron estos datos?”
- Deep Research mencionó a ‘Statista’ y ‘Statcounter’ como fuentes, pero ambas tienen problemas
- Statcounter se basa en estadísticas de tráfico, así que, por las diferencias en el uso de dispositivos, tiende a sobrerrepresentar o subrepresentar ciertas plataformas
- Statista reaprovecha otras fuentes usando optimización SEO, y la fuente real existe por separado
- Eso no es muy distinto de decir que “la fuente son los resultados de búsqueda de Google”
- Por ejemplo, al ver las cifras de participación de iOS/Android en el mercado japonés, Deep Research presenta “iOS 69%, Android 31%”
- Ni siquiera Statcounter ha publicado alguna vez una cifra de 69% en el último año
- La fuente real detrás de Statista es Kantar Worldpanel, pero las cifras que entrega Kantar son prácticamente lo contrario (aprox. Android 63%, iOS 36%)
- Mientras tanto, datos de una agencia del gobierno japonés (enlace, página 25) indican “aprox. 53% Android, 47% iOS”
- Además, las cifras de Kantar llegan a variar hasta 20 puntos porcentuales por mes, por lo que es difícil verlas como datos que reflejen la “proporción real instalada de hardware”
- Para verificar todas estas diferencias, al final hay que volver a validar cada número de la tabla
- En ese caso, se pierde en gran medida la ventaja de ahorro de tiempo que supuestamente justificaba usar la herramienta
- Al final, resulta difícil confiar ciegamente en los datos que Deep Research puso en la tabla
- El problema aquí es que “un LLM no es una base de datos”
- Los LLM son fuertes para entender la intención de una pregunta de forma probabilística, pero débiles en tareas “determinísticas” como extraer cifras exactas desde una fuente específica
- Deep Research tendría que entender correctamente qué significado de cuota de mercado se está pidiendo y traer la cifra correcta desde una fuente confiable, pero no lo logró
- Esto muestra precisamente el fenómeno de que “los LLM hacen bien lo que a las computadoras se les da mal (entender contexto), pero hacen mal lo que las computadoras hacen bien (extraer información precisa)”
- OpenAI intenta encargarle a la vez la tarea de inferir la intención del usuario y la de recopilar información exacta, pero en su estado actual ahí se produce un desajuste
- Más aún, los errores aparecen incluso cuando la muestra en sí era material promocional presentado por OpenAI
- Algunas personas podrían decir que “el modelo irá mejorando poco a poco, así que esto se resolverá”
- Pero aunque la tabla esté correcta en un 85%, si el 15% restante está mal, la confiabilidad general sigue siendo baja
- Solo al acercarse al 100% sería posible una “investigación completamente automatizada”, y soy escéptico respecto de si ese punto realmente es alcanzable
- Aun así, eso no significa que esta tecnología no sirva para nada
- Si se trata de un tema que uno conoce bien, se puede generar rápidamente un informe de 20 páginas y luego corregir solo los errores, ahorrando tiempo
- Yo llamo a los LLM un “intern infinito”, y se parece a cuando el borrador que trae un intern necesita correcciones
- Citando la idea de Steve Jobs de que la computadora es una bicicleta para la mente, sería bueno usarla como una herramienta que amplifica las capacidades humanas
- Pero, en el fondo, hay dos problemas
- No está claro si hay que construir productos asumiendo que el modelo puede equivocarse, o si hay que asumir que el modelo mismo llegará a ser confiable
- Empresas como OpenAI, aparte del enorme capital, no parecen tener barreras de entrada especiales ni capacidades de producto distintivas (fuera de áreas como programación o marketing)
- Para que intentos como Deep Research se conviertan en un ‘producto’ que sea algo más que “caja de texto + API”, tienen que resolver el manejo de errores y el contexto de uso
- También están apareciendo competidores como Perplexity y, al final, parece más probable un escenario donde otro software gestione la tasa de errores sobre una API que abstrae los LLM
- En conclusión, Deep Research es un intento interesante, pero todavía es difícil garantizar su confiabilidad, y no está claro en qué dirección evolucionará la industria
Aún no hay comentarios.