Los problemas de OpenAI Deep Research

(ben-evans.com)

23 puntos por xguru 2025-02-20 | Aún no hay comentarios. | Compartir por WhatsApp

> "El Deep Research de OpenAI fue hecho para mí, pero no lo puedo usar. Parece una demo genial, pero al final, como era de esperarse, surgen problemas. Y la forma en que aparecen esos problemas es bastante interesante." - Benedict Evans

Mi trabajo principal es la investigación y el análisis
- Busco los datos que quiero, los organizo, hago gráficos y saco insights de ahí para expresarlos en texto y gráficos
- Luego converso con otras personas a partir de esos resultados
Deep Research de OpenAI parece una solución para automatizar este tipo de “trabajo de investigación”
- Me dio curiosidad probar si esta herramienta realmente era adecuada
- Justo el tema del reporte de muestra que ofrecía Deep Research era el “mercado de smartphones”, un área que conozco bien
La tabla presentada en el reporte de muestra parecía excelente a simple vista
- Pero antes hay que hacerse una pregunta fundamental: “¿de dónde salieron estos datos?”
- Deep Research mencionó a ‘Statista’ y ‘Statcounter’ como fuentes, pero ambas tienen problemas
  - Statcounter se basa en estadísticas de tráfico, así que, por las diferencias en el uso de dispositivos, tiende a sobrerrepresentar o subrepresentar ciertas plataformas
  - Statista reaprovecha otras fuentes usando optimización SEO, y la fuente real existe por separado
    - Eso no es muy distinto de decir que “la fuente son los resultados de búsqueda de Google”
Por ejemplo, al ver las cifras de participación de iOS/Android en el mercado japonés, Deep Research presenta “iOS 69%, Android 31%”
- Ni siquiera Statcounter ha publicado alguna vez una cifra de 69% en el último año
- La fuente real detrás de Statista es Kantar Worldpanel, pero las cifras que entrega Kantar son prácticamente lo contrario (aprox. Android 63%, iOS 36%)
- Mientras tanto, datos de una agencia del gobierno japonés (enlace, página 25) indican “aprox. 53% Android, 47% iOS”
- Además, las cifras de Kantar llegan a variar hasta 20 puntos porcentuales por mes, por lo que es difícil verlas como datos que reflejen la “proporción real instalada de hardware”
Para verificar todas estas diferencias, al final hay que volver a validar cada número de la tabla
- En ese caso, se pierde en gran medida la ventaja de ahorro de tiempo que supuestamente justificaba usar la herramienta
- Al final, resulta difícil confiar ciegamente en los datos que Deep Research puso en la tabla
El problema aquí es que “un LLM no es una base de datos”
- Los LLM son fuertes para entender la intención de una pregunta de forma probabilística, pero débiles en tareas “determinísticas” como extraer cifras exactas desde una fuente específica
- Deep Research tendría que entender correctamente qué significado de cuota de mercado se está pidiendo y traer la cifra correcta desde una fuente confiable, pero no lo logró
Esto muestra precisamente el fenómeno de que “los LLM hacen bien lo que a las computadoras se les da mal (entender contexto), pero hacen mal lo que las computadoras hacen bien (extraer información precisa)”
- OpenAI intenta encargarle a la vez la tarea de inferir la intención del usuario y la de recopilar información exacta, pero en su estado actual ahí se produce un desajuste
- Más aún, los errores aparecen incluso cuando la muestra en sí era material promocional presentado por OpenAI
Algunas personas podrían decir que “el modelo irá mejorando poco a poco, así que esto se resolverá”
- Pero aunque la tabla esté correcta en un 85%, si el 15% restante está mal, la confiabilidad general sigue siendo baja
- Solo al acercarse al 100% sería posible una “investigación completamente automatizada”, y soy escéptico respecto de si ese punto realmente es alcanzable
Aun así, eso no significa que esta tecnología no sirva para nada
- Si se trata de un tema que uno conoce bien, se puede generar rápidamente un informe de 20 páginas y luego corregir solo los errores, ahorrando tiempo
- Yo llamo a los LLM un “intern infinito”, y se parece a cuando el borrador que trae un intern necesita correcciones
- Citando la idea de Steve Jobs de que la computadora es una bicicleta para la mente, sería bueno usarla como una herramienta que amplifica las capacidades humanas
Pero, en el fondo, hay dos problemas
- No está claro si hay que construir productos asumiendo que el modelo puede equivocarse, o si hay que asumir que el modelo mismo llegará a ser confiable
- Empresas como OpenAI, aparte del enorme capital, no parecen tener barreras de entrada especiales ni capacidades de producto distintivas (fuera de áreas como programación o marketing)
  - Para que intentos como Deep Research se conviertan en un ‘producto’ que sea algo más que “caja de texto + API”, tienen que resolver el manejo de errores y el contexto de uso
  - También están apareciendo competidores como Perplexity y, al final, parece más probable un escenario donde otro software gestione la tasa de errores sobre una API que abstrae los LLM
En conclusión, Deep Research es un intento interesante, pero todavía es difícil garantizar su confiabilidad, y no está claro en qué dirección evolucionará la industria

Los problemas de OpenAI Deep Research

Lecturas relacionadas

Aún no hay comentarios.