- OpenAI presentó en ChatGPT una nueva función de tipo agente llamada "Deep Research"
- Su función es recopilar, analizar y sintetizar grandes volúmenes de información de internet para resolver automáticamente tareas complejas en cuestión de decenas de minutos
- Como paso clave para alcanzar la AGI en el futuro, la capacidad de "síntesis de conocimiento" para crear nuevo conocimiento es indispensable
Por qué se creó Deep Research
- Fue desarrollado para usuarios que necesitan resultados de investigación exhaustivos y confiables, desde trabajo de conocimiento altamente especializado (finanzas, ciencia, políticas públicas, ingeniería, etc.) hasta investigación para compras de bienes de consumo de gran escala
- Puede encontrar y documentar rápidamente información de nicho poco visible o hechos no intuitivos a partir de diversas fuentes en línea
- Busca automatizar investigación de nivel profesional para aumentar significativamente la productividad laboral
Cómo usar Deep Research
- Seleccionar el modo Deep Research en el cuadro de entrada de mensajes de ChatGPT
- Se pueden adjuntar archivos o hojas de cálculo junto con la solicitud (por ejemplo, análisis de competidores, recomendaciones de productos personalizadas, etc.)
- Deep Research navega por internet entre 5 y hasta 30 minutos para elaborar un informe detallado
- Durante el proceso, se puede seguir el progreso mediante una barra lateral que muestra resúmenes por etapas y fuentes de referencia
- El resultado final se entrega en formato de informe con citas extensas, y más adelante también incluirá imágenes y visualizaciones de datos
Cómo funciona
- Utiliza un modelo de nueva generación (basado en OpenAI o3) que amplía las capacidades de razonamiento de OpenAI o1 para abordar tareas complejas de navegación y análisis
- Realiza por sí mismo planificación en múltiples etapas, recopilación de información e incorporación de retroalimentación intermedia
- También puede acceder a archivos subidos por el usuario y realizar análisis como la creación de gráficos usando herramientas de Python
- Cita fuentes a nivel de frases específicas para mejorar la precisión y la transparencia
Evaluación en Humanity’s Last Exam
- En Humanity’s Last Exam, una evaluación amplia publicada recientemente, registró una tasa de respuestas correctas de 26.6%, mostrando un rendimiento sobresaliente frente a modelos anteriores
- Incluye más de 3,000 preguntas de nivel experto y abarca múltiples disciplinas académicas
- Mostró grandes mejoras frente a modelos anteriores en química, humanidades y ciencias sociales, y matemáticas
- Entre los modelos comparados estuvieron GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking y OpenAI o1, y el modelo de Deep Research obtuvo la mayor precisión con 26.6%
- GPT-4o obtuvo alrededor de 3.3%, Claude 3.5 Sonnet 4.3% y OpenAI o1 9.1%
Benchmark GAIA
- GAIA es una métrica que evalúa preguntas del mundo real que exigen navegación web, procesamiento multimodal y uso de herramientas
- El modelo de Deep Research superó el mejor resultado previo en ese benchmark
- Los problemas de GAIA están divididos en niveles de dificultad del 1 al 3, y Deep Research mostró puntajes superiores al récord anterior en todos los niveles
- En concreto, mostró una mejora aproximada de entre 6% y 8% en cada nivel frente al récord previo, elevando también el promedio general
Trabajo de nivel experto
- En evaluaciones internas, mostró un nivel de automatización lo bastante alto como para reemplazar investigaciones manuales de varias horas
- Como el rendimiento mejora cuanto más navega y reflexiona el modelo, es importante darle suficiente tiempo de cómputo
Limitaciones
- Aún pueden producirse algunos errores de hechos o razonamientos incorrectos (hallucination)
- Tiene dificultades para distinguir entre rumores y fuentes de alta confiabilidad, y puede no expresar la incertidumbre con precisión
- En la etapa inicial del lanzamiento, los informes o el formato de las citas pueden no ser del todo fluidos, y en algunos casos el tiempo de ejecución puede alargarse
Acceso y uso
- Actualmente, Deep Research se ofrece primero a usuarios Pro debido a su alto costo computacional, con un máximo de 100 usos al mes
- Pronto también se abrirá gradualmente para usuarios Plus y Team
- Hay planes de ampliar el soporte más adelante para usuarios del Reino Unido, Suiza y el Espacio Económico Europeo (EEA)
- En el futuro, una versión de modelo más pequeña, rápida y eficiente aumentará considerablemente el límite de solicitudes para todas las cuentas de pago
Planes a futuro
- Por ahora, Deep Research está disponible en la versión web de ChatGPT y pronto llegará también a las apps móviles y de escritorio
- Más adelante, planean conectarlo también con datos por suscripción o recursos internos para ofrecer resultados aún más personalizados
- Se espera que, al combinar Deep Research con Operator, se pueda construir una experiencia de agente más avanzada capaz de ejecutar automáticamente tareas reales tanto offline como online
3 comentarios
Informes reales elaborados con DeepResearch
Opiniones en Hacker News
Un usuario mencionó que intentó generar un informe sobre sí mismo, pero encontró varios errores. Por ejemplo, identificó mal su reputación en Stack Overflow y también tomó una cita de una entrevista de la persona equivocada.
Otro usuario señaló que los modelos de lenguaje no logran dar respuestas completamente precisas alrededor del 10% de las veces, y que eso puede reducir la confianza. También destacó que el tiempo que toma verificar la exactitud de las respuestas es un factor importante.
Un usuario comentó que se parece a un proyecto reciente de generación de informes lanzado por Standard.
Se mencionó que Gemini ya ofrece esta función desde hace varios meses con el nombre "Deep Research". También se planteó la duda sobre la duplicación de nombres en el mundo de la IA.
Un usuario advirtió que, incluso reconociendo los errores y las alucinaciones, mucha gente los pasará por alto e insertará los resultados en su PowerPoint. Advirtió que, mientras más poderosas se vuelvan estas herramientas, más grave será la distorsión de la información.
Se mencionó que el modelo o3 aún no lanzado impulsa esta función, y que es un modelo bastante impresionante. Se destacó que es un modelo líder frente a Google, DeepSeek y Perplexity.
Se comentó que es una herramienta interesante para quienes trabajan en el ámbito académico, y que les gustaría probarla, pero que el costo resulta una carga. También se pidió que alguien la probara con prompts específicos.
Se planteó la duda sobre esta capacidad como prerrequisito para la AGI y la ASI. También se expresó escepticismo sobre la importancia de la investigación y preocupación por depender de respuestas en lugar de resultados de ejecución.
Se mencionó que en pruebas internas solo alcanzó una tasa de aprobación del 20%, y se señaló que toma mucho tiempo revisar grandes cantidades de texto impreciso. Se argumentó que hace falta un proceso más iterativo.
Se planteó la duda de si los expertos famosos o las personas que buscan visibilidad seguirán escribiendo en blogs. También hubo preocupación por un escenario en el que todos los lectores terminen siendo bots.
Lo estoy esperando con muchísimas ganas... No puedo creer que esto no fuera el one more thing..
¿Será que el tema de DeepSeek queda enterrado con esto?