OpenAI presenta Deep Research

xguru · 2025-02-03T13:41:21+09:00

OpenAI presentó en ChatGPT una nueva función de tipo agente llamada "Deep Research" Su función es recopilar, analizar y sintetizar grandes volúmenes de información de internet para resolver automáticamente tareas complejas en cuestión de decenas de minutos Como paso clave para alcanzar la AGI en el futuro, la capacidad de "síntesis de conocimiento" para crear nuevo conocimiento es indispensable Por qué se creó Deep Research Fue desarrollado para usuarios que necesitan resultados de investigación exhaustivos y confiables, desde trabajo de conocimiento altamente especializado (finanzas, ciencia, políticas públicas, ingeniería, etc.) hasta investigación para compras de bienes de consumo de gran escala Puede encontrar y documentar rápidamente información de nicho poco visible o hechos no intuitivos a partir de diversas fuentes en línea Busca automatizar investigación de nivel profesional para aumentar significativamente la productividad laboral Cómo usar Deep Research Seleccionar el modo Deep Research en el cuadro de entrada de mensajes de ChatGPT Se pueden adjuntar archivos o hojas de cálculo junto con la solicitud (por ejemplo, análisis de competidores, recomendaciones de productos personalizadas, etc.) Deep Research navega por internet entre 5 y hasta 30 minutos para elaborar un informe detallado Durante el proceso, se puede seguir el progreso mediante una barra lateral que muestra resúmenes por etapas y fuentes de referencia El resultado final se entrega en formato de informe con citas extensas, y más adelante también incluirá imágenes y visualizaciones de datos Cómo funciona Utiliza un modelo de nueva generación (basado en OpenAI o3) que amplía las capacidades de razonamiento de OpenAI o1 para abordar tareas complejas de navegación y análisis Realiza por sí mismo planificación en múltiples etapas, recopilación de información e incorporación de retroalimentación intermedia También puede acceder a archivos subidos por el usuario y realizar análisis como la creación de gráficos usando herramientas de Python Cita fuentes a nivel de frases específicas para mejorar la precisión y la transparencia Evaluación en Humanity’s Last Exam En Humanity’s Last Exam, una evaluación amplia publicada recientemente, registró una tasa de respuestas correctas de 26.6%, mostrando un rendimiento sobresaliente frente a modelos anteriores Incluye más de 3,000 preguntas de nivel experto y abarca múltiples disciplinas académicas Mostró grandes mejoras frente a modelos anteriores en química, humanidades y ciencias sociales, y matemáticas Entre los modelos comparados estuvieron GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking y OpenAI o1, y el modelo de Deep Research obtuvo la mayor precisión con 26.6% GPT-4o obtuvo alrededor de 3.3%, Claude 3.5 Sonnet 4.3% y OpenAI o1 9.1% Benchmark GAIA GAIA es una métrica que evalúa preguntas del mundo real que exigen navegación web, procesamiento multimodal y uso de herramientas El modelo de Deep Research superó el mejor resultado previo en ese benchmark Los problemas de GAIA están divididos en niveles de dificultad del 1 al 3, y Deep Research mostró puntajes superiores al récord anterior en todos los niveles En concreto, mostró una mejora aproximada de entre 6% y 8% en cada nivel frente al récord previo, elevando también el promedio general Trabajo de nivel experto En evaluaciones internas, mostró un nivel de automatización lo bastante alto como para reemplazar investigaciones manuales de varias horas Como el rendimiento mejora cuanto más navega y reflexiona el modelo, es importante darle suficiente tiempo de cómputo Limitaciones Aún pueden producirse algunos errores de hechos o razonamientos incorrectos (hallucination) Tiene dificultades para distinguir entre rumores y fuentes de alta confiabilidad, y puede no expresar la incertidumbre con precisión En la etapa inicial del lanzamiento, los informes o el formato de las citas pueden no ser del todo fluidos, y en algunos casos el tiempo de ejecución puede alargarse Acceso y uso Actualmente, Deep Research se ofrece primero a usuarios Pro debido a su alto costo computacional, con un máximo de 100 usos al mes Pronto también se abrirá gradualmente para usuarios Plus y Team Hay planes de ampliar el soporte más adelante para usuarios del Reino Unido, Suiza y el Espacio Económico Europeo (EEA) En el futuro, una versión de modelo más pequeña, rápida y eficiente aumentará considerablemente el límite de solicitudes para todas las cuentas de pago Planes a futuro Por ahora, Deep Research está disponible en la versión web de ChatGPT y pronto llegará también a las apps móviles y de escritorio Más adelante, planean conectarlo también con datos por suscripción o recursos internos para ofrecer resultados aún más personalizados Se espera que, al combinar Deep Research con Operator, se pueda construir una experiencia de agente más avanzada capaz de ejecutar automáticamente tareas reales tanto offline como online

(openai.com)

13 puntos por xguru 2025-02-03 | 3 comentarios | Compartir por WhatsApp

OpenAI presentó en ChatGPT una nueva función de tipo agente llamada "Deep Research"
Su función es recopilar, analizar y sintetizar grandes volúmenes de información de internet para resolver automáticamente tareas complejas en cuestión de decenas de minutos
Como paso clave para alcanzar la AGI en el futuro, la capacidad de "síntesis de conocimiento" para crear nuevo conocimiento es indispensable

Por qué se creó Deep Research

Fue desarrollado para usuarios que necesitan resultados de investigación exhaustivos y confiables, desde trabajo de conocimiento altamente especializado (finanzas, ciencia, políticas públicas, ingeniería, etc.) hasta investigación para compras de bienes de consumo de gran escala
Puede encontrar y documentar rápidamente información de nicho poco visible o hechos no intuitivos a partir de diversas fuentes en línea
Busca automatizar investigación de nivel profesional para aumentar significativamente la productividad laboral

Cómo usar Deep Research

Seleccionar el modo Deep Research en el cuadro de entrada de mensajes de ChatGPT
Se pueden adjuntar archivos o hojas de cálculo junto con la solicitud (por ejemplo, análisis de competidores, recomendaciones de productos personalizadas, etc.)
Deep Research navega por internet entre 5 y hasta 30 minutos para elaborar un informe detallado
Durante el proceso, se puede seguir el progreso mediante una barra lateral que muestra resúmenes por etapas y fuentes de referencia
El resultado final se entrega en formato de informe con citas extensas, y más adelante también incluirá imágenes y visualizaciones de datos

Cómo funciona

Utiliza un modelo de nueva generación (basado en OpenAI o3) que amplía las capacidades de razonamiento de OpenAI o1 para abordar tareas complejas de navegación y análisis
Realiza por sí mismo planificación en múltiples etapas, recopilación de información e incorporación de retroalimentación intermedia
También puede acceder a archivos subidos por el usuario y realizar análisis como la creación de gráficos usando herramientas de Python
Cita fuentes a nivel de frases específicas para mejorar la precisión y la transparencia

Evaluación en Humanity’s Last Exam

En Humanity’s Last Exam, una evaluación amplia publicada recientemente, registró una tasa de respuestas correctas de 26.6%, mostrando un rendimiento sobresaliente frente a modelos anteriores
- Incluye más de 3,000 preguntas de nivel experto y abarca múltiples disciplinas académicas
Mostró grandes mejoras frente a modelos anteriores en química, humanidades y ciencias sociales, y matemáticas
Entre los modelos comparados estuvieron GPT-4o, Grok-2, Claude 3.5 Sonnet, Gemini Thinking y OpenAI o1, y el modelo de Deep Research obtuvo la mayor precisión con 26.6%
- GPT-4o obtuvo alrededor de 3.3%, Claude 3.5 Sonnet 4.3% y OpenAI o1 9.1%

Benchmark GAIA

GAIA es una métrica que evalúa preguntas del mundo real que exigen navegación web, procesamiento multimodal y uso de herramientas
El modelo de Deep Research superó el mejor resultado previo en ese benchmark
Los problemas de GAIA están divididos en niveles de dificultad del 1 al 3, y Deep Research mostró puntajes superiores al récord anterior en todos los niveles
En concreto, mostró una mejora aproximada de entre 6% y 8% en cada nivel frente al récord previo, elevando también el promedio general

Trabajo de nivel experto

En evaluaciones internas, mostró un nivel de automatización lo bastante alto como para reemplazar investigaciones manuales de varias horas
Como el rendimiento mejora cuanto más navega y reflexiona el modelo, es importante darle suficiente tiempo de cómputo

Limitaciones

Aún pueden producirse algunos errores de hechos o razonamientos incorrectos (hallucination)
Tiene dificultades para distinguir entre rumores y fuentes de alta confiabilidad, y puede no expresar la incertidumbre con precisión
En la etapa inicial del lanzamiento, los informes o el formato de las citas pueden no ser del todo fluidos, y en algunos casos el tiempo de ejecución puede alargarse

Acceso y uso

Actualmente, Deep Research se ofrece primero a usuarios Pro debido a su alto costo computacional, con un máximo de 100 usos al mes
Pronto también se abrirá gradualmente para usuarios Plus y Team
Hay planes de ampliar el soporte más adelante para usuarios del Reino Unido, Suiza y el Espacio Económico Europeo (EEA)
En el futuro, una versión de modelo más pequeña, rápida y eficiente aumentará considerablemente el límite de solicitudes para todas las cuentas de pago

Planes a futuro

Por ahora, Deep Research está disponible en la versión web de ChatGPT y pronto llegará también a las apps móviles y de escritorio
Más adelante, planean conectarlo también con datos por suscripción o recursos internos para ofrecer resultados aún más personalizados
Se espera que, al combinar Deep Research con Operator, se pueda construir una experiencia de agente más avanzada capaz de ejecutar automáticamente tareas reales tanto offline como online

3 comentarios

xguru 2025-02-09

Informes reales elaborados con DeepResearch

GN⁺ 2025-02-04

Opiniones en Hacker News

Un usuario mencionó que intentó generar un informe sobre sí mismo, pero encontró varios errores. Por ejemplo, identificó mal su reputación en Stack Overflow y también tomó una cita de una entrevista de la persona equivocada.
Otro usuario señaló que los modelos de lenguaje no logran dar respuestas completamente precisas alrededor del 10% de las veces, y que eso puede reducir la confianza. También destacó que el tiempo que toma verificar la exactitud de las respuestas es un factor importante.
Un usuario comentó que se parece a un proyecto reciente de generación de informes lanzado por Standard.
Se mencionó que Gemini ya ofrece esta función desde hace varios meses con el nombre "Deep Research". También se planteó la duda sobre la duplicación de nombres en el mundo de la IA.
Un usuario advirtió que, incluso reconociendo los errores y las alucinaciones, mucha gente los pasará por alto e insertará los resultados en su PowerPoint. Advirtió que, mientras más poderosas se vuelvan estas herramientas, más grave será la distorsión de la información.
Se mencionó que el modelo o3 aún no lanzado impulsa esta función, y que es un modelo bastante impresionante. Se destacó que es un modelo líder frente a Google, DeepSeek y Perplexity.
Se comentó que es una herramienta interesante para quienes trabajan en el ámbito académico, y que les gustaría probarla, pero que el costo resulta una carga. También se pidió que alguien la probara con prompts específicos.
Se planteó la duda sobre esta capacidad como prerrequisito para la AGI y la ASI. También se expresó escepticismo sobre la importancia de la investigación y preocupación por depender de respuestas en lugar de resultados de ejecución.
Se mencionó que en pruebas internas solo alcanzó una tasa de aprobación del 20%, y se señaló que toma mucho tiempo revisar grandes cantidades de texto impreciso. Se argumentó que hace falta un proceso más iterativo.
Se planteó la duda de si los expertos famosos o las personas que buscan visibilidad seguirán escribiendo en blogs. También hubo preocupación por un escenario en el que todos los lectores terminen siendo bots.

devil1032 2025-02-03

Lo estoy esperando con muchísimas ganas... No puedo creer que esto no fuera el one more thing..
¿Será que el tema de DeepSeek queda enterrado con esto?