El razonamiento de GPT-5 (Research Goblin) es potente para la búsqueda
(simonwillison.net)- ChatGPT basado en GPT-5 (apodado Research Goblin) demuestra un nivel muy alto de precisión y utilidad en la búsqueda web
- Desde preguntas triviales comunes hasta investigaciones complejas, despliega una gran capacidad de exploración y razonamiento en una amplia variedad de temas
- En ejemplos reales, ofrece respuestas y materiales confiables mediante procesos de búsqueda extensos y razonamiento encadenado
- Incluso en entornos móviles, permite una excelente usabilidad y un flujo de trabajo continuo
- Gracias a la integración de tool calling y chain-of-thought, propone un nuevo estándar para la búsqueda basada en LLM desde la perspectiva de los desarrolladores
El razonamiento de GPT-5 (Research Goblin) y la innovación en búsqueda
Un paradigma de búsqueda en transformación
- Antes predominaba el consejo de “no usar un chatbot como motor de búsqueda”, pero con el ChatGPT basado en GPT-5 más reciente esa regla empieza a romperse
- Los modelos basados en GPT-5 van más allá de la simple integración con motores de búsqueda como Bing y han llegado a un nivel que en la práctica sustituye o supera la investigación en internet
- El apodo “Research Goblin” surgió porque, ante cualquier duda o tarea compleja, investiga con una insistencia casi anormal hasta encontrar la mejor respuesta posible
Casos reales de búsqueda y resultados
Travelators curiosos
- Ante la pregunta de cuándo se reemplazó por metal la cinta transportadora móvil de goma del aeropuerto de Heathrow, estimó que fue entre 2014 y 2018 y hasta encontró un interesante artículo relacionado de 2024
Identificación de edificios
- Al preguntarle por un edificio exótico visto desde la ventana de un tren, lo identificó correctamente como ‘The Blade (Reading)’ en 1 minuto y 4 segundos, además de aportar enlaces a las fuentes
Investigación sobre los cake pops de Starbucks UK
- Investigó a fondo por qué no hay cake pops en tiendas de Starbucks del Reino Unido y encontró que se introdujeron en 2023, pero no se venden en ciertas sucursales (sobre todo en ubicaciones de viaje)
- También reunió evidencia de respaldo, incluidos PDF de información nutricional y de alérgenos, además de discusiones en Reddit
La relación entre Wikipedia y Britannica
- Analizó en profundidad la veracidad y el contexto de comentarios en línea que afirmaban que Wikipedia usó parte de la Britannica de 1911 como fuente en sus datos iniciales, y rastreó documentación y explicaciones de proyectos relacionados
Nombre oficial de la University of Cambridge
- Presentó el nombre legal oficial de la Universidad de Cambridge (The Chancellor, Masters, and Scholars of the University of Cambridge) junto con materiales de respaldo
- Expuso el proceso de razonamiento de forma transparente, permitiendo verificar también la confiabilidad de la respuesta correcta
Historia de las cuevas y el restaurante en Exeter Quay
- Investigó la estructura interior de un restaurante excavado en el acantilado y su historia en la zona de Exeter Quay mediante múltiples etapas de búsqueda y análisis de PDF, y determinó que fue construido en un acantilado de arenisca roja en las décadas de 1820 y 1830
- Mostró un patrón de exploración activo al buscar informes y planos en inglés e incluso redactar un borrador de correo electrónico cuando no pudo llegar más lejos
Comparación entre Aldi y Lidl
- Analizó extensamente la presencia de Aldi y Lidl en el Reino Unido, sus imágenes de marca y su ranking de mercado, incluyendo cifras sobre cuota de mercado y evaluaciones de consumidores
- A petición del usuario, también reorganizó el ranking según el criterio de “fanciness” (sofisticación)
Escaneo de libros por laboratorios de IA
- Además del caso de Anthropic escaneando grandes cantidades de libros para crear datos de entrenamiento, no pudo confirmar si otros laboratorios de IA hicieron algo similar, aunque dejó registrado con detalle el proceso de exploración de esa posibilidad
La superioridad práctica de la búsqueda con GPT-5
- En la búsqueda de ChatGPT basada en GPT-5, es posible recopilar y evaluar información de manera más rápida, sistemática y amplia que con trabajo manual
- En particular, la usabilidad en entornos móviles ha mejorado mucho, lo que permite satisfacer curiosidades habituales o realizar investigaciones cotidianas en cualquier momento y lugar
- Tiene la capacidad de ofrecer resultados rápidos pero ricos en contenido, hasta el punto de poder sustituir la función Deep Research de OpenAI
Lo que significa desde la perspectiva del desarrollo de LLM
- Gracias a la combinación de tool calling y chain-of-thought, la búsqueda y el razonamiento secuencial o la exploración adicional se encadenan de forma natural dentro de una sola etapa de “pensamiento”
- La tecnología RAG (búsqueda y generación combinadas) también puede operar de forma mucho más potente mediante llamadas flexibles a herramientas en múltiples pasos y una integración de búsqueda más avanzada
- En la terminología de Anthropic, esto se llama interleaved thinking, y el API de Responses de OpenAI también admite un flujo similar
Consejos para aprovechar la búsqueda de forma efectiva
- Es posible mejorar la calidad de la búsqueda mediante intuición empírica (usar pistas como “go deep” puede inducir una investigación más minuciosa)
- Incluso en preguntas interpretativas donde no existe una respuesta clara, puede producir resultados útiles e interesantes
- Como sugiere la metáfora del “goblin”, Research Goblin es una IA de búsqueda trabajadora pero no totalmente confiable, distinta de un ser humano, y por eso tiene un alto valor práctico
1 comentarios
Opiniones de Hacker News
Estoy de acuerdo con el texto de Simon, pero creo que “investigación” significa comparar distintas formas de evidencia. Por ejemplo, se puede aplicar a muchos campos: el efecto de Obamacare, la predicción de fallos judiciales, el análisis de la influencia de la animación, o cómo aprovechar librerías de código abierto. ChatGPT y otros LLM tienen dificultades para evaluar la evidencia o entender el sesgo de las fuentes, y especialmente cuando manejan muchas estadísticas, mientras más razonamiento “plausible” producen, más alucinaciones aparecen. Los modelos tienden a querer respaldar el punto de vista del usuario, así que intentan responder de forma positiva incluso cuando no se les pide. Yo siempre le pido a ChatGPT que evalúe directamente las fuentes, que compare argumentos a favor y en contra, y a veces le planteo contraargumentos al modelo para ver cómo reacciona. Pueden ver una experiencia más detallada en este blog
Intenté usar Perplexity para encontrar la configuración óptima de mi monitor, y me dio una lista concisa de ajustes junto con sus razones. Pero al revisar las fuentes, no había información oficial ni evidencia sólida, solo publicaciones en foros de Samsung donde usuarios especulaban o debatían. Estaría bien contar con un confidence rating según la confiabilidad de la fuente, aunque eso parece realmente difícil de implementar
ChatGPT y los LLM suelen repetir “sentido común” superficial. Después de varias preguntas de seguimiento, les pido qué evidencia real respalda eso, cuáles son las fuentes, que me den la información citada, y vuelvo a confirmar que no sea una alucinación. Bastante seguido se descubre que la primera respuesta estaba completamente equivocada. Supongo que la mayoría de la gente simplemente aceptará esa primera respuesta
Por ejemplo, cuando intento tomar una decisión de compra bien investigada, siento que es realmente difícil porque la mayoría son opiniones de marketing, y las señales contrarias —como comentarios negativos en Reddit o en YouTube— no quedan suficientemente compensadas
GPT-5 (incluyendo el modelo o3) es uno de los LLM con la mirada más crítica. Para solicitudes académicas o técnicas, puede citar fuentes de información y comparar resultados alternativos incluso sin un prompt especial. La primera versión de Grok 4 simplemente resumía artículos sin analizarlos, y Claude Opus 4 también se desvió del punto, por ejemplo devolviendo documentos centrados en popularidad de uso cuando se le pidió una lista de librerías JS. GPT-5, claro, no es perfecto, pero es mejor que el humano promedio
Quisiera preguntar qué opinan sobre usar la palabra “investigación” para describir un conjunto de funciones en un LLM. Me pregunto si realmente representa lo que es investigar, o si está más cerca del nivel del modismo “do your research” tan usado en época de elecciones en EE. UU.
Sigo pensando que la búsqueda de Google (sobre todo con
udm=14para desactivar los resúmenes con IA) sigue siendo una experiencia bastante buena. Por ejemplo, para preguntas sobre Britannica y Wikipedia podía obtener resultados en Google y Wikipedia respectivamente en 1 o 2 segundos, y en unos 60 segundos encontrar directamente lo que quería. En cambio, ChatGPT tarda unos 3 minutos por procesamiento, y además yo mismo tengo que revisar los resultados y verificar si hay alucinaciones. Al final, es impresionante que un LLM pueda hacer la tarea X, pero siento que buscar por mi cuenta y luego resumirlo yo mismo es mucho más eficienteMi opinión es un poco distinta con base en experiencias recientes. Si no desactivas los resúmenes con IA de Google, la experiencia sí empeora bastante. Por ejemplo, cuando busqué un repo de GitHub, Google no encontró la página real y solo me dio enlaces equivocados. GPT tarda más, pero según el alcance de la investigación siento que tiene ventajas. En temas profundos como el movimiento de unidades en StarCraft2, fue cómodo poder pedirle a GPT de una sola vez el resumen, la explicación y hasta el código fuente relacionado. Y yo mismo puedo filtrar bastante bien los errores. En el futuro, creo que toda navegación por internet vendrá con asistencia basada en LLM
Busqué "Rubber bouncy at Heathrow removal" en Google y me salieron 3 enlaces; en cambio, ChatGPT pareció tener algunas alucinaciones al presentar evidencia. También con búsquedas por imagen inversa o precios de vasos pop de Starbucks, siento que buscar directamente funciona mejor. Aun así, la gente prefiere ChatGPT por la comodidad de recibir la información web en una sola respuesta. Aunque a veces haya alucinaciones, la tendencia es aceptar ese costo. Así como antes se confiaba más en la biblioteca que en Wikipedia, también podría darse un cambio de paradigma con la evolución de los LLM
Mi sugerencia es que, cuando hagan experimentos con Google, prueben con los ejemplos más difíciles de responder
Hice una pregunta sencilla en modo GPT-5 Auto y empezó a responder en 2 segundos, con 2 enlaces correctos y a una velocidad fácil de leer. En modo Think tardó unos 2 minutos, pero comparó varias fuentes y agregó respaldo a todos los resúmenes. Lo estoy usando bastante bien para información difícil de encontrar de gobiernos locales y para análisis complejos de PRs de código abierto. Se siente realmente útil porque me ahorra el trabajo de leer muchas propuestas por mi cuenta
Si la gente deja de visitar la web directamente y solo interactúa con agentes, me pregunto cómo cambiará la web. Se vienen tiempos interesantes
Antes usaba mucho el subreddit "Tip of My Tongue" para encontrar información antigua que recordaba vagamente, aunque no todo se resolvía. Con la función Deep Research resolví en una hora 4 casos que no habían podido resolverse, y en el quinto al menos encontré una pista por mi cuenta. Aunque le falte algo de razonamiento lógico, es realmente potente por su capacidad de digerir rápido decenas de resultados de búsqueda y extraer información relevante incluso a partir de descripciones vagas. Ahora puedo acceder a ese poder de búsqueda en minutos, sin preocuparme por los bots de spam de Reddit o usuarios que no siguen las reglas
Yo también creo que ChatGPT es excelente para investigar, pero a veces presenta casos patológicos de respuestas superficiales y potencialmente erróneas. Incluso cuando existen fuentes primarias objetivas en línea, puede equivocarse, así que comparto este blog relacionado
Creo que el caso que describes en realidad es distinto. Siento que tu opinión difiere de los papers, y que al organizarlo en un blog, esperas que ChatGPT acepte tu punto de vista. Parece haber límites para una evaluación objetiva
Últimamente siento que ChatGPT se volvió inestable. En más de la mitad de las respuestas inventa fundamentos, olvida el contexto o simplemente se equivoca. En Aistudio, incluso pasando 300 mil tokens, Gemini/Aistudio mantiene muy bien el contexto, mientras que ChatGPT se siente débil cuando hay mucha información
Yo también he tenido muchas experiencias parecidas. Si lo cambio a GPT5 Thinking mejora un poco, pero comparado con o3 u o1, parece tener tendencia a dejar escapar cosas. Por ejemplo, le pregunté a GPT5 sobre el episodio de las aguas termales en la novela de Bocchan, y dio una explicación sutilmente equivocada. En la novela real, el protagonista nada en las aguas termales y luego pasa vergüenza por un letrero de prohibición, pero GPT5 se concentró solo en explicar la regla
Me parece que tu texto es interesante y adecuado para debatir. Honestamente, creo que GPT podría haber dado una mejor respuesta, pero también tiene sentido discutir en qué punto conviene detener la investigación. Normalmente, si se aceptan incluso las fuentes menos confiables, la discusión nunca termina. Al final, me parece un trade-off razonable detenerse en la conclusión más ampliamente consensuada
Siento que los viejos modelos “heavy” tenían conocimiento enciclopédico incorporado, mientras que los modelos “lighter” recientes dependen de la búsqueda web y solo entregan información superficial. Extraño la fortaleza de un modelo que recordaba muchísimos documentos offline
Yo siento exactamente lo contrario. El conocimiento interno del modelo puede ser una alucinación, así que siempre requiere investigación de verificación aparte. En cambio, si el LLM ya hace la búsqueda y el resumen, solo tengo que revisar las fuentes, lo cual es mucho más cómodo. Kagi Assistant hace bien ese papel
Durante mucho tiempo lo usé con la búsqueda desactivada, pero recientemente agregué en mis instrucciones personalizadas modos para usar búsqueda web o conocimiento interno. Si escribo
xz, usa búsqueda web; si escriboxx, solo usa conocimiento interno. Es una configuración que puedo cambiar libremente dentro de la sesiónLos modelos sin búsqueda son pesados, y los basados en búsqueda son ligeros pero dependen de datos reales recientes. He ido alternando entre ambos, pero últimamente prefiero más los modelos ligeros basados en fuentes
El conocimiento real está almacenado afuera. Por eso las bibliotecas son tan importantes en las universidades. Los agentes tampoco pueden depender solo de la memoria
Yo también siento algo de eso. Sería interesante que un modelo ligero con búsqueda web ofreciera una vista que distinguiera, por página, la información ya mencionada de la información nueva, así como la evidencia alegada en cada página y las discrepancias entre ellas
Me parece extraño que el autor procese una “cantidad irracional de trabajo” para encontrar respuestas en internet, y que además lo celebre como si nada pese al desperdicio de recursos computacionales. Me pregunto si realmente ese es el objetivo, y si se justifica una “wild goose chase” que consume recursos enormes solo para encontrar la respuesta correcta a toda costa
ChatGPT es realmente impresionante, pero creo que los profesores de secundaria o universitarios la van a pasar mal por el uso de estas herramientas. Por ejemplo, si se deja una tarea como “investiga a fondo toda la evidencia posible de que El Señor de los Anillos fue influenciado por Gormenghast”, los estudiantes van a usar automáticamente deep research ejemplo compartido
Me pregunto si verificaste los hechos directamente, si hiciste clic en todos los enlaces y revisaste las fuentes. A mí también me pasó antes que ChatGPT presumiera haber “resuelto” algo, pero en realidad era información de Wikipedia y estaba equivocada
La mayoría de los estudiantes que hacen trampa en la escuela son flojos y no les importa el rango o prestigio, así que no les interesan tareas de alta calidad. No hay razón para que usen un modo Thinking que tarda tanto
Me dio risa que la respuesta de ChatGPT usara un neologismo como ‘steel-man’
En un taller para docentes se me ocurrió la idea de enseñar el método socrático de preguntas y ayudar a los chicos a argumentar por sí mismos la información que obtienen de Google/ChatGPT. Sería un enfoque donde expresan directamente el conocimiento ampliado por investigación con LLM y organizan su nivel actual de entendimiento
Incluso cuando son preguntas que Brave search puede resolver en segundos, los LLM a veces tardan sorprendentemente mucho
Me gusta Brave, pero no me convencieron mucho sus resultados de búsqueda. La función de IA está bien, pero casi no me da los resultados reales que quiero
Hoy en día hay tantos sitios de baja calidad optimizados para SEO que me cuesta aceptar esto tan fácilmente
Con Chat+Search tienes la ventaja de obtener una respuesta directa sin preocuparte por anuncios, clics, content farms o malware
Me confunde cuál de las funciones de ChatGPT es esta: “Web Search”, “Deep Research” o “Agent Mode”. La combinación de funciones está curiosa
No es Deep Search ni Agent Mode. Yo selecciono “GPT-5 Thinking” y solo activo la herramienta de búsqueda normal
En mi experiencia, el resultado se parece más a “buscar en Reddit y ponerle comentarios encima”
No olviden “ChatGPT 5 Pro”. Es un poco distinto de Deep Research
Yo diría que es simplemente el modo por defecto. Incluso sin activar explícitamente la opción de búsqueda web, hace búsquedas automáticas. Me pregunto por qué existe una opción separada
Mi impresión es que al menos es el modo ChatGPT 5 Thinking con búsqueda web activada a nivel de perfil. Cuando hay solicitudes de información reciente o de investigación, ChatGPT tiende a pensar más a fondo mientras investiga
Tenía curiosidad por los ingresos de un podcast que escucho. Lo empezaron dos comediantes de Phoenix sin seguidores y ahora están en los primeros puestos del ranking de Apple. Antes, aunque intentaba averiguarlo, no había una respuesta clara; pero GPT-5 hizo una cantidad “forzada” de investigación, cruzó múltiples fuentes y me dio incluso un rango confiable
Entonces me da curiosidad de cuánto era ese rango
Últimamente GPT también parece dar respuestas más verbosas. Google Gemini a veces suelta papers inútiles, y ChatGPT también está tendiendo a entregar reportes largos más que respuestas informativas. Probablemente porque la gente confía más en este tipo de respuestas extensas en formato informe. Además, aunque aparezcan fundamentos o cifras detalladas, hay respuestas fáciles de verificar y otras que no. Me preocupa que, si uso mucho los LLM, mis habilidades de investigación se deterioren. Y otra cosa que noté al experimentar con MCP es que consume una cantidad absurda de recursos. Estas investigaciones profundas parecen algo que OpenAI ofrece barato absorbiendo pérdidas, así que si más adelante suben mucho los precios, la dependencia misma podría volverse riesgosa