Lanzamiento de la API de búsqueda web de Ollama

(ollama.com)

13 puntos por GN⁺ 2025-09-29 | 3 comentarios | Compartir por WhatsApp

Ollama lanzó una API con la función de búsqueda de información web actualizada, que ayuda a reducir las alucinaciones del modelo y a mejorar la precisión
Incluso las cuentas gratuitas incluyen una generosa cuota gratuita de búsquedas, y los usuarios de alta frecuencia pueden acceder a límites más altos mediante Ollama Cloud
Basada en REST API, se integra con bibliotecas de Python y JavaScript, lo que permite que modelos como OpenAI gpt-oss realicen tareas de investigación de larga duración
Con las funciones web_search y web_fetch, devuelve resultados de miles de tokens y ofrece integración con diversas herramientas como Cline, Codex y Goose mediante servidores MCP
Esto permite crear directamente agentes de búsqueda, ampliando enormemente la versatilidad con la que los modelos de IA pueden interactuar con datos actualizados

Introducción a la función de búsqueda web de Ollama

Ollama publicó su API de búsqueda web, ofreciendo un entorno en el que los modelos de IA pueden recibir de inmediato información actualizada de la web
Gracias a esto, se puede esperar una reducción de las alucinaciones (hallucination) junto con una mejora de la precisión
Para los usuarios individuales, ofrece una cuota gratuita de búsquedas bastante amplia, y si se necesita un mayor volumen de uso, la cuota puede ampliarse mediante una suscripción a Ollama Cloud
Se ofrece como REST API y permite una integración avanzada de herramientas mediante bibliotecas de Python y JavaScript
Gracias a esta estructura, varios modelos como gpt-oss pueden llevar a cabo investigación y búsquedas de largo plazo

Ejemplos de uso de la API

Con una API key emitida desde una cuenta de Ollama, se pueden hacer llamadas con cURL, con ollama.web_search() en Python y con client.webSearch() en JavaScript
Los resultados se devuelven en una estructura JSON que incluye título, URL y resumen del contenido
Al usar la API web_fetch, también es posible obtener el contenido de una página por URL, incluyendo texto principal y lista de enlaces

Implementación de un agente de búsqueda basado en web

La API de Ollama puede combinarse con modelos como Qwen3 y gpt-oss para desarrollar un agente de búsqueda multi-turno automatizado
En el código de ejemplo, se usa el modelo Qwen3:4B para automatizar el proceso de búsqueda → razonamiento → resumen de resultados
Con base en los resultados de búsqueda, pasa por un proceso de "Thinking" y reutiliza repetidamente los resultados de llamadas a herramientas de búsqueda/fetch para ejecutar escenarios complejos de investigación o exploración
La nueva actualización del motor de Ollama incluye gestión precisa de memoria, optimización para GPU/multi-GPU, mejoras de rendimiento y soporte completo para modelos de visión (multimodal)

Modelos recomendados y guía de rendimiento

Se recomiendan modelos en la nube con gran capacidad de uso de herramientas (por ejemplo, qwen3:480b-cloud, gpt-oss:120b-cloud, deepseek-v3.1-cloud)
Dado que las herramientas de búsqueda y fetch pueden devolver datos de miles de tokens, se recomienda ampliar la longitud de contexto del modelo a alrededor de 32000 tokens

Función de fetch de páginas web individuales

Además de la búsqueda web, también se ofrece una API/función para extraer directamente el texto y la estructura de enlaces de una página web específica
Con Python, JavaScript o cURL, basta con pasar url como argumento para extraer title, content, enlaces conectados y más de la página
Se pueden consultar ejemplos de código más detallados en el repositorio oficial de GitHub

Integración de herramientas y agentes

web_search y web_fetch devuelven miles de tokens de datos, por lo que se recomienda aumentar el contexto del modelo a 32K o más
Con soporte para servidores MCP, es posible una integración directa con entornos de desarrollo de IA como Cline, Codex y Goose
El repositorio oficial de GitHub incluye ejemplos de código en Python y JavaScript

Cómo empezar

La búsqueda web viene incluida de forma predeterminada con una cuenta gratuita de Ollama, y para un mayor volumen de uso se puede acceder mediante una suscripción de pago
Puedes crear una cuenta en el sitio web de Ollama, obtener una API key y empezar a usar el servicio de inmediato

3 comentarios

shakespeares 2025-10-06

Parece que la versión gratuita de ollama no va a estar a un nivel utilizable para uso real..

slowandsnow 2025-09-30

Ni en la página de precios explican las cuotas, así que no me queda claro si realmente vale la pena.

GN⁺ 2025-09-29

Opiniones en Hacker News

Me da curiosidad saber qué motor de búsqueda usan internamente, incluso les pregunté por Twitter https://twitter.com/simonw/status/1971210260015919488. La parte especialmente importante es la licencia de los resultados de búsqueda. Si se pueden almacenar o redistribuir, porque las reglas varían según el proveedor
- Trabajamos con proveedores de búsqueda y garantizamos un entorno con política de retención de datos nula. Los resultados de búsqueda pertenecen al usuario y pueden usarse libremente. Eso sí, siempre hay que cumplir con las leyes locales
- Si dices que es para entrenar modelos de IA, entonces puedes usarlo como quieras
- Si los resultados de búsqueda son solo una lista de enlaces, me pregunto si siquiera aplica el copyright como tal
- Me parece raro que hayan lanzado esto sin siquiera una política de privacidad. Me pregunto si quizá lo estén usando como caso de colaboración o historia de cliente para algún socio de VC que haya invertido recientemente. Apostaría por Exa; YC los apoyó al inicio y levantaron $85M en Series B. Bing sería demasiado caro para operarlo libremente sin alguna alianza con Microsoft. Ojalá Ollama actualice pronto su aviso de privacidad. Como su sede está en CA, entra en el alcance de la CCPA; incluso sin ingresos, aplica si solo manejan datos de 50 mil residentes de California https://oag.ca.gov/privacy/ccpa. Si al final se revela que el proveedor backend sin retención de datos es Alibaba, me da curiosidad ver la reacción
Me preguntaba si Ollama era una empresa, ni siquiera sabía que había recibido inversión. Pensaba que era una utilidad open source. Me pregunto cómo planean monetizar a los usuarios en adelante; no me entusiasma mucho
- Casi no salen proyectos completamente open source últimamente; la mayoría usan modelo de donaciones o patrocinio empresarial, y en IA me parece todavía más raro
- Ollama está siendo manejado por ex empleados de Docker, al estilo Docker
- Hace poco lanzaron una plataforma de hosting
- Hasta ver tu respuesta, pensé que este post era sobre OpenAI
Ojalá hubiera más información detallada sobre cómo está implementado Ollama; lo veía como una herramienta open source e independiente de la plataforma, pero últimamente siento que el ambiente va por otro lado y eso me hace dudar
- Consideramos agregarle a Ollama una función para traer resultados de búsqueda y contenido de sitios web usando un navegador headless y cosas así, pero nos preocupaba la calidad de los resultados y el bloqueo por IPs (podría parecer un crawler). Nos pareció que introducir una API hospedada era la vía más rápida para ofrecer resultados, pero seguimos explorando opciones locales. Idealmente, si el usuario quiere, estaría bueno poder usar este tipo de búsqueda en un entorno totalmente local
- La GUI no es open source. Si quieres una app fácil de usar, quizá sea mejor LMStudio (porque no finge ser OSS), y ramalama también se parece a ollama en eso de contenerizar LLMs. O también puedes volver a los “fundamentos” con algo como llama.cpp o vllm
- Siento que la forma en que opera Ollama cada vez va peor; le perdí la confianza y lo borré de todos mis sistemas
Siento que Ollama va cada vez más en dirección no local (non-local) y además rinde peor que vLLM. Quiero montar algo como open-webui mediante una API compatible con OpenAI para crear un entorno donde el usuario pueda elegir entre varios LLM, y me pregunto qué alternativa a Ollama serviría bien para aprovechar varias RTX 3090 (entre 1 y 5)
- He escuchado hablar de Llamaswap o vllm
No sabía que Ollama tenía su propio servicio en la nube. ¿No se suponía que la idea original de Ollama era usar modelos locales? No entiendo por qué pagaría $20 al mes para usar modelos más pequeños y de menor rendimiento. ¿No sería mejor usar empresas de IA como OpenAI o Mistral? Tampoco le veo sentido a tener que crear una cuenta para usar modelos en mi propia computadora
- Buena pregunta. Entre los modelos compatibles, también hay muchos demasiado grandes para correr en el dispositivo. Esto apenas está empezando y, gracias a las relaciones que tenemos con proveedores de modelos, Ollama también puede incorporar modelos modernos basados en la nube. Ollama trabaja junto a los desarrolladores y busca resolver sus necesidades https://ollama.com/cloud
- La razón para crear una cuenta es usar sus modelos hospedados o aprovechar modelos localmente a través de la API de Ollama. Ahora mismo estoy pagando $100 por Claude y $200 por GPT-5, así que $20 realmente es barato por lo que ofrece usar modelos como Qwen3 235b, Deepseek 3.1 671b, Llama 3.1 405b, GPT OSS 120b, que para nada son modelos “pequeños o de bajo rendimiento”. También está muy bueno poder conectar Codex a la API de Ollama para usar herramientas con varios modelos
- Lo veo como parte de una transición constante hacia funciones que sí se pueden monetizar. Construyen confianza y marca con open source y trabajo gratuito, y luego cambian a monetización
- También hay modelos que no se pueden correr localmente (gpt-oss-120b, deepseek, qwen3-coder 480b, etc.). Es una forma de monetizar el éxito de Ollama
- Incluso muchos modelos “locales” tienen descargas enormes y van lentos en hardware común. La ventaja es que puedes evaluarlos primero de forma barata en la nube y luego decidir si quieres descargarlos y correrlos localmente. Lo importante es el principio mismo de que realmente puedas ejecutar algo en local. No me gusta depender de tecnología que alguien pueda retirarte o bloquearte fácilmente
Esto ya es un poco otro tema, pero he pensado en montar un “mini Google” en casa para uso personal. Siento que, cuando realmente necesito buscar, casi siempre me basta con un conjunto de unas 1,000 páginas web. Rastrear toda la web sería excesivo para mí. El diseño general sería algo como crawler (scraper ligero), indexador (conversión a texto e índice invertido), almacenamiento (HTML y texto comprimidos), capa de búsqueda (scoring con TF-IDF o embeddings), actualizaciones periódicas y una web UI sencilla para navegar. Me pregunto si alguien ha usado proyectos reales o probado un reto parecido
- He revisado dumps de Common Crawl y el 99.99% de la web era publicidad, porno, spam, blogs sin sentido y cosas realmente inútiles. Claro, puede tener valor histórico, cultural o literario, pero para mi objetivo casi no sirve de nada. Eso me dio la confianza de que, si indexara selectivamente solo las “páginas web realmente importantes”, sería totalmente viable incluso a escala de mi laptop. Solo Wikipedia ya ronda los 20GB (comprimido), así que si extraigo solo los temas que de verdad me interesan, probablemente ni llegue a 200MB
- En YaCy (https://yacy.net) puedes hacer casi todo eso. Eso sí, si haces mucho crawling, Cloudflare puede bloquear tu IP bastante rápido
- También me gusta mucho https://marginalia-search.com
- Drew DeVault intentó hacer algo parecido hace tiempo con el nombre SearchHut, pero lo abandonó. Terminó rindiéndose al intentar entender la extensión RUM de Postgres enlace al hilo de HN donde se menciona SearchHut
- No es exactamente lo mismo, pero yo también uso Google CSE por dominio para limitar los resultados de búsqueda solo a sitios sobre temas que me interesan. Lo llamo con un atajo desde Alfred y así busco cómodamente al menos en mis áreas de interés https://blog.gingerbeardman.com/2021/04/20/interest-specific-search-engines/
Estaría bueno tener consejos sobre búsqueda local o empresarial. Estoy usando Ollama en local y también indexando mis propios documentos directamente. No me interesa hacer embeddings ni fine-tuning de los documentos, sino cómo integrar Ollama con un sistema tradicional de búsqueda full-text
- Recomiendo solr. Es una búsqueda full-text muy buena y además tiene integración con mcp, así que se puede usar fácilmente https://github.com/mjochum64/mcp-solr-search. Con un poco más de trabajo podrías vectorizar documentos y añadir búsqueda por similitud semántica basada en knn. Tener tanto búsqueda semántica como de texto mejora bastante la calidad. También podrías conectar chromadb con solr y fusionar resultados, aunque si la escala crece quizá chromadb termine siendo más eficiente
- docling también puede ser una buena alternativa, y motores de búsqueda full-text ya probados como Typesense también valen la pena considerarlos
Desde hace tiempo conecto funciones de búsqueda a LLMs usando el paquete de Python de DuckDuckGo. Pero como Google da mejores resultados, cambié a Google configurando algo en la consola de desarrollador (ya no recuerdo exactamente qué hice). Lo de DDG es no oficial y la API oficial de Google tiene límites de consulta (por eso no sirve tan bien para investigación profunda). Normalmente, si le paso a GPT algunos resultados de búsqueda y luego agrego mi pregunta, casi siempre da buenas respuestas. Claro que con Ollama también se puede usar esta estructura, pero como mi GPU no da para mucho, si el contexto es largo se vuelve lento
- Me pregunto cómo se puede aprovechar de forma útil sin una scraping API, porque las APIs oficiales son demasiado limitadas
Me confunde qué significa “cuenta de Ollama”; al principio entendía que la idea de Ollama era self-hostear modelos
- Para funciones adicionales o modelos en la nube hospedados por Ollama sí necesitas crear una cuenta. En esencia es totalmente opcional, y también puedes crear modelos por tu cuenta en local y compartirlos en ollama.com
Justo ahora yo también estoy conectando búsqueda web y creando herramientas mientras pruebo varios proveedores. openAI, xAI y gemini no se pueden usar en sitios de la competencia porque están bloqueados. En videos de YT esta búsqueda funcionó bien en pruebas simples y, a diferencia de OpenAI web search, sí se puede acceder. En X no funcionó muy bien, aunque a veces dio resultados decentes. No es perfecto, pero en promedio da resultados útiles