El hombre que opera un servicio para competir con Google desde su lavandería gracias a la IA
(fastcompany.com)- Un proyecto DIY que montó un motor de búsqueda llamado Searcha Page/Seek Ninja en un servidor personal instalado en la lavandería, ofreciendo una experiencia comparable a Google
- Parte de un índice de unos 2 mil millones de páginas y apunta a 4 mil millones de documentos en medio año, combinando métodos de indexación tradicionales con expansión de palabras clave y comprensión contextual basadas en LLM
- Invirtió un total de 5 mil dólares en un equipo armado con piezas de servidor usadas, de nivel AMD EPYC 7532 (32 núcleos) y 0.5 TB de RAM, reduciendo costos con una estrategia de arbitraje de actualizaciones (upgrade arbitrage)
- Minimiza la dependencia de la nube, pero usa Llama 3 de SambaNova para la inferencia con LLM; Seek Ninja es una versión orientada a la privacidad que no guarda perfiles ni usa la ubicación
- La adopción de IA permitió escalar a bajo costo, y su base de código de 150 mil líneas aceleró el desarrollo iterativo con ayuda de LLM, haciendo posible que una sola persona construyera un sistema de gran escala
- Aunque es una configuración personal y de bajo costo, logró buena precisión y velocidad en búsquedas locales; además, considera una migración a colocation si aumenta el tráfico, mostrando la posibilidad experimental de una búsqueda alternativa
Contexto: una experiencia de búsqueda “casi como Google” con hardware pequeño
- En contraste con la historia de Google, que comenzó en Stanford con servidores en una carcasa hecha con piezas de Duplo, este caso muestra que incluso con un servidor antiguo se puede acercar una experiencia de búsqueda moderna
- Hace 30 años, Google comenzó como Backrub en el campus de Stanford y usó un servidor experimental con 40 GB de datos en una carcasa hecha con bloques Duplo
- Luego se actualizó a un pequeño rack de servidores gracias a donaciones de IBM e Intel, pero para 2025 la Búsqueda de Google ya creció a una escala que ni siquiera cabe en un solo centro de datos
- Searcha Page de Ryan Pearce implementa una experiencia de búsqueda moderna con una máquina del tamaño de los servidores originales de Google
- El servidor está instalado junto a la lavadora y la secadora, adonde fue trasladado desde el dormitorio para aliviar problemas de calor y ruido
- Aun con las limitaciones de una lavandería, la calidad real de los resultados de búsqueda se evalúa como sensiblemente cercana a un nivel de primer nivel
- El tamaño del índice es actualmente de unos 2 mil millones de documentos y se proyecta que llegue a 4 mil millones en 6 meses
- Indicadores de comparación: Google tenía 24 millones de páginas en 1998 y 400 mil millones de páginas en 2020
- La escala absoluta es menor, pero para un servidor único autoalojado sigue siendo una magnitud muy grande
Tecnología clave: indexación tradicional + apoyo de LLM
- La arquitectura general sigue una configuración tradicional de motor de búsqueda, pero con un diseño híbrido donde un LLM ayuda con la expansión de palabras clave y la interpretación del contexto
- Recupera la historia de cómo los grandes motores de búsqueda ya habían integrado IA con sistemas como RankBrain, y subraya que, más allá del rechazo a los LLM, la IA ya era un elemento central en la búsqueda
- El LLM se usa como herramienta práctica para construcción de datasets y contextualización, aumentando la velocidad de desarrollo y la escalabilidad
- El operador primero implementaba funciones con LLM y luego las reemplazaba por lógica tradicional en un ciclo de desarrollo iterativo, hasta hacer crecer la base de código a unas 150 mil líneas
- Si se incluye el desarrollo iterativo, estima que la carga real equivale a unas 500 mil líneas de trabajo
Infraestructura: indexación autosuficiente y el “arbitraje de actualizaciones” con servidores usados
- El equipo es un servidor usado basado en AMD EPYC 7532 (32 núcleos), aprovechando al máximo la caída de precio de un CPU que al lanzarse costaba más de 3 mil dólares y que hoy se vende por menos de 200 dólares
- El costo total de la construcción ronda los 5 mil dólares, de los cuales unos 3 mil dólares se destinaron al almacenamiento
- Con una configuración de 0.5 TB de RAM, entre otros recursos, aseguró capacidad para manejar cientos de sesiones concurrentes
- Mantiene una línea de autoalojamiento (self-hosting) y minimiza el uso de la nube, aunque para la inferencia con LLM recurre a SambaNova (Llama 3) por su bajo costo y alta velocidad
- Usa corpus web públicos como Common Crawl para acelerar el crawler y el indexador, y planea reducir esa dependencia a largo plazo
Producto: Searcha Page y Seek Ninja
- Searcha Page: una UX SERP tradicional similar a la de Google, con resultados útiles también en búsquedas locales
- Se menciona una configuración que refuerza la explicación de relevancia entre consulta y documento mediante resúmenes generados por LLM en lugar de metadescripciones
- Seek Ninja: una variante de privacidad primero que no guarda perfiles ni usa la ubicación
- Un enfoque ligero y minimalista adecuado para usarse como alternativa al modo incógnito
- Para monetizar, está probando publicidad de afiliados moderada en vez de banners excesivos, y planea migrar a colocation cuando aumente el tráfico
Caso comparable: el enfoque en nube y vectores de Wilson Lin
- Como otro experimento individual contemporáneo, Wilson Lin persigue una operación de costo ultrabajo combinando una estrategia cloud-native con su propio motor vectorial (CoreNN)
- Genera un resumen con LLM para cada documento, representando de otra forma el emparejamiento entre consulta y documento
- Comparte la percepción de que la barrera mayor no es la tecnología, sino el mercado y los canales
- Pearce intentó en algún momento usar una base de datos vectorial, pero volvió a métodos tradicionales desde la perspectiva de la precisión del ranking, ya que los resultados le parecían demasiado ambiguos y “artísticos”
Problemas operativos: calor, ruido y las limitaciones físicas de una lavandería
- El servidor provocaba problemas de convivencia por el calor cuando estaba en el dormitorio, así que fue trasladado al cuarto de servicio, asegurando la conectividad con perforaciones para cables y otras adaptaciones
- Si la puerta permanece cerrada demasiado tiempo, la acumulación de calor puede convertirse en un problema, por lo que la ventilación es un factor importante
- Aunque tiene una postura escéptica frente a la nube, está considerando una migración a colocation en centro de datos según ciertos disparadores, teniendo en cuenta los límites de LLM y tráfico
Significado: el experimento de una sola persona para perseguir a Google y el papel realista de los LLM
- Contrario a la idea común de que los LLM son una herramienta que arruina la calidad de la búsqueda, aquí aparecen como un acelerador de desarrollo y escala que da a una persona la capacidad de construir un motor de búsqueda
- La combinación de indexación tradicional + apoyo de LLM es un compromiso práctico que busca a la vez precisión y capacidad explicativa
- La combinación de servidores usados de bajo costo + corpus públicos + APIs baratas de LLM demuestra que se puede intentar una búsqueda alternativa sin los recursos masivos de las big tech
- Aunque siguen quedando retos como la expansión a otros idiomas, el costo del crawling continuo y la resistencia al spam, es un caso que muestra competitividad experimental en áreas de búsqueda de nicho y orientadas a la privacidad
2 comentarios
Enlace para saltar el paywall https://archive.is/dLEl5
Opiniones de Hacker News
Yo mismo armé un índice de dominios. No he rastreado todas las páginas internas de cada dominio, pero ese no era el objetivo. Actualmente tengo 1,542,766 dominios. No son tantos, pero son datos reunidos honestamente. Cualquiera puede usarlos en el repositorio de GitHub, así que si quieren empezar a hacer crawling, puede servirles como referencia: Internet-Places-Database
Es un proyecto realmente genial. Al principio me dio curiosidad saber en qué te inspiraste. Y hay un enlace roto en el Readme:
https://rumca-js.github.io/internet full internet search¿Si le pides a ICANN los zone files no obtienes la lista oficial de dominios de ese día?
¡Intenté hacer algo así en 2023! La parte más difícil de construir un motor de búsqueda en realidad no es la “búsqueda” en sí, sino crear el índice y, como ya dijeron otros, rastrear un internet bastante hostil, especialmente si lo corres desde un solo servidor casero sin rotar IPs. Ojalá esta persona tenga éxito y termine siendo una referencia dentro de la comunidad, como quien hizo Marginalia. Al leer esto, me dieron ganas de volver a intentarlo
Conviene guardar en favoritos el open-webindex de openwebsearch.eu. Todavía no es open source, pero quizá lo publiquen cuando termine la beta. El plan detallado todavía no está claro
Me pregunto si los datos de commoncrawl servirían para un proyecto así
Pensé en qué tal sería hacer crowdsourcing del crawling. Podría resolver el problema de la rotación de IP y también distribuir la carga
El tema de las IP me parece interesante. Hace tiempo hice un bot de CSGO para scrapear precios de Steam, y hasta probé servicios de proxy, pero Steam me bloqueó igual. Así que me pregunto si la gente compra IPs reales
Está claro que hay una diferencia entre tener un índice y no tenerlo. Pero ordenar los resultados es otro tema aparte. Por ejemplo, qué debería aparecer en la página 200, y si los resultados de ahí siquiera tienen sentido
Busqué algo al azar en https://searcha.page/ y me salió el mensaje “ocurrió un error al generar los resultados de búsqueda”
Me preocupa que le haya llegado el abrazo de la muerte. La temperatura de la lavandería debe subir muchísimo
Mi uso esta semana aumentó 20 veces frente a la semana pasada. El cuello de botella no era realmente el servicio de búsqueda en sí, sino la expansión de contexto. La gráfica de uso está casi vertical. No sé si fue una buena semana o no
Experimenté lo mismo en https://seek.ninja/s?q=beatles
Antes de que pasara esto, la primera página de resultados (SERP) era bastante impresionante
Me apareció el aviso de que había llegado al límite de artículos. ¡Creo que la última vez que vi un enlace de fastcompany fue hace como 10 años! Me ilusioné con volver a leer algo de ellos, pero me quedé con las ganas. Vi el contenido relacionado en archive:
Hace poco me devoré las entradas del blog de Wilson Lin; son muy útiles y de altísima calidad para aficionados interesados en motores de búsqueda y LLM blog
El modo lector de Firefox, a veces con una recarga extra, permite saltarse la mayoría de los paywalls, incluido este artículo
“El procesador AMD EPYC 7532 de 32 núcleos costaba más de $3,000 cuando salió, pero ahora se puede conseguir en eBay por menos de $200.” Me pregunto por qué estas gangas nunca aparecen cuando yo ando buscando piezas para homelab
Hay que dedicar tiempo a revisar con cuidado incluso ofertas mal etiquetadas, y estar dispuesto a comprarle también a vendedores sin reputación
Si buscas “AMD EPYC 7532”, salen montones de listados en el rango de $150 a $200. Me pregunto si cuando estabas buscando piezas para homelab todavía no había ofertas así
No es un CPU, pero a principios de este año compré en eBay una workstation Thinkpad fabricada en 2020 por $500. Nueva costaba $5,700. El mercado de hardware en eBay es así en general. Si esperas 5 años, el precio cae a una décima parte
TheServerStore.com a veces tiene buenas ofertas. A principios de este año armé de una sola vez un servidor EPYC 7702 de 64 núcleos (256 GB de RAM, 8 TB NVMe) completamente nuevo por unos $3,000
Otra opción es comprar chips grado QC y aventarte a probar tú mismo. Yo también compré así. En mi caso, el gasto más grande fueron los discos, y luego la RAM. Los chips me parecieron relativamente baratos
Me parece un proyecto muy genial, y solo espero que lo esté disfrutando. Yo también he fantaseado decenas de veces con hacer un motor de búsqueda propio, pero siempre termino topándome con un muro. El internet de 1999 y el de ahora son demasiado distintos. Ahora el descubrimiento del mundo en sí ya no tiene tanto valor. Por ejemplo, aunque encuentres un blog personal sobre dinosaurios, quizá no se actualiza desde 2004, las imágenes y enlaces están rotos, y hoy Wikipedia o el Smithsonian terminan siendo mucho mejores. Encontrar sitios personales así todavía puede ser divertido, pero ya no tiene el mismo valor que antes. En términos prácticos, estamos volviendo a una red centrada en “hubs”, donde cada plataforma monopoliza cierto tipo de contenido: YouTube, TikTok, Medium, Reddit, Mayo Clinic, etc. Estas grandes plataformas son conservadoras con los rastreadores personales, pero amigables con el crawler de Google, porque Google les manda tráfico de usuarios. ¿Por qué iban a dejar pasar tan fácil a mi crawler? Aun así, no me rindo. Tal vez este internet basado en hubs necesite un motor de búsqueda consciente de los hubs
La expresión “Google rival” suena un poco exagerada. Creo que decir simplemente “motor de búsqueda” es más preciso, considerando todo lo que Google hace hoy en día
No puedo responderle directamente a todo el mundo, pero yo soy justamente quien opera el motor de búsqueda. Sí, hoy se cayó por el pico de tráfico. El uso subió 20 veces frente a la semana pasada, y yo no estaba nada preparado. En mi cabeza imaginaba vagamente que el crecimiento de usuarios sería lento y constante. Gracias a quienes lo usaron, y si el servicio no les funcionó bien, lo siento. Hoy fue la primera vez que de verdad pasó por una “prueba de fuego” real
Gran combinación de innovación excelente y self-hosting escéptico de la nube. Creo que debería haber muchísimo más de esto