El hombre que opera un servicio para competir con Google desde su lavandería gracias a la IA

(fastcompany.com)

21 puntos por GN⁺ 2025-09-12 | Aún no hay comentarios. | Compartir por WhatsApp

Un proyecto DIY que montó un motor de búsqueda llamado Searcha Page/Seek Ninja en un servidor personal instalado en la lavandería, ofreciendo una experiencia comparable a Google
Parte de un índice de unos 2 mil millones de páginas y apunta a 4 mil millones de documentos en medio año, combinando métodos de indexación tradicionales con expansión de palabras clave y comprensión contextual basadas en LLM
Invirtió un total de 5 mil dólares en un equipo armado con piezas de servidor usadas, de nivel AMD EPYC 7532 (32 núcleos) y 0.5 TB de RAM, reduciendo costos con una estrategia de arbitraje de actualizaciones (upgrade arbitrage)
Minimiza la dependencia de la nube, pero usa Llama 3 de SambaNova para la inferencia con LLM; Seek Ninja es una versión orientada a la privacidad que no guarda perfiles ni usa la ubicación
La adopción de IA permitió escalar a bajo costo, y su base de código de 150 mil líneas aceleró el desarrollo iterativo con ayuda de LLM, haciendo posible que una sola persona construyera un sistema de gran escala
Aunque es una configuración personal y de bajo costo, logró buena precisión y velocidad en búsquedas locales; además, considera una migración a colocation si aumenta el tráfico, mostrando la posibilidad experimental de una búsqueda alternativa

Contexto: una experiencia de búsqueda “casi como Google” con hardware pequeño

En contraste con la historia de Google, que comenzó en Stanford con servidores en una carcasa hecha con piezas de Duplo, este caso muestra que incluso con un servidor antiguo se puede acercar una experiencia de búsqueda moderna
Hace 30 años, Google comenzó como Backrub en el campus de Stanford y usó un servidor experimental con 40 GB de datos en una carcasa hecha con bloques Duplo
- Luego se actualizó a un pequeño rack de servidores gracias a donaciones de IBM e Intel, pero para 2025 la Búsqueda de Google ya creció a una escala que ni siquiera cabe en un solo centro de datos
Searcha Page de Ryan Pearce implementa una experiencia de búsqueda moderna con una máquina del tamaño de los servidores originales de Google
- El servidor está instalado junto a la lavadora y la secadora, adonde fue trasladado desde el dormitorio para aliviar problemas de calor y ruido
- Aun con las limitaciones de una lavandería, la calidad real de los resultados de búsqueda se evalúa como sensiblemente cercana a un nivel de primer nivel
El tamaño del índice es actualmente de unos 2 mil millones de documentos y se proyecta que llegue a 4 mil millones en 6 meses
- Indicadores de comparación: Google tenía 24 millones de páginas en 1998 y 400 mil millones de páginas en 2020
- La escala absoluta es menor, pero para un servidor único autoalojado sigue siendo una magnitud muy grande

Tecnología clave: indexación tradicional + apoyo de LLM

La arquitectura general sigue una configuración tradicional de motor de búsqueda, pero con un diseño híbrido donde un LLM ayuda con la expansión de palabras clave y la interpretación del contexto
- Recupera la historia de cómo los grandes motores de búsqueda ya habían integrado IA con sistemas como RankBrain, y subraya que, más allá del rechazo a los LLM, la IA ya era un elemento central en la búsqueda
- El LLM se usa como herramienta práctica para construcción de datasets y contextualización, aumentando la velocidad de desarrollo y la escalabilidad
El operador primero implementaba funciones con LLM y luego las reemplazaba por lógica tradicional en un ciclo de desarrollo iterativo, hasta hacer crecer la base de código a unas 150 mil líneas
- Si se incluye el desarrollo iterativo, estima que la carga real equivale a unas 500 mil líneas de trabajo

Infraestructura: indexación autosuficiente y el “arbitraje de actualizaciones” con servidores usados

El equipo es un servidor usado basado en AMD EPYC 7532 (32 núcleos), aprovechando al máximo la caída de precio de un CPU que al lanzarse costaba más de 3 mil dólares y que hoy se vende por menos de 200 dólares
- El costo total de la construcción ronda los 5 mil dólares, de los cuales unos 3 mil dólares se destinaron al almacenamiento
- Con una configuración de 0.5 TB de RAM, entre otros recursos, aseguró capacidad para manejar cientos de sesiones concurrentes
Mantiene una línea de autoalojamiento (self-hosting) y minimiza el uso de la nube, aunque para la inferencia con LLM recurre a SambaNova (Llama 3) por su bajo costo y alta velocidad
- Usa corpus web públicos como Common Crawl para acelerar el crawler y el indexador, y planea reducir esa dependencia a largo plazo

Producto: Searcha Page y Seek Ninja

Searcha Page: una UX SERP tradicional similar a la de Google, con resultados útiles también en búsquedas locales
- Se menciona una configuración que refuerza la explicación de relevancia entre consulta y documento mediante resúmenes generados por LLM en lugar de metadescripciones
Seek Ninja: una variante de privacidad primero que no guarda perfiles ni usa la ubicación
- Un enfoque ligero y minimalista adecuado para usarse como alternativa al modo incógnito
Para monetizar, está probando publicidad de afiliados moderada en vez de banners excesivos, y planea migrar a colocation cuando aumente el tráfico

Caso comparable: el enfoque en nube y vectores de Wilson Lin

Como otro experimento individual contemporáneo, Wilson Lin persigue una operación de costo ultrabajo combinando una estrategia cloud-native con su propio motor vectorial (CoreNN)
- Genera un resumen con LLM para cada documento, representando de otra forma el emparejamiento entre consulta y documento
- Comparte la percepción de que la barrera mayor no es la tecnología, sino el mercado y los canales
Pearce intentó en algún momento usar una base de datos vectorial, pero volvió a métodos tradicionales desde la perspectiva de la precisión del ranking, ya que los resultados le parecían demasiado ambiguos y “artísticos”

Problemas operativos: calor, ruido y las limitaciones físicas de una lavandería

El servidor provocaba problemas de convivencia por el calor cuando estaba en el dormitorio, así que fue trasladado al cuarto de servicio, asegurando la conectividad con perforaciones para cables y otras adaptaciones
- Si la puerta permanece cerrada demasiado tiempo, la acumulación de calor puede convertirse en un problema, por lo que la ventilación es un factor importante
Aunque tiene una postura escéptica frente a la nube, está considerando una migración a colocation en centro de datos según ciertos disparadores, teniendo en cuenta los límites de LLM y tráfico

Significado: el experimento de una sola persona para perseguir a Google y el papel realista de los LLM

Contrario a la idea común de que los LLM son una herramienta que arruina la calidad de la búsqueda, aquí aparecen como un acelerador de desarrollo y escala que da a una persona la capacidad de construir un motor de búsqueda
- La combinación de indexación tradicional + apoyo de LLM es un compromiso práctico que busca a la vez precisión y capacidad explicativa
La combinación de servidores usados de bajo costo + corpus públicos + APIs baratas de LLM demuestra que se puede intentar una búsqueda alternativa sin los recursos masivos de las big tech
- Aunque siguen quedando retos como la expansión a otros idiomas, el costo del crawling continuo y la resistencia al spam, es un caso que muestra competitividad experimental en áreas de búsqueda de nicho y orientadas a la privacidad

El hombre que opera un servicio para competir con Google desde su lavandería gracias a la IA

Contexto: una experiencia de búsqueda “casi como Google” con hardware pequeño

Tecnología clave: indexación tradicional + apoyo de LLM

Infraestructura: indexación autosuficiente y el “arbitraje de actualizaciones” con servidores usados

Producto: Searcha Page y Seek Ninja

Caso comparable: el enfoque en nube y vectores de Wilson Lin

Problemas operativos: calor, ruido y las limitaciones físicas de una lavandería

Significado: el experimento de una sola persona para perseguir a Google y el papel realista de los LLM

Lecturas relacionadas

Aún no hay comentarios.