La evolución del motor de búsqueda Marginalia
- La búsqueda de Marginalia comenzó como un pequeño experimento, pero ahora se ha convertido en un proyecto de tiempo completo.
- El motor de búsqueda está funcionando mejor que nunca hasta ahora y ha alcanzado muchos hitos.
- El motor de búsqueda salió de la sala de estar y fue trasladado a un servidor empresarial adecuado.
Orden del código base y optimización de la aplicación
- El tema principal de este año ha sido poner en orden el código base y optimizar la aplicación.
- El enfoque ha estado en mantener la carga operativa manejable y facilitar que otras personas accedan a la aplicación y al código base.
- Ha requerido mucho trabajo, pero ya se empiezan a ver los frutos.
Mejoras operativas
- Antes, cambiar de índice requería varios días de interrupción, pero eso ya desapareció.
- Recientemente, también se hicieron posibles las actualizaciones con cero tiempo de inactividad.
- En términos operativos, cosas que antes requerían semanas de procesos manuales ahora fueron reemplazadas por presionar un botón en la GUI.
Se añadió soporte para palabras clave en texto ancla
- Añadir soporte para palabras clave en texto ancla tuvo un gran impacto en la capacidad del motor de búsqueda para encontrar resultados relevantes.
- Cuando se hizo el cambio por primera vez, no fue evidente de inmediato porque la integración no estaba bien resuelta, pero conforme se asentó la nueva señal de relevancia, llegaron momentos sorprendentes.
Transición a tiempo completo
- Gracias al patrocinio de NLnet, hace unos 8 meses se hizo la transición a tiempo completo.
- La parte más difícil fue no trabajar demasiado, y se intenta descansar al menos un día a la semana.
- Como se sabe que uno piensa mejor cuando descansa lo suficiente, en teoría es importante detenerse de vez en cuando para poder trabajar mejor.
Meta de indexar mil millones de documentos
- El camino hacia indexar mil millones de documentos avanza lentamente.
- No porque el software no pueda manejarlo, sino porque la relación señal-ruido de la web no es buena, lo que lo hace más difícil de lo esperado.
- Una de las principales razones por las que el motor de búsqueda funciona relativamente bien es por lo que no indexa.
- Hace un año, el índice estaba entre 50 y 100 millones, pero en el último rastreo llegó a 220 millones, y se espera que para cuando termine la siguiente ronda de rastreo esté entre 290 y 300 millones.
Mejoras en el análisis y la ejecución de consultas
- Hay mucho margen de mejora en el análisis y la ejecución de consultas.
- Se comenzó con trabajo preparatorio para ordenar el código afectado antes de iniciar el trabajo real.
- Los grandes saltos del proyecto siempre han sido experimentales; hay cosas planificadas, pero parece que las no planificadas serán las que realmente tengan un gran impacto.
Agradecimientos
- Agradece a NLnet, FUTO, los patrocinadores de Patreon, quienes lo apoyan y las personas usuarias.
- Sin su apoyo, nada de esto habría sido posible.
Opinión de GN⁺
- El motor de búsqueda Marginalia es un caso de cómo un pequeño experimento puede crecer hasta convertirse en un proyecto de tiempo completo mediante mejoras continuas y el apoyo de la comunidad.
- Las mejoras funcionales, como el soporte para palabras clave en texto ancla, actúan como cambios importantes que elevan considerablemente el rendimiento del motor de búsqueda.
- Este proyecto ofrece oportunidades de colaboración y contribución a la comunidad de código abierto y a desarrolladores, además de aportar al avance de la tecnología de motores de búsqueda.
1 comentarios
Comentarios en Hacker News
C&C Tiberian Sunque le daba soporte para IPv6, y eso le hizo extrañar la vieja web. Le recordó a los Searchlores de Fravia, y dice que se sentiría como si Umberto Eco hubiera estado interesado en las computadoras. Es como descubrir algo asombroso en el laberinto-biblioteca de El nombre de la rosa y luego perderlo para siempre.