1 puntos por GN⁺ 2024-02-26 | 1 comentarios | Compartir por WhatsApp

La evolución del motor de búsqueda Marginalia

  • La búsqueda de Marginalia comenzó como un pequeño experimento, pero ahora se ha convertido en un proyecto de tiempo completo.
  • El motor de búsqueda está funcionando mejor que nunca hasta ahora y ha alcanzado muchos hitos.
  • El motor de búsqueda salió de la sala de estar y fue trasladado a un servidor empresarial adecuado.

Orden del código base y optimización de la aplicación

  • El tema principal de este año ha sido poner en orden el código base y optimizar la aplicación.
  • El enfoque ha estado en mantener la carga operativa manejable y facilitar que otras personas accedan a la aplicación y al código base.
  • Ha requerido mucho trabajo, pero ya se empiezan a ver los frutos.

Mejoras operativas

  • Antes, cambiar de índice requería varios días de interrupción, pero eso ya desapareció.
  • Recientemente, también se hicieron posibles las actualizaciones con cero tiempo de inactividad.
  • En términos operativos, cosas que antes requerían semanas de procesos manuales ahora fueron reemplazadas por presionar un botón en la GUI.

Se añadió soporte para palabras clave en texto ancla

  • Añadir soporte para palabras clave en texto ancla tuvo un gran impacto en la capacidad del motor de búsqueda para encontrar resultados relevantes.
  • Cuando se hizo el cambio por primera vez, no fue evidente de inmediato porque la integración no estaba bien resuelta, pero conforme se asentó la nueva señal de relevancia, llegaron momentos sorprendentes.

Transición a tiempo completo

  • Gracias al patrocinio de NLnet, hace unos 8 meses se hizo la transición a tiempo completo.
  • La parte más difícil fue no trabajar demasiado, y se intenta descansar al menos un día a la semana.
  • Como se sabe que uno piensa mejor cuando descansa lo suficiente, en teoría es importante detenerse de vez en cuando para poder trabajar mejor.

Meta de indexar mil millones de documentos

  • El camino hacia indexar mil millones de documentos avanza lentamente.
  • No porque el software no pueda manejarlo, sino porque la relación señal-ruido de la web no es buena, lo que lo hace más difícil de lo esperado.
  • Una de las principales razones por las que el motor de búsqueda funciona relativamente bien es por lo que no indexa.
  • Hace un año, el índice estaba entre 50 y 100 millones, pero en el último rastreo llegó a 220 millones, y se espera que para cuando termine la siguiente ronda de rastreo esté entre 290 y 300 millones.

Mejoras en el análisis y la ejecución de consultas

  • Hay mucho margen de mejora en el análisis y la ejecución de consultas.
  • Se comenzó con trabajo preparatorio para ordenar el código afectado antes de iniciar el trabajo real.
  • Los grandes saltos del proyecto siempre han sido experimentales; hay cosas planificadas, pero parece que las no planificadas serán las que realmente tengan un gran impacto.

Agradecimientos

  • Agradece a NLnet, FUTO, los patrocinadores de Patreon, quienes lo apoyan y las personas usuarias.
  • Sin su apoyo, nada de esto habría sido posible.

Opinión de GN⁺

  • El motor de búsqueda Marginalia es un caso de cómo un pequeño experimento puede crecer hasta convertirse en un proyecto de tiempo completo mediante mejoras continuas y el apoyo de la comunidad.
  • Las mejoras funcionales, como el soporte para palabras clave en texto ancla, actúan como cambios importantes que elevan considerablemente el rendimiento del motor de búsqueda.
  • Este proyecto ofrece oportunidades de colaboración y contribución a la comunidad de código abierto y a desarrolladores, además de aportar al avance de la tecnología de motores de búsqueda.

1 comentarios

 
GN⁺ 2024-02-26
Comentarios en Hacker News
  • Un usuario tiene este sitio en marcadores para encontrar material muy específico sobre modelado numérico. Encontró recursos sobre solvers, generación de mallas y métodos de optimización de los años 80 y 90 que no podía hallar en Google, y le parece muy valioso porque encuentra sitios escritos por expertos que Google nunca habría mostrado.
  • La relación señal-ruido de la web no es buena, así que está resultando más difícil de lo esperado. Una de las razones por las que los motores de búsqueda funcionan relativamente bien es por todo lo que no indexan.
  • Un usuario encontró un sitio web aleatorio con un parche binario para C&C Tiberian Sun que le daba soporte para IPv6, y eso le hizo extrañar la vieja web. Le recordó a los Searchlores de Fravia, y dice que se sentiría como si Umberto Eco hubiera estado interesado en las computadoras. Es como descubrir algo asombroso en el laberinto-biblioteca de El nombre de la rosa y luego perderlo para siempre.
  • Otro usuario menciona que se siente como en los viejos tiempos. En 1998, ni siquiera con AltaVista podía encontrar las diferencias entre el libro y la película de Sin novedad en el frente, pero ahora puede encontrar muchísimas páginas de blogs personales, trabajos universitarios, sitios de código, discusiones en listas de correo, blogs, grupos de discusión de Rust, sitios personales y debates de expertos sobre ese tema.
  • Un usuario dice que se sorprendió al buscar "transformers intuition". Le parecieron impresionantes los resultados de este motor de búsqueda, en comparación con los de Google, que mostraban sitios optimizados para SEO —principalmente Medium— y páginas vistosas con contenido inferior.
  • Un usuario se pregunta si Common Crawl sería útil. Actualmente son unos 100 TB y 3.35 mil millones de páginas, así que descargarlo tomaría mucho tiempo a menos que se procese directamente desde S3, y no está seguro de cómo sería la relación señal-ruido.
  • Hay un usuario que cuestiona la función de "sitio aleatorio". Esperaba que hiciera un muestreo uniforme, pero parece que ciertos sitios se repiten una y otra vez.
  • Un usuario dice que, como está acostumbrado a Google, no lo usa muy seguido, pero cree que Marginalia es un proyecto genial y que probablemente lo usará más en el futuro, a medida que los sitios spam de SEO y las respuestas generadas por IA se vuelvan cada vez más comunes.
  • Por último, un usuario comparó esto con resultados recientes de Google: la búsqueda sobre el puntaje más bajo en el cricket de prueba de India no dio buenos resultados, la de una calculadora RAID estuvo aceptable pero con algo de ruido, y la búsqueda sobre las diferencias entre la película y el libro de Sin novedad en el frente no arrojó ningún resultado.