1 comentarios

 
GN⁺ 2024-12-26
Comentarios de Hacker News
  • Hubo una pregunta sobre por qué usan el modelo de mixbread.
  • Hubo una pregunta sobre mejorar la eficiencia al binarizar los embeddings y usar distancia de Hamming.
  • Hubo una pregunta sobre por qué eligieron milvus en lugar de otras bases de datos vectoriales.
  • Hubo una pregunta sobre si la automatización de metadatos se hace semanalmente.
  • Hubo buenos comentarios de usuarios sobre la búsqueda de “Transformers a nivel de bytes”, pero no se encontraron papers recientes.
    • Si quieren más densidad de resultados, podrían considerar una opción en la UI para contraer el resumen y mostrar más elementos de un vistazo.
  • Al pensar en expandir más allá de ArXiv, podría haber dificultades para la revisión de literatura porque las grandes editoriales obligan a quitar resúmenes en OpenAlex y similares.
  • Hubo una pregunta de si revisaron herramientas como undermind.ai, scite.ai y elicit.org.
  • Se debería considerar qué más podría incluirse además de la búsqueda en un flujo de trabajo de producto dedicado a revisión bibliográfica.
  • Antes fue posible hacer fuerza bruta en tiempo real con CPU en bases de datos vectoriales como gensim/doc2vec.
  • Hay ideas de otros buenos casos de uso en los que la búsqueda semántica podría servir.
    • Búsqueda de anuncios en línea: embebiendo e indexando anuncios de video e imagen para encontrar inspiración de marketing.
    • Búsqueda en múltiples plataformas de e-commerce: encontrar productos en Sephora, Zara, H&M, etc.
  • Se comentó que añadir un enlace de “papers similares” a cada paper podría ser útil para descubrir temas.
  • Hubo una pregunta sobre qué beneficios trae la búsqueda semántica frente a la búsqueda por texto.
    • Hubo una pregunta sobre si existe un benchmark para medir si mejora la búsqueda.
  • Hubo una pregunta sobre si es parecido a Semantic Scholar de Allen Institute for AI.
  • Hubo una propuesta de agregar un cliente de herramienta de búsqueda al backend de paper-qa.
  • Hubo una propuesta de hacer crawling y conectar con scihib.
  • Hubo un comentario sobre problemas de codificación.
    • Al buscar "Evaluación de alto rendimiento de UPC" se recuperan papers con errores en los nombres de los autores.