9 puntos por xguru 2021-09-17 | 3 comentarios | Compartir por WhatsApp
<p>- Convierte a HTML, usando aprendizaje automático, el contenido de PDF, LaTeX y XML de PubMed Central para que sea más fácil de leer <br /> - Su objetivo es aumentar la accesibilidad <br /> - Es un prototipo experimental de Semantic Scholar, el motor de búsqueda de material de investigación basado en IA <br /> - Actualmente solo almacena en caché las imágenes y el contenido extraídos, y se usa para ofrecer un servicio más rápido únicamente a quienes suben el mismo documento. No conserva los archivos subidos <br /> - Limitaciones<br /> → Las tablas (Table) se extraen como imágenes <br /> → El contenido matemático (Math) tiene baja precisión o casi no se extrae <br /> → El procesamiento de LaTeX/PubMed puede tener menos funciones que el de PDF <br /> - En el futuro planean agregar funciones de accesibilidad a Semantic Scholar </p>

3 comentarios

 
v08zbv8fvlkjasdflkj 2021-09-23
<p>Al convertir un PDF a otro formato (me gusta `epub`), el problema suelen ser las tablas y fórmulas que aparecen arriba; si las fórmulas no funcionan bien, no sé cuál sería la ventaja. <br /> --<br /> Viendo la demo, parece bastante usable.</p>
 
indigo6 2021-09-18
<p>Parece que sería cómodo, pero también da la impresión de que habrá gente que no quiera que su propio artículo se convierta a formato HTML. Estaría bien que, de algún modo, el titular de los derechos pudiera hacer `opt-out` de esa conversión...<br /> <br /> Hace mucho tiempo —de verdad, muchísimo tiempo, snif snif—, cuando escribía artículos en LaTex, sentía una emoción enorme. El contenido era un desastre, pero el renderizado era tan limpio y hermoso que todavía recuerdo lo que sentí en ese momento. Viendo TeX, pensé algo como “el maestro Knuth es un dios, un dios...”... En fin, de pronto pensé que, aunque el contenido de una obra escrita por uno mismo también es importante, probablemente hay personas para quienes también son importantes el formato del artículo y los detalles de cómo está expresado.</p>
 
xguru 2021-09-17
<p>Revisando la galería, la calidad se ve bastante usable.<br /> https://papertohtml.org/gallery<br /> <br /> Me hace pensar que sería conveniente si algo así se aplicara en Google Scholar.</p>