ArXiv ahora ofrece artículos en formato HTML

(blog.arxiv.org)

14 puntos por GN⁺ 2023-12-22 | 1 comentarios | Compartir por WhatsApp

Acceso equitativo a la investigación científica

arXiv está trabajando para que todos los usuarios, incluidas las personas con discapacidad, puedan acceder de manera equitativa a la investigación científica.
Desde el 18 de diciembre de 2023, está generando una versión en formato HTML para todos los artículos enviados en TeX/LaTeX (solo para trabajos enviados después del 1 de diciembre y en los casos en que la conversión a HTML haya sido exitosa).

Incorporación del formato HTML

HTML no reemplaza al PDF, sino que es un formato adicional disponible para los usuarios de arXiv.
Al momento del envío, los autores tienen la oportunidad de previsualizar la versión HTML igual que el PDF.
Al entrar a la página del resumen del artículo, se puede ver un enlace para abrir la versión HTML justo debajo del enlace al PDF.

Mejor acceso para científicos con discapacidad

Se habían hecho solicitudes para ofrecer artículos en formato HTML, ya que los científicos con discapacidad enfrentan barreras para acceder a la investigación.
Los artículos en HTML pueden leerse con mayor facilidad y precisión mediante tecnologías como los lectores de pantalla, lo que ayuda a investigadores con discapacidad visual, baja visión o dislexia.

Fase experimental de la conversión a HTML

Actualmente, la conversión a HTML se encuentra en una fase experimental y se sigue trabajando para mejorar su precisión.
No todos los artículos se convierten correctamente a HTML, pero se busca ofrecer esta función lo antes posible para los investigadores que la necesitan por razones de accesibilidad.
Si la conversión a HTML falla, el envío no se bloquea ni se pone en espera, pero se pide a los autores que revisen cuidadosamente la versión HTML.

Agradecimiento por el proyecto HTML

Expresan su agradecimiento por este HTML experimental, que representa un gran paso para hacer la ciencia accesible para todos.
Agradecen a todas las personas que colaboraron en el piloto del proyecto de artículos HTML de arXiv, incluido el LaTeX Project y el equipo de LaTeXML de NIST.
Para los usuarios familiarizados con ar5iv, un proyecto colaborativo de arXivLabs, esta oferta en HTML equivale a "internalizar" por completo ese influyente proyecto.
El objetivo final es hacer backfill de todo el corpus de arXiv para ofrecer una versión HTML de todos los artículos, pero por ahora esta función solo está disponible para los artículos nuevos.
También agradecen a todos los usuarios de arXiv que enviaron reportes de errores sobre el proyecto de artículos HTML; el equipo está analizando esos reportes y planea realizar una primera ronda de mejoras en el nuevo año.

Opinión de GN⁺

Que arXiv ofrezca artículos en formato HTML es un avance importante para mejorar el acceso a la investigación, especialmente para los científicos con discapacidad.
Este cambio ayudará a reducir las barreras tecnológicas dentro de la comunidad científica y contribuirá a una mayor inclusión en la investigación.
Aunque sigue en fase experimental, la decisión de arXiv de lanzar esta función con rapidez muestra una actitud positiva de priorizar las necesidades de los investigadores.

1 comentarios

GN⁺ 2023-12-22

Comentarios en Hacker News

El artículo no enlaza un ejemplo en HTML, pero aquí hay un enlace cualquiera: enlace a un ejemplo HTML de arXiv. Está genial que soporte modo oscuro. No se ve un interruptor, pero se renderiza según el modo del sistema. Parece que la accesibilidad de arXiv en móviles va a mejorar mucho.
- 30 años después de que HTML fuera inventado para apoyar la accesibilidad y la colaboración en la investigación y la academia, la Casa Blanca publicó nuevas directrices de accesibilidad. Es la primera vez que publica oficialmente una nueva política en HTML en lugar de PDF. enlace a las directrices de accesibilidad de la Casa Blanca
- Si quieres enterarte de los nuevos papers importantes de IA/ML en arXiv, te recomiendo revisar Emergent Mind. Este sitio rastrea menciones de papers de arXiv en redes sociales (Hacker News, Reddit, X, YouTube, GitHub, etc.) y los clasifica según el volumen de actividad social y la hora de publicación del paper. Para cada paper, genera un resumen usando GPT-4 y ofrece enlaces a discusiones en redes sociales, citas del paper y papers relacionados. Aún es un sitio nuevo y no se ha compartido mucho. Cualquier comentario o solicitud para mejorarlo es bienvenido.
- Si hay papers que no tienen enlace HTML en la barra lateral, me pregunto cómo se puede saber por qué no se están renderizando en HTML y cómo se puede corregir eso.
- Creo que estaría bien darles a los autores la oportunidad de subir su propia versión HTML junto con la versión en PDF, en vez de depender solo del proceso de conversión automática.
  - Si les avisan que hay problemas con la versión HTML del paper, los autores podrían frustrarse porque no habría forma de corregirlos salvo esperar que cambios en el PDF afecten la generación del HTML. Es más fácil corregir directamente problemas de formato en el PDF.
  - También sería interesante permitir experimentos con formatos alternativos para los papers. Por ejemplo, un paper con un sandbox para probar el lenguaje de programación del que se habla, o un paper de cálculo multivariable donde se pueda interactuar con una gráfica 3D de alguna función.
- Apostarle siempre a la web es una muy buena decisión.
- La herramienta usada para este servicio es arXiv-readability. Dejo el enlace para ahorrar algunos clics.
- El PDF es muy superior al HTML para renderizar documentos de texto. Y la diferencia es considerable. Esto era posible hace 10 años, incluso 15 o 20. Que no se haya hecho no es solo inercia. LaTeX y PDF renderizan texto mucho mejor, y un formato estático sirve para dejar fijado un estado estable a lo largo del tiempo para quienes vienen después. A diferencia de la naturaleza inherentemente fluida del HTML. Y, de nuevo, el renderizado no tiene comparación, y eso transmite una señal de calidad, consciente o inconscientemente.
- Espero que arXiv no deje de ofrecer los papers en formato PDF. Incluso en computadora prefiero leer PDFs.
- Cuando abro PDFs grandes (más de 100 MB, algo común en papers de ML centrados en generar imágenes de alta resolución) en arXiv, no se renderiza nada aparte de la barra de carga y hay un tiempo de espera considerable de más de 10 segundos. Me pregunto cuál es la causa de ese retraso. ¿Es un problema de red, o Chrome realmente es muy lento renderizando PDFs grandes? ¿El PDF tiene que descargarse por completo antes de empezar a renderizarse? De cualquier forma, este retraso es mi única queja sobre arXiv, y un documento HTML con renderizado progresivo donde el texto cargue de inmediato sería una gran mejora.

ArXiv ahora ofrece artículos en formato HTML

Acceso equitativo a la investigación científica

Incorporación del formato HTML

Mejor acceso para científicos con discapacidad

Fase experimental de la conversión a HTML

Agradecimiento por el proyecto HTML

Opinión de GN⁺

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News