HTML como formato accesible para papers de investigación (2023)
(info.arxiv.org)- arXiv comenzó a ofrecer artículos en formato HTML junto con PDF para mejorar la accesibilidad de la investigación
- De los más de 2 millones de papers, algunos no cuentan con versión HTML debido a límites de conversión automática, pero la calidad de conversión seguirá mejorando continuamente
- HTML ofrece mayor compatibilidad con tecnologías de asistencia como lectores de pantalla, conversión a voz y dispositivos móviles, lo que lo hace ventajoso en términos de accesibilidad
- La comunidad puede participar directamente en el proyecto mediante el reporte de errores y la mejora de la conversión de LaTeX
- Esta iniciativa muestra la dirección de largo plazo de arXiv para ampliar la inclusión y la accesibilidad en la investigación científica
Resumen de la disponibilidad de papers en formato HTML
- arXiv está incorporando un formato de paper en HTML además del PDF para mejorar la accesibilidad de la investigación
- Según los comentarios de la comunidad, ofrecer HTML se considera la medida con mayor impacto en el corto plazo
- La versión HTML se muestra debajo del enlace de descarga de PDF en la página de resumen del paper
- Los autores pueden revisar la vista previa en HTML de su propio paper durante el proceso de envío
- arXiv está agregando HTML de forma gradual para más de 2 millones de papers, aunque algunos no se publican en HTML por fallos de conversión
- El lanzamiento beta de HTML es una etapa inicial y se continúa mejorando la calidad de conversión de LaTeX mientras se recopilan comentarios
Por qué se llamó HTML “experimental”
- Más del 90% de los envíos a arXiv están en formato TeX (principalmente LaTeX), lo que plantea desafíos técnicos para convertirlos a HTML con precisión
- LaTeX es altamente extensible y cada autor lo usa de manera distinta
- HTML tiene una excelente compatibilidad con lectores de pantalla, conversión de voz, ampliadores de pantalla y dispositivos móviles
- La conversión debe mantener la automatización y la velocidad, por lo que es difícil lograr una renderización perfecta
- arXiv lanzó HTML como “experimental” por dos razones
- Se necesitan artículos accesibles ahora mismo: investigadores con requisitos de accesibilidad solicitaron que no se retrasara el lanzamiento
- Necesidad de ayuda de la comunidad: recibir reportes de errores de conversión para rastrear problemas en paquetes específicos de LaTeX
Errores que pueden ocurrir en artículos HTML
- Los artículos HTML siguen siendo un trabajo en progreso, por lo que pueden aparecer errores de conversión o problemas de renderizado
- arXiv comparte el origen de los errores y cómo los autores pueden minimizar su impacto
- Los detalles relacionados están disponibles en una página separada
Cómo participar desde la comunidad
-
1) Leer artículos HTML y reportar problemas
- Abre el HTML de interés desde el enlace en la página de resumen del paper
- Los reportes pueden hacerse mediante el botón Open Issue, seleccionando texto y reportándolo, o con el atajo de teclado Ctrl+?
- Los usuarios de lectores de pantalla pueden alternar el botón de informe de accesibilidad por párrafo con Alt+y
- Solicita no reportar solo porque el HTML no se vea igual que el PDF
- HTML prioriza la funcionalidad por sobre la forma; las diferencias en saltos de línea y márgenes forman parte de un diseño deliberado
- En compatibilidad con tecnologías de asistencia y adaptación de dispositivos, HTML supera al PDF
-
2) Apoyar la mejora de la conversión de LaTeX
- Los autores pueden mejorar la calidad de conversión siguiendo la guía de buenas prácticas de marcado de LaTeX de arXiv
- Los desarrolladores pueden contribuir a la mejora de la conversión mediante el listado de incidencias del proyecto LaTeXML
- Sociedades científicas y editoriales pueden colaborar revisando archivos .cls que usan paquetes no compatibles para ayudar a mejorar la accesibilidad
Agradecimiento a los colaboradores
- A lo largo del proyecto, la experiencia y el asesoramiento de científicos con discapacidad tuvieron un papel clave
- La implementación de artículos HTML fue posible gracias a la colaboración entre el LaTeX Project y el equipo LaTeXML de NIST
- Se expresa un agradecimiento profundo por la experiencia, capacidad técnica y dedicación a la accesibilidad de ambos equipos
1 comentarios
Comentarios en Hacker News
Como desarrollador de arXiv HTML Papers, comparto una breve actualización
Sé que actualmente hay muchos problemas de calidad y cobertura en el renderizado de artículos. Si encuentran estos problemas, les agradecería que los reportaran en la página de issues de GitHub
La mayor limitación sigue siendo la falta de tiempo de desarrollo, y la clave para mejorar el lado de LaTeX sigue siendo LaTeXML
Prefiero por mucho leer artículos de arXiv en formato HTML en lugar de PDF
Se pueden aprovechar directamente las extensiones del navegador para traducir, tomar notas, enviar a un LLM y hacer muchas otras cosas fácilmente
Actualmente arXiv tiene el servicio HTML base (https://arxiv.org/html/xxxx.xxxxx) y un servicio alternativo (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)
Pero el servicio base tiene serios problemas de cobertura; por ejemplo, este artículo no funciona. A veces se resuelve cambiando al servicio alternativo, pero también hay casos en que ambos fallan (ejemplo)
Si el Consorcio Unicode se hubiera enfocado más en el soporte de símbolos matemáticos en lugar de emoji, quizá habríamos podido salir de la estructura centrada en (LA)TeX/PDF
OpenType y TrueType ya soportan renderizado complejo, y también permiten font fallback
El problema no era una limitación técnica, sino una decisión de política de que “no pertenece a la capa de símbolos”
Curiosamente, Gemini 3 Pro fuerza la salida de fórmulas en LaTeX sin importar la configuración. Compartí los resultados del experimento aquí
Porque Unicode es, en esencia, un sistema de caracteres, no un sistema de maquetación
Los artículos basados en HTML son perfectamente posibles, pero los investigadores siguen aferrados al tradicional diseño de dos columnas y tipografías con serifas
El problema cultural es querer que “se vea como un artículo de verdad” por encima de la accesibilidad móvil o la legibilidad
En la primera se plantea la pregunta, y en la segunda se usa un modelo pequeño para convertir la notación LaTeX a expresiones matemáticas Unicode
Los artículos en HTML ya se ofrecían desde hace algunos años
De hecho, confirmé en el blog oficial que se introdujeron en 2023
Porque el 90% de los artículos de arXiv están basados en LaTeX, y su conversión es muy difícil.
El desafío principal es mejorar la accesibilidad manteniendo una conversión rápida y automatizada
Como autor que usa con frecuencia estructuras TeX complejas, desde que se introdujo la conversión a HTML la carga de trabajo aumentó bastante
La conversión también es lenta y no hay forma de simularla localmente
Aun así, me parece un buen intento para mejorar la accesibilidad
Me gustaría que los artículos también se ofrecieran en formato epub. No sé si hay dificultades técnicas o si simplemente no hay suficiente demanda
Pero nunca he visto un lector que lo muestre de una forma tan cómoda o tan elegante como un PDF. Además, la compatibilidad de las anotaciones entre plataformas sigue siendo pobre
Como sería ineficiente exigir a los investigadores que también garanticen esa calidad, si hace falta basta con usar directamente un convertidor de HTML→epub
El problema de la accesibilidad en la investigación no es nuevo, pero este es el momento más urgente
Que arXiv ofrezca artículos en HTML junto con PDF puede generar el cambio más rápido y de mayor impacto
Mi mayor queja es lo limitado que está insertar video en los artículos
Solo se puede adjuntar como material suplementario o ofrecerlo mediante enlaces externos.
Ojalá se pudiera insertar directamente GIF o video dentro del cuerpo del artículo
Al ver la explicación de que “el 90% está basado en LaTeX y por eso es difícil de convertir”, pensé que realmente es un trabajo desafiante. Es un buen intento
Cuando alrededor de 1998 me encargaba de editar el periódico escolar, propuse cambiar de Corel Draw a HTML
Al final, incluso en ese entonces, se terminó descartando adoptar HTML por las mismas razones que aparecen ahora en estos comentarios