HTML como formato accesible para papers de investigación (2023)

(info.arxiv.org)

2 puntos por GN⁺ 2025-12-08 | 1 comentarios | Compartir por WhatsApp

arXiv comenzó a ofrecer artículos en formato HTML junto con PDF para mejorar la accesibilidad de la investigación
De los más de 2 millones de papers, algunos no cuentan con versión HTML debido a límites de conversión automática, pero la calidad de conversión seguirá mejorando continuamente
HTML ofrece mayor compatibilidad con tecnologías de asistencia como lectores de pantalla, conversión a voz y dispositivos móviles, lo que lo hace ventajoso en términos de accesibilidad
La comunidad puede participar directamente en el proyecto mediante el reporte de errores y la mejora de la conversión de LaTeX
Esta iniciativa muestra la dirección de largo plazo de arXiv para ampliar la inclusión y la accesibilidad en la investigación científica

Resumen de la disponibilidad de papers en formato HTML

arXiv está incorporando un formato de paper en HTML además del PDF para mejorar la accesibilidad de la investigación
- Según los comentarios de la comunidad, ofrecer HTML se considera la medida con mayor impacto en el corto plazo
La versión HTML se muestra debajo del enlace de descarga de PDF en la página de resumen del paper
- Los autores pueden revisar la vista previa en HTML de su propio paper durante el proceso de envío
arXiv está agregando HTML de forma gradual para más de 2 millones de papers, aunque algunos no se publican en HTML por fallos de conversión
El lanzamiento beta de HTML es una etapa inicial y se continúa mejorando la calidad de conversión de LaTeX mientras se recopilan comentarios

Por qué se llamó HTML “experimental”

Más del 90% de los envíos a arXiv están en formato TeX (principalmente LaTeX), lo que plantea desafíos técnicos para convertirlos a HTML con precisión
- LaTeX es altamente extensible y cada autor lo usa de manera distinta
- HTML tiene una excelente compatibilidad con lectores de pantalla, conversión de voz, ampliadores de pantalla y dispositivos móviles
La conversión debe mantener la automatización y la velocidad, por lo que es difícil lograr una renderización perfecta
arXiv lanzó HTML como “experimental” por dos razones
1. Se necesitan artículos accesibles ahora mismo: investigadores con requisitos de accesibilidad solicitaron que no se retrasara el lanzamiento
2. Necesidad de ayuda de la comunidad: recibir reportes de errores de conversión para rastrear problemas en paquetes específicos de LaTeX

Errores que pueden ocurrir en artículos HTML

Los artículos HTML siguen siendo un trabajo en progreso, por lo que pueden aparecer errores de conversión o problemas de renderizado
arXiv comparte el origen de los errores y cómo los autores pueden minimizar su impacto
Los detalles relacionados están disponibles en una página separada

Cómo participar desde la comunidad

1) Leer artículos HTML y reportar problemas
- Abre el HTML de interés desde el enlace en la página de resumen del paper
- Los reportes pueden hacerse mediante el botón Open Issue, seleccionando texto y reportándolo, o con el atajo de teclado Ctrl+?
- Los usuarios de lectores de pantalla pueden alternar el botón de informe de accesibilidad por párrafo con Alt+y
- Solicita no reportar solo porque el HTML no se vea igual que el PDF
- HTML prioriza la funcionalidad por sobre la forma; las diferencias en saltos de línea y márgenes forman parte de un diseño deliberado
- En compatibilidad con tecnologías de asistencia y adaptación de dispositivos, HTML supera al PDF
2) Apoyar la mejora de la conversión de LaTeX
- Los autores pueden mejorar la calidad de conversión siguiendo la guía de buenas prácticas de marcado de LaTeX de arXiv
- Los desarrolladores pueden contribuir a la mejora de la conversión mediante el listado de incidencias del proyecto LaTeXML
- Sociedades científicas y editoriales pueden colaborar revisando archivos .cls que usan paquetes no compatibles para ayudar a mejorar la accesibilidad

Agradecimiento a los colaboradores

A lo largo del proyecto, la experiencia y el asesoramiento de científicos con discapacidad tuvieron un papel clave
La implementación de artículos HTML fue posible gracias a la colaboración entre el LaTeX Project y el equipo LaTeXML de NIST
Se expresa un agradecimiento profundo por la experiencia, capacidad técnica y dedicación a la accesibilidad de ambos equipos

1 comentarios

GN⁺ 2025-12-08

Comentarios en Hacker News

Como desarrollador de arXiv HTML Papers, comparto una breve actualización
Sé que actualmente hay muchos problemas de calidad y cobertura en el renderizado de artículos. Si encuentran estos problemas, les agradecería que los reportaran en la página de issues de GitHub
La mayor limitación sigue siendo la falta de tiempo de desarrollo, y la clave para mejorar el lado de LaTeX sigue siendo LaTeXML
Prefiero por mucho leer artículos de arXiv en formato HTML en lugar de PDF
Se pueden aprovechar directamente las extensiones del navegador para traducir, tomar notas, enviar a un LLM y hacer muchas otras cosas fácilmente
Actualmente arXiv tiene el servicio HTML base (https://arxiv.org/html/xxxx.xxxxx) y un servicio alternativo (https://ar5iv.labs.arxiv.org/html/xxxx.xxxxx)
Pero el servicio base tiene serios problemas de cobertura; por ejemplo, este artículo no funciona. A veces se resuelve cambiando al servicio alternativo, pero también hay casos en que ambos fallan (ejemplo)
Si el Consorcio Unicode se hubiera enfocado más en el soporte de símbolos matemáticos en lugar de emoji, quizá habríamos podido salir de la estructura centrada en (LA)TeX/PDF
OpenType y TrueType ya soportan renderizado complejo, y también permiten font fallback
El problema no era una limitación técnica, sino una decisión de política de que “no pertenece a la capa de símbolos”
Curiosamente, Gemini 3 Pro fuerza la salida de fórmulas en LaTeX sin importar la configuración. Compartí los resultados del experimento aquí
- Por muy bien que se manejen los superíndices y subíndices, sigue siendo imposible expresar fórmulas básicas como fracciones o paréntesis variables
  Porque Unicode es, en esencia, un sistema de caracteres, no un sistema de maquetación
- Las fórmulas matemáticas son mucho más complejas que los emoji. Me parece difícil incluso compararlos
- Me sorprende que parezca un problema exclusivo de Gemini 3. La mayoría de los LLM seguramente están centrados en LaTeX, así que más bien parece un resultado natural como estándar
- En realidad, decir que “se necesita LaTeX por las matemáticas” no pasa de ser una excusa antigua
  Los artículos basados en HTML son perfectamente posibles, pero los investigadores siguen aferrados al tradicional diseño de dos columnas y tipografías con serifas
  El problema cultural es querer que “se vea como un artículo de verdad” por encima de la accesibilidad móvil o la legibilidad
- Propongo un enfoque de dos etapas.
  En la primera se plantea la pregunta, y en la segunda se usa un modelo pequeño para convertir la notación LaTeX a expresiones matemáticas Unicode
Los artículos en HTML ya se ofrecían desde hace algunos años
De hecho, confirmé en el blog oficial que se introdujeron en 2023
- ¿Por qué HTML “experimental”?
  Porque el 90% de los artículos de arXiv están basados en LaTeX, y su conversión es muy difícil.
  El desafío principal es mejorar la accesibilidad manteniendo una conversión rápida y automatizada
- Hay documentación relacionada en la página de documentación de GitHub. Se menciona que hace falta la etiqueta de 2023
Como autor que usa con frecuencia estructuras TeX complejas, desde que se introdujo la conversión a HTML la carga de trabajo aumentó bastante
La conversión también es lenta y no hay forma de simularla localmente
Aun así, me parece un buen intento para mejorar la accesibilidad
- La imagen de Docker de dginev es casi idéntica al entorno de arXiv y se puede ejecutar localmente
Me gustaría que los artículos también se ofrecieran en formato epub. No sé si hay dificultades técnicas o si simplemente no hay suficiente demanda
- epub es, en la práctica, HTML
  Pero nunca he visto un lector que lo muestre de una forma tan cómoda o tan elegante como un PDF. Además, la compatibilidad de las anotaciones entre plataformas sigue siendo pobre
- epub al final es HTML/CSS bien pulido.
  Como sería ineficiente exigir a los investigadores que también garanticen esa calidad, si hace falta basta con usar directamente un convertidor de HTML→epub
- También queda la duda de “¿para qué hace falta epub?”, si al final de cuentas es HTML
El problema de la accesibilidad en la investigación no es nuevo, pero este es el momento más urgente
Que arXiv ofrezca artículos en HTML junto con PDF puede generar el cambio más rápido y de mayor impacto
- Sentí agradecimiento al ver mi preprint en HTML. También quisiera saber cómo la comunidad puede contribuir
Mi mayor queja es lo limitado que está insertar video en los artículos
Solo se puede adjuntar como material suplementario o ofrecerlo mediante enlaces externos.
Ojalá se pudiera insertar directamente GIF o video dentro del cuerpo del artículo
Al ver la explicación de que “el 90% está basado en LaTeX y por eso es difícil de convertir”, pensé que realmente es un trabajo desafiante. Es un buen intento
Cuando alrededor de 1998 me encargaba de editar el periódico escolar, propuse cambiar de Corel Draw a HTML
Al final, incluso en ese entonces, se terminó descartando adoptar HTML por las mismas razones que aparecen ahora en estos comentarios

HTML como formato accesible para papers de investigación (2023)

Resumen de la disponibilidad de papers en formato HTML

Por qué se llamó HTML “experimental”

Errores que pueden ocurrir en artículos HTML

Cómo participar desde la comunidad

Agradecimiento a los colaboradores

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News