- arXiv es un repositorio de artículos científicos de acceso abierto creado en 1991 por Paul Ginsparg, y hasta hoy sigue siendo una de las plataformas más importantes para científicos de todo el mundo.
- Al eludir la estructura tradicional de publicación académica, lenta y costosa, permitió que los investigadores compartieran de inmediato artículos previos a revisión (preprints), contribuyendo así a la colaboración científica y a la innovación.
- arXiv empezó como un simple script automatizado, pero hoy se ha convertido en una plataforma gigantesca con más de 20 mil envíos mensuales y 5 millones de usuarios.
- Al principio operaba de manera informal y ligera, pero después atravesó varias crisis relacionadas con la complejidad del código operativo, conflictos internos y obsolescencia tecnológica.
- Actualmente, con el apoyo de la Simons Foundation y bajo un nuevo liderazgo, avanza una migración a la nube y una refactorización del código en Python, mientras Ginsparg sigue concentrado en el problema del filtrado de calidad.
Los orígenes de arXiv y su desafío a la estructura de la publicación científica
- El físico Paul Ginsparg expresó, citando una línea de The Godfather, que no logra desligarse por completo de la plataforma que creó.
> “Just when I thought I was out, they pull me back in!”
> “¡Justo cuando creí que ya había salido, me vuelven a arrastrar!” - Profesor de Cornell University y ganador de una MacArthur Genius Grant, hace 35 años desarrolló arXiv, un repositorio digital para compartir artículos previos a la evaluación por pares (preprints).
- Incluso hoy, arXiv.org conserva un diseño de estilo clásico de la web 1.0 y los símbolos característicos de Cornell, pero detrás de esa apariencia simple, arXiv es una plataforma que provocó un cambio fundamental en la forma en que circula el conocimiento científico.
- Si arXiv dejara de funcionar, podría causar graves interrupciones en el trabajo de científicos de todo el mundo; de hecho, muchos matemáticos y físicos entran a diario.
> “Everybody in math and physics uses it. I scan it every night.” — Scott Aaronson
> “Todo el mundo en matemáticas y física lo usa. Yo lo reviso cada noche.”
El papel de arXiv y los cuestionamientos a la estructura de la publicación académica
-
En distintos ámbitos de la sociedad existen estructuras con problemas crónicos, y en la academia uno de los ejemplos más señalados es la irracionalidad del sistema de publicación.
-
El modelo de negocio con fines de lucro de grandes editoriales como Elsevier y Springer es criticado por operar de la siguiente manera:
- Exige a los autores escribir artículos sin remuneración
- Hace que otros investigadores realicen la edición gratis
- Los artículos terminados se venden a precios altos y las instituciones pagan suscripciones costosas
> “Calling their practice a form of thuggery isn’t so much an insult as an economic observation.”
> “Llamar a su práctica una forma de matonería no es tanto un insulto como una observación económica.”
-
La evaluación por pares (peer review) tradicional puede tomar desde varios meses hasta un año, y esa lentitud se convierte en un cuello de botella para la circulación de la información.
-
En cambio, arXiv permite que cualquiera publique y acceda de inmediato a trabajos en la etapa previa a la revisión (preprint), resolviendo así problemas estructurales del sistema de publicación.
-
La innovación central de arXiv puede resumirse así:
> “Showing that you could divorce the actual transmission of your results from the process of refereeing.” — Paul Fendley
> “Demostró que era posible separar la transmisión real de tus resultados del proceso de arbitraje.” -
Esta estructura hizo una contribución decisiva para difundir con rapidez hallazgos científicos relevantes en situaciones de crisis, como la pandemia de COVID-19.
- Inspirados por arXiv surgieron bioRxiv y medRxiv, que extendieron el modelo al campo de las ciencias de la vida, y se ha planteado incluso la posibilidad de que hayan ayudado a salvar millones de vidas.
La estructura de control de calidad de arXiv
- Los artículos enviados a arXiv no pasan por una evaluación formal por pares, pero sí mantienen estándares académicos básicos y reglas mediante revisiones voluntarias de expertos por área.
- Principales elementos del control de calidad:
- Solo se permite investigación original
- Se prohíben los datos manipulados
- Se exige un lenguaje neutral
- Además, los artículos enviados también pasan por una revisión básica mediante sistemas automatizados.
- Sin estos procedimientos de verificación, arXiv correría el riesgo de verse inundado de pseudociencia o envíos de personas no expertas.
La influencia de arXiv y el presente de Ginsparg
- En 2021, la revista científica Nature eligió a arXiv como uno de los “10 computer codes that transformed science”.
> “10 computer codes that transformed science”
> “10 códigos informáticos que transformaron la ciencia” - Se valoró mucho el papel de arXiv en impulsar la colaboración científica, y actualmente cuenta con:
- Más de 2.6 millones de artículos
- 20 mil nuevos envíos al mes
- 5 millones de usuarios mensuales
- Muchas de las principales revelaciones científicas del siglo XXI se dieron a conocer por primera vez a través de arXiv, entre ellas:
- El artículo sobre “transformers” que detonó el auge moderno de la IA
- La solución de la conjetura de Poincaré, uno de los problemas del milenio
- Muchos artículos publicados en arXiv terminan apareciendo después en revistas prestigiosas, pero su ventaja clave es que desde el momento en que se suben a arXiv quedan accesibles para cualquiera.
> “Just because a paper is posted on arXiv doesn’t mean it won’t appear in a prestigious journal someday.”
> “Que un artículo se publique en arXiv no significa que después no vaya a aparecer en una revista prestigiosa.”
La realidad interna de arXiv y el problema de la sostenibilidad
- Para los científicos, arXiv es tan indispensable como una biblioteca pública o el GPS, pero en la práctica su operación está lejos de ser una plataforma ideal y sin fricciones.
- A lo largo del tiempo, arXiv ha enfrentado problemas como:
- Conflictos burocráticos
- Código envejecido
- Incluso casos de espionaje
- Ginsparg describe esta realidad así:
> “A child I sent off to college but who keeps coming back to camp out in my living room, behaving badly.”
> “Es como un hijo que mandé a la universidad, pero que no deja de volver para instalarse en mi sala y portarse mal.” - Al remitir solicitudes de entrevista al FAQ o desaconsejar visitas en persona, Ginsparg sigue intentando mantener cierta distancia de arXiv.
La personalidad, gustos y vida cotidiana de Ginsparg
- En una entrevista en Ithaca (donde se encuentra Cornell), Ginsparg se mostró como alguien
- Alegre y juguetón
- Pero al mismo tiempo terco en su empeño por imponer su filosofía sin restricciones
- Según su antiguo jefe, Geoffrey West, es alguien:
> “Quite a character, infamous in the community, extremely funny, a great guy.”
> “Todo un personaje, famoso en la comunidad, extremadamente gracioso y un gran tipo.” - El propio Ginsparg menosprecia los artículos sobre arXiv y dice:
> “So many articles, so few insights.”
> “Tantos artículos, tan pocas ideas valiosas.” - Hoy, a sus 69 años, mantiene una vida activa disfrutando del ciclismo y el senderismo, y siempre viste con un estilo cómodo de viajero.
La oficina de Ginsparg y sus intereses recientes
- La oficina del departamento de física de Cornell, más que “desordenada”, tiene una atmósfera de objetos antiguos detenidos en el tiempo
- Hay cajas de mensajería de los 90, revistas viejas, monitores CRT, una invitación de la Casa Blanca y más
- Un libro enviado por Stephen Wolfram incluye una nota divertida
> “Since you can’t find it on arXiv :)”
> “Como no lo vas a encontrar en arXiv :)”
- Lo único que sigue en uso activo es una pizarra llena de fórmulas sobre teoría de la medición cuántica
- Incluso fuera de la oficina, muestra una capacidad de observación minuciosa sobre cosas como la estructura del edificio, la circulación del personal y hasta las especies de aves que llegan cada año
- Expresa preocupación por el problema de los artículos de baja calidad, que han aumentado junto con el boom de los artículos de IA, y está desarrollando un “holy grail crackpot filter” para filtrarlos
> “The holy grail crackpot filter.”
> “El filtro definitivo para artículos chiflados.” - Incluso ahora, para mantener la calidad de arXiv, sigue experimentando con modelos de lenguaje, al punto de recuperar discos duros él mismo
- Este tipo de acciones puede interpretarse como una actitud de responsabilidad personal por mantener la calidad de arXiv
El nacimiento de arXiv y su historia temprana
- arXiv originalmente no era infraestructura científica, sino una simple colección de scripts de shell que corrían en la máquina NeXT de Ginsparg, y nació en junio de 1991 a partir de un detonante en una conferencia en Colorado
- En ese momento, Joanne Cohn, entonces posdoctorante en el Institute for Advanced Study de Princeton y encargada de una lista de correo de preprints de física, señaló el problema de que “no existía un sistema central para compartir artículos de física”
- El acceso a la lista de correo dependía de la afiliación o de los contactos personales, y además existía la ineficiencia de que la publicación de los artículos tomaba varios meses
- Cuando un físico bromeó con que “mientras viaja le llegan tantos artículos por correo electrónico que se le llena el espacio de almacenamiento”, Ginsparg vio la necesidad de un sistema automatizado de distribución de artículos
- Cuando le preguntó a Cohn si no había pensado en automatizarlo, ella respondió
> “Go ahead and do it yourself.”
> “Entonces hazlo tú mismo.”
- Cuando le preguntó a Cohn si no había pensado en automatizarlo, ella respondió
- Al día siguiente, Ginsparg realmente escribió los scripts y los terminó, y
> “My recollection is that the next day he’d come up with the scripts and seemed pretty happy about having done it so quickly.”
> “Según recuerdo, al día siguiente ya había hecho los scripts y parecía muy contento de haberlo logrado tan rápido.” — Joanne Cohn
La posición generacional de Ginsparg y la evolución técnica de arXiv
- A Ginsparg a menudo se le compara con un Forrest Gump de la era de internet, y
- durante sus años en Harvard fue compañero de generación de Bill Gates y Steve Ballmer
- su hermano estudió en Stanford con el pionero de la IA Terry Winograd
- ambos tenían cuentas de correo electrónico en Arpanet, algo muy poco común en esa época
- Tras obtener un doctorado en física teórica en Cornell, comenzó como profesor en Harvard, pero después de que le negaran la titularidad, se mudó a Los Alamos
- allí tenía un entorno que le permitía dedicarse exclusivamente a la investigación en teoría de altas energías y unas condiciones locales adecuadas para un estilo de vida centrado en el ejercicio
El sistema de arXiv antes de la web y su evolución hacia la web
- En sus inicios, arXiv no era un sitio web, sino un servidor de respuesta automática por correo electrónico, y unos meses después también operó un servidor FTP
- Más tarde, Ginsparg oyó hablar de una nueva tecnología llamada “World Wide Web” y al principio reaccionó con escepticismo diciendo
> “I can’t really pay attention to every single fad.”
> “No puedo prestar atención a cada moda que aparece.”
pero con la llegada del navegador Mosaic en 1993 se interesó y construyó él mismo la interfaz web
- Más tarde, Ginsparg oyó hablar de una nueva tecnología llamada “World Wide Web” y al principio reaccionó con escepticismo diciendo
- También tuvo relación con Tim Berners-Lee de CERN, a quien recuerda como “un programador que asaba muy bien el pez espada”
> “Tim grilled excellent swordfish at his home in the French countryside.”
> “Tim preparaba un pez espada espectacular en su casa, en la campiña francesa.”
El origen del nombre y la reorganización de la base de código
- En 1994, con financiamiento de la National Science Foundation, contrató a dos desarrolladores para refactorizar los scripts de shell iniciales en código Perl más estable
- Mark Doyle: más tarde se convirtió en CIO de la American Physical Society
- Rob Hartill: trabajaba al mismo tiempo en el proyecto IMDb y después también participó en la Apache Software Foundation
- La dirección inicial de arXiv era
xxx.lanl.gov, donde “xxx” no tenía el significado actual; después, pensando junto con su esposa en “un nombre mejor”, decidieron usar la letra griega chi (χ) para crear ‘arXiv’
> “She wrote it down and crossed out the e to make it more symmetric around the X.”
> “Ella lo escribió y tachó la ‘e’ para que quedara más simétrico alrededor de la X.” - Al principio no existía una organización formal: había uno o dos desarrolladores, y los administradores eran en su mayoría conocidos y colegas; además, esperaban alrededor de 100 artículos al año, pero desde el inicio arrancó con 100 al mes y creció rápidamente
La rápida expansión de la comunidad y la consolidación de arXiv
- Según Ginsparg,
> “Day one, something happened, day two something happened, day three, Ed Witten posted a paper. That was when the entire community joined.”
> “El primer día pasó algo, el segundo día también, y al tercer día Ed Witten subió un artículo. Ahí fue cuando se sumó toda la comunidad.” - Edward Witten es considerado el mayor físico teórico contemporáneo y también es llamado “la persona viva más inteligente”, y él mismo comentó
> “The arXiv enabled much more rapid worldwide communication among physicists.”
> “arXiv permitió una comunicación mucho más rápida entre físicos de todo el mundo.” - Después se expandió a diversas áreas como matemáticas e informática, y el propio Ginsparg recordó la experiencia de desarrollar arXiv en sus inicios diciendo
> “It was fun.”
> “Fue divertido.”
La expansión de arXiv y el inicio de los conflictos
- A medida que el uso de arXiv se disparó, comenzó a enfrentar problemas de escalabilidad y operación típicos de los grandes sistemas de software, especialmente la lentitud de los servidores y la carga de la moderación
- Por ejemplo, hubo un incidente de sobrecarga provocado por una avalancha de tráfico desde “stanford.edu”, que más tarde se supo que correspondía a la época en que Sergey Brin y Larry Page, futuros creadores de Google, estaban rastreando arXiv en la web
> “Years later, when Ginsparg visited Google HQ, both Brin and Page personally apologized to him for the incident.”
> “Años después, cuando Ginsparg visitó la sede de Google, Brin y Page le pidieron disculpas personalmente por ese incidente.”
- Por ejemplo, hubo un incidente de sobrecarga provocado por una avalancha de tráfico desde “stanford.edu”, que más tarde se supo que correspondía a la época en que Sergey Brin y Larry Page, futuros creadores de Google, estaban rastreando arXiv en la web
La estrategia de supervivencia de arXiv y cómo aseguró su independencia frente a la industria editorial
- La razón principal por la que arXiv sobrevivió fue que evitó ataques de la estructura de poder de la publicación académica tradicional, gracias a una estrategia que desde el principio hacía que los usuarios aceptaran, al enviar sus trabajos, una cláusula según la cual “arXiv podía distribuir ese artículo de forma no exclusiva y permanente”
- Gracias a esa cláusula, los artículos podían seguir en arXiv incluso después de publicarse en otras revistas, eliminando el incentivo para que las grandes editoriales intentaran cerrarlo
La salida de Los Alamos y el regreso a Cornell
- Aunque arXiv se consolidó cada vez más como una infraestructura importante para la comunidad científica, dentro del Laboratorio de Los Alamos no respaldaban mucho el proyecto arXiv; más bien, les pesaba que hubiera adquirido una influencia mayor que la del propio laboratorio.
- Ginsparg describió esa época como
> “dreamlike and heavenly” “como un sueño y celestial” - pero, tras el caso de espionaje de Wen Ho Lee en 1999, el ambiente dentro del laboratorio cambió drásticamente, y las medidas reforzadas de seguridad y el desgaste psicológico acumulado lo llevaron a decidir cambiar de trabajo.
- En su evaluación de desempeño de ese momento, recibió la dura crítica de que era “a strictly average performer with no particular computer skills”
→ “un trabajador de rendimiento estrictamente promedio, sin habilidades informáticas particulares”, y el hecho de que acababa de nacer su hija, junto con cuestiones del entorno educativo, también fue una de las razones para irse.
- En su evaluación de desempeño de ese momento, recibió la dura crítica de que era “a strictly average performer with no particular computer skills”
- Ginsparg describió esa época como
- Al final, Ginsparg regresó a Cornell, su alma mater, y arXiv se mudó junto con él, y declaró que “dejaría de involucrarse en arXiv en un máximo de cinco años”.
> “They disseminate material to academics, so that seemed like a natural fit.”
> “Difunden material a la comunidad académica, así que parecía una opción natural.”
Choques operativos dentro de la biblioteca
- Sin embargo, la biblioteca de Cornell no entendía bien la complejidad técnica de arXiv; incluso la sola lógica de envío requería manejar innumerables casos excepcionales, así que tratarlo como un simple sistema de almacenamiento de materiales fue el problema.
- Ginsparg y los primeros miembros sentían que la biblioteca veía a arXiv como una especie de añadido posterior, mientras que, por el otro lado, desde la biblioteca tenían la impresión de que Ginsparg intervenía demasiado directamente.
> “Good lower-level manager … but his sense of management didn’t scale.”
> “Buen administrador de nivel operativo… pero su visión de la gestión no se adaptaba a una operación a gran escala.” - Durante la mayor parte de los años 2000, arXiv funcionó sin lograr asegurar personal de desarrollo estable.
Críticas a la filosofía y la forma de operar de Ginsparg
- Ginsparg seguía manteniendo un perfil de desarrollador muy orientado a la práctica, revisando él mismo el código y encontrando errores, y mostraba una actitud cínica hacia las charlas externas o los roles de asesoría de alto nivel.
> “Larry Summers spending one day a week consulting for some hedge fund—it’s just unseemly.”
> “Que Larry Summers dedique un día a la semana a asesorar a algún hedge fund se ve mal.” - Pero su involucramiento prolongado también se volvió un problema; arXiv fue creciendo cada vez más y
> “bigger than all of us” — Stephanie Orphan (directora del programa de arXiv)
> “más grande que todos nosotros”
empezó a compartirse esa percepción. - Surgieron diversas controversias, como la demanda de un físico defensor del diseño inteligente, polémicas por plagio y críticas por abuso de autoridad de los moderadores.
- En particular, en 2009 el físico independiente Philip Gibbs creó viXra, una plataforma opuesta a arXiv.
- Se trataba de una “plataforma casi sin regulación que funciona en dirección opuesta a arXiv”, donde se registraban sobre todo teorías extrañas o artículos de aficionados.
- Un ejemplo representativo es el artículo “π es falso”(link).
- En particular, en 2009 el físico independiente Philip Gibbs creó viXra, una plataforma opuesta a arXiv.
Problemas de gestión del código base y choque de prácticas de desarrollo
- arXiv se convirtió cada vez más en una gran base de código, y como su estructura inicial estaba armada sin considerar la mantenibilidad ni las pruebas,
- surgieron problemas estructurales comparables a una “obra de construcción sin inspecciones de seguridad”.
- Eso permitió un desarrollo inicial rápido, pero provocó deuda técnica de largo plazo y mayor complejidad.
- Ginsparg seguía interviniendo directamente en la revisión y modificación del código sin la aprobación de la biblioteca, y por ello
> “micromanaging and sowing distrust”
> “microgestión y siembra de desconfianza”
terminó recibiendo esas críticas.
Intento de retiro, permanencia y agravamiento de los conflictos internos
- En 2011, al cumplirse el 20.º aniversario de arXiv, Ginsparg tomó la decisión de retirarse y publicó en Nature “ArXiv at 20” un mensaje de despedida.
> “For me, the repository was supposed to be a three-hour tour, not a life sentence.”
> “Para mí, el repositorio debía ser un paseo de tres horas, no una condena de por vida.”
> “ArXiv was originally conceived to be fully automated, so as not to scuttle my research career.”
> “arXiv fue concebido originalmente para ser totalmente automatizado, para no echar a perder mi carrera de investigación.”
> “But daily administrative activities associated with running it can consume hours of every weekday, year-round without holiday.”
> “Pero las actividades administrativas diarias asociadas con operarlo pueden consumir horas de cada día hábil, todo el año y sin descanso.” - Después, la operación cotidiana se transfirió a la biblioteca de Cornell, y Ginsparg planeaba retirarse a un rol de asesor, pero en la práctica las cosas no salieron así.
- Algunos empleados criticaban que Ginsparg “retenía el código como rehén” y que se negaba a usar GitHub o compartirlo internamente.
- Él, por su parte, expresó su frustración porque funciones que antes implementaba en un solo día ahora tardaban semanas.
> “I learned Fortran in the 1960s, and real programmers didn’t document.”
> “Aprendí Fortran en los años 60, y los programadores de verdad no documentaban.”
(→ descrito como una respuesta capaz de provocar un infarto al entrevistador)
Confusión de gestión y reestructuración
- Además de los problemas técnicos, arXiv también atravesó confusión administrativa.
- En 2019, dentro de Cornell, el departamento al que pertenecía arXiv se transfirió a Ciencias de la Computación y de la Información, pero volvió a cambiar pocos meses después.
- Más tarde, una persona con experiencia en publicación académica comercial asumió como responsable operativa, pero dejó el cargo al año y medio.
> “There was disruption … it was not a good period.”
> “Hubo disrupción… no fue un buen periodo.” — una fuente interna de arXiv
- El punto de inflexión llegó en 2022, cuando con el apoyo de la Fundación Simons se incorporó una gran cantidad de personal de desarrollo, y
- el profesor Ramin Zabih, de Cornell, fue nombrado responsable operativo,
- y se puso en marcha de lleno la migración a la nube y el trabajo de refactorización del código basado en Python.
Rasgos personales y reflexión
- Incluso durante la entrevista con el periodista, Ginsparg mantuvo una actitud juguetona, como cuando le arreglaba la bicicleta a su hijo o se burlaba de la condición física de la otra persona durante un paseo en bici.
- En la última subida dijo
> “I might’ve oversold this to you.”
> “Puede que te haya vendido de más esta ruta.”
reconociendo el cansancio.
- En la última subida dijo
- Tras varios días de entrevistas, el periodista comentó que la persistencia y la terquedad de Ginsparg explicaban por qué arXiv había sobrevivido, y ante eso Ginsparg reaccionó de forma inesperada.
> “One person’s tenacity is another person’s terrorism.”
> “Lo que para una persona es tenacidad, para otra puede ser terrorismo.” - Luego añadió
> “I’ve heard that the staff occasionally felt terrorized.”
> “He oído que el personal a veces se sintió aterrorizado.”
reconociéndolo.
El presente y el futuro de arXiv
- Actualmente, arXiv sigue operando de forma turbulenta,
- la lingüista Emily Bender llegó a criticar a arXiv como un “cáncer” que fomenta la “junk science” y la “fast scholarship”
(tuit relacionado, texto relacionado)
- la lingüista Emily Bender llegó a criticar a arXiv como un “cáncer” que fomenta la “junk science” y la “fast scholarship”
- En 2023, un artículo que afirmaba haber descubierto un superconductor a temperatura ambiente fue refutado rápidamente, y se convirtió en un caso que mostró el rápido mecanismo de retroalimentación de arXiv
- Por otro lado, también ha habido casos en los que artículos normales fueron retirados por “expresiones incendiarias” o “lenguaje poco profesional”, lo que ha generado controversias sobre “censura”
- Caso representativo: el retiro de un artículo de Jorge Hirsch, creador del h-index
- Por otro lado, también ha habido casos en los que artículos normales fueron retirados por “expresiones incendiarias” o “lenguaje poco profesional”, lo que ha generado controversias sobre “censura”
La postura actual y el apego de Ginsparg
- Él evita presentarse como un “pionero de la ciencia abierta” y, más que una gran misión, disfruta arXiv como un espacio para experimentar con ideas
> “There are various aspects of this that remain incredibly entertaining.”
> “Todavía hay aspectos de este proyecto que son increíblemente entretenidos.”
> “I have the perfect platform for testing ideas and playing with them.”
> “Tengo la plataforma perfecta para probar ideas y jugar con ellas.” - Aunque ya no mete mano al código operativo de arXiv, sigue dedicado a un proyecto personal para desarrollar un ‘filtro de artículos falsos’
> “It’s like that Al Pacino quote: They keep bringing me back.”
> “Es como esa frase de Al Pacino: siguen trayéndome de vuelta.”
> “But Al Pacino also developed a real taste for killing people.”
> “Pero Al Pacino también terminó agarrándole un verdadero gusto a matar gente.”
(→ una forma humorística de expresar su relación de amor y odio con arXiv, y su propia obsesión)
1 comentarios
Comentarios de Hacker News