- La computación reversible es un método teórico que ejecuta operaciones en sentido inverso para ahorrar energía sin borrar datos, y está ganando atención como alternativa para resolver el problema del consumo energético de la IA
- Las computadoras actuales inevitablemente liberan calor (energía) al borrar información, algo que no puede evitarse por un límite físico: el principio de Landauer
- El concepto de uncomputation conserva solo el resultado del cálculo y revierte el resto del proceso para manejarlo sin pérdida de información, aunque tiene límites prácticos como costo en velocidad y memoria
- Estudios recientes han demostrado que en tareas con mucho cómputo paralelo, como la IA, operar muchos chips reversibles más lentamente puede generar grandes ahorros de energía
- La industria y la comunidad investigadora ya están avanzando en el desarrollo de chips reversibles comerciales, lo que aumenta la posibilidad de una revolución en la eficiencia energética de la IA
La pérdida fundamental de energía en el cómputo
- Cuando una computadora suma dos números, por ejemplo 2 + 2 = 4, termina dejando solo una salida a partir de dos entradas
- En ese proceso se pierde parte de la información, lo que vuelve la operación irreversible, y esa información eliminada se transforma en energía térmica
- Como la mayoría de las computadoras funcionan de esta manera, siempre se produce de forma inevitable cierto grado de pérdida de información (generación de calor)
La propuesta de cómputo reversible de Landauer y sus límites
- Landauer imaginó una forma de reducir la pérdida de energía registrando todos los resultados sin borrar información
- Pero descubrió que una computadora así llenaría su memoria muy rápido en la práctica, por lo que tenía problemas de viabilidad
- Al final, Landauer concluyó que el cómputo reversible era un callejón sin salida
La idea de uncomputation de Bennett
- En 1973, Charles Bennett de IBM propuso guardar solo el resultado del cálculo y borrar el resto ejecutando el proceso en reversa (
uncomputation)
- Como en la analogía de Hansel y Gretel recogiendo de nuevo las migas de pan, esto permite dejar solo los datos necesarios y eliminar el resto sin perder información
- Este enfoque se consideró ineficiente porque tiene la desventaja de duplicar el tiempo de cómputo
La aparición de investigaciones que mejoraron su viabilidad
- En 1989, Bennett mostró que usando un poco más de memoria se podía reducir significativamente el tiempo de cómputo
- Después, otros investigadores siguieron trabajando en la optimización de memoria y tiempo
- Sin embargo, las computadoras también pierden energía, además del borrado de datos, por ineficiencias propias de la forma en que se conectan los transistores
- Para construir una computadora reversible con ahorro energético real, hace falta una arquitectura de baja pérdida térmica desde la etapa de diseño
El chip prototipo del MIT y la reacción de la industria
- En los años 90, ingenieros del MIT fabricaron un chip prototipo con mayor eficiencia de circuito
- Frank participó como estudiante de doctorado y luego se convirtió en una figura destacada del cómputo reversible
- Pero en una industria donde el rendimiento de los chips convencionales mejoraba rápidamente, hubo poco interés industrial en una alternativa todavía teórica, y el apoyo fue escaso
- Frank también dejó temporalmente esta línea de investigación y buscó otros caminos
- Sin embargo, al acercarse los circuitos a sus límites de miniaturización, el interés por la eficiencia energética creció con fuerza
La eficiencia energética del cómputo reversible y su posible aplicación en IA
- En 2022, Hannah Earley, de Cambridge, analizó con precisión la eficiencia energética de las computadoras reversibles
- Las computadoras reversibles emiten menos calor que las convencionales, aunque no pueden eliminarlo por completo
- En particular, se identificó que cuanto más lento operan, menos calor liberan
- Como los cálculos de IA funcionan en entornos de procesamiento paralelo, hacer que cada chip opere más lentamente y aumentar la cantidad de chips podría reducir el consumo total de energía
- Además, la menor velocidad también reduce los costos de enfriamiento, lo que podría permitir mayor densidad de chips y ahorro de espacio y materiales
Movimientos hacia la comercialización y perspectivas
- A medida que los inversionistas empezaron a prestar atención, Earley y Frank fundaron Vaire Computing e iniciaron el desarrollo de chips reversibles comerciales
- Mogensen, de la Universidad de Copenhague, entre otros, expresó grandes expectativas sobre la aplicación real de procesadores reversibles en el trabajo profesional
- El cómputo reversible, que durante décadas permaneció en el plano teórico, ahora es seguido de cerca por su posible impacto innovador en IA y eficiencia energética
Conclusión
- La computación reversible está atrayendo atención como una forma concreta de superar el límite físico del calor generado al borrar información, y como una tecnología de gran ahorro energético para la era de la IA
- Operar chips de forma más lenta y en paralelo encaja con la naturaleza estructural del cómputo de IA, lo que acerca su comercialización real
1 comentarios
Comentarios de Hacker News
En la novela Time de Stephen Baxter, la trama transcurre en un futuro extremadamente lejano, después de que todas las estrellas se apagaron y todos los agujeros negros se evaporaron, cuando los descendientes de la humanidad quedan en un universo de entropía máxima. Con la energía libre completamente agotada, aparece la idea de que estos descendientes sobreviven dentro de una simulación gigantesca repitiendo los mismos eventos usando solo computación reversible, que funciona sin consumir energía. Repiten el mismo bucle de eventos deshaciendo el resultado del cómputo con
uncomputey volviéndolo acompute.Desde la perspectiva de un ingeniero de software, se menciona que esto no resulta fácil de entender. Confunde la idea inicial de que al borrar información “desaparecen electrones”; si los electrones desaparecen en todas partes y la mayoría de las compuertas funcionan negando corriente, se pregunta si entonces todas esas acciones son malas. También plantea dudas sobre por qué registrar todos los cambios de memoria evitaría la pérdida de calor, si mantener toda la memoria de forma permanente no consumiría todavía más energía, y por qué sería útil, en términos prácticos, tener que regresar el cómputo al pasado.
En teoría, una computadora que nunca olvida información podría implementarse usando casi nada de electricidad y por tanto sin generar calor. Ese tipo de computadora sería de computación reversible (adiabática), donde todas las compuertas deben poder deshacerse. Aun así, en las etapas iniciales y finales, como fijar el estado de entrada y copiar la salida, sigue haciendo falta energía. En la práctica, en el mundo real, la mayor parte del consumo no se pierde por el “borrado” de información en las compuertas lógicas, sino por cosas como la resistencia del cableado. Para construir una CPU totalmente reversible haría falta hardware especial, como cableado y dispositivos superconductores. Además, revertir el cómputo tampoco es un problema fácil; la otra opción es simplemente borrar estado y aceptar el gasto de energía. Un ejemplo real serían las computadoras cuánticas, donde todas las compuertas lógicas son reversibles y pueden ejecutarse en sentido inverso.
Desde la termodinámica, un proceso reversible es teóricamente el máximo de eficiencia, y eso está relacionado con la entropía. Si se borra información, el proceso deja de ser reversible, así que la generación de calor se vuelve inevitable. Pero todo esto es estrictamente teórico y las computadoras reales ni de lejos alcanzan ese límite. Los elementos lógicos reales, como AND, OR y NAND, en su mayoría son operaciones irreversibles si se los aísla.
Se señala que los dispositivos de almacenamiento persistente, como discos duros y SSD, no consumen nada de energía para mantener los datos, así que tampoco generan calor por eso. Sin embargo, al borrar o sobrescribir datos, la energía es inevitable, y en ese proceso se produce bastante calor. También se menciona que la disipación térmica es uno de los obstáculos para seguir escalando chips más pequeños. Si se pudiera diseñar una computadora que no borre información, la generación de calor podría reducirse mucho, lo que abriría posibilidades para mejorar el rendimiento del chip, ahorrar energía y seguir escalando.
Hay cierto escepticismo respecto al motivo del ahorro energético, pero implementar arquitecturas de deep learning reversibles por sí solo ya parece un tema de investigación bastante interesante. De hecho, se discutió activamente entre 2019 y 2021 en eventos como la serie invertibleworkshop. También se comenta que los modelos de diffusion que hoy están de moda pueden verse como un caso especial de normalizing flow continuo, así que en teoría su cálculo es reversible. Aun así, se piensa que los modelos destilados usados en producción casi nunca lo son. Incluso en simulaciones de ecuaciones diferenciales, por errores de redondeo en punto flotante, es difícil que el cálculo inverso coincida exactamente, aunque con suficiente cuidado también es posible una simulación perfectamente reversible bit a bit.
Se cuestiona qué significa realmente que un cálculo tenga direccionalidad. Parece algo parecido a la causalidad, pero en realidad se percibe más como una cuestión de entradas y salidas. En el fondo, da la impresión de que primero habría que ejecutar el programa para saberlo, y que guardar el estado solo haría más sencillo el backtracking.
Sí, pero como se está hablando a nivel físico, haría falta hardware aparte. Borrar información, como en una operación AND, genera calor, así que se requieren compuertas lógicas diferentes, como la compuerta de Fredkin.
En realidad, todo cómputo tiene direccionalidad, y este tema resulta muy interesante. Por ejemplo, una función
f(x) -> yya marca una dirección. Sería ideal que el camino inverso siempre existiera, pero muchas veces no hay una inversa posible. Por ejemplo,f(x)=mx+bse invierte fácilmente siempre quem≠0, mientras que conf(x)=x^2, al intentar recuperarxdesdef(x), tanto+xcomo-xsirven, así que no hay unicidad. Aquí aplican los conceptos de imagen y preimagen de una función, y eso también se relaciona estrechamente con el problema de P=NP. En machine learning, los Normalizing Flow son invertibles, los diffusion models tienen estructura reversible, y hay quien expresa molestia con que en la comunidad de ML se use el término “inverse problem” en contextos como GAN inversion. Entender bien esta idea ayuda a ver por qué las predicciones suelen ser precisas solo en una dirección y fallan al invertirlas. Al final, esto termina conectándose con la inferencia causal. En física, uno de los grandes objetivos es transformar ecuaciones para construir mapas causales, pero ahí aparecen dificultades propias ligadas a la entropía y a la mecánica cuántica. Por ejemplo, si se invierte el cálculo del estado de moléculas de un gas, aparecen múltiples estados posibles en vez de una única solución. Como en el ejemplo de derivación e integración, la diferenciación no es reversible, ya quef(x)+Cproduce la misma derivada; en otras palabras, hay pérdida de información en una sola dirección. Tomar muestras del estado en varios momentos puede reducir mucho el espacio de soluciones.En resumen, si se minimizan las operaciones irreversibles, es decir, el borrado de información, es posible hacer cómputo reversible. Ejemplo: si en
2 + 2 + 2se conserva el registro de todas las operaciones, el cálculo sigue siendo reversible. Pero si se borra el historial y solo queda el resultado final,6, entonces ya es irreversible.Se menciona que se sigue a Mike P Frank en Twitter desde hace tiempo y que ahí publica con frecuencia comentarios interesantes sobre computación reversible e IA: MikePFrank en Twitter
Se espera que esta tecnología pudiera ser útil cuando vuelvan las tendencias de software basadas en centros de datos con GPU, pero se cree que probablemente no será un punto de inflexión por algo parecido a la paradoja de Jevons: cuando mejora la eficiencia, la demanda aumenta y al final no se logra un ahorro real de energía.
Hay curiosidad por saber cuál sería el plan concreto y si existe algún caso demostrado de
reversible matmul, ya que incluso en esa operación parece inevitable borrar información en pasos intermedios, lo que hace dudar de su viabilidad real.reversible matmul, pero no para operadores irreversibles como ReLU. Y tampoco queda claro, como afirma el artículo, si simplemente ejecutar el cálculo al revés realmente permitiría usar menos energía.Al ver el titular del artículo, alguien sintió ironía al notar que esa misma página web tarda 12 segundos en cargar incluso en una computadora moderna. Se lamenta que la gente, por lo general, no se preocupe por problemas ajenos y que, cuando surge una tecnología nueva como la IA, se tiendan a externalizar sus costos sociales: el medioambiente, el empleo de las personas, la infraestructura, las infracciones de copyright y hasta los sistemas sociales. Cuando se gana eficiencia, al final se termina usando más para beneficio propio, sin reducir el daño causado a los demás.
Ya se ha demostrado varias veces que, incluso usando un LLM muchas veces, el consumo eléctrico sigue siendo menor que el de hervir agua en una tetera eléctrica.