Versor: framework de PyTorch que usa rotaciones geométricas (Rotors) en lugar de multiplicación de matrices
(github.com/Concode0)Detrás de los sorprendentes logros del deep learning siempre ha estado la "multiplicación de matrices (Wx+b)". Pero Versor cuestiona ese estándar. Su planteamiento es que "las matrices generan distorsiones que rasgan o arrugan los manifolds durante el procesamiento de los datos".
Versor es un framework de PyTorch basado en álgebra geométrica (Geometric Algebra) desarrollado para superar ese "techo del álgebra lineal (Linear Algebra Ceiling)". En lugar de matrices, usa Rotors para preservar la estructura topológica inherente de los datos y propone un nuevo paradigma de deep learning.
Filosofía central: Unbending (desplegar) y luego Filtering (recortar)
El enfoque de Versor no consiste simplemente en "quedarse con todo sin reducir dimensiones". La idea clave es "alinear los datos sin dañarlos y luego extraer limpiamente solo la información necesaria".
-
Unbending (Rotor)
Mientras que una matriz común suele implicar shear y stretch, el producto sándwich de un Rotor es una isometría. Como si se planchara una hoja arrugada, rota y despliega los datos preservando perfectamente sus distancias y ángulos.
-
Geometric Filtering (BladeSelector)
Cuando los datos se despliegan correctamente en términos geométricos, la información queda alineada en ejes específicos (Basis Blade) o grados (Grade). En ese punto,
BladeSelectordescarta el ruido y conserva solo la información geométrica esencial (por ejemplo, componentes vectoriales) para reducir la dimensionalidad. Es una compresión cualitativamente distinta de los métodos tradicionales de reducción por proyección, que fuerzan el aplastamiento de los datos para bajar dimensiones.
Características principales
-
Metric-Agnostic Kernel: desde geometría euclidiana (Cl(3,0)) hasta espacio-tiempo (Cl(1,3)) y geometría conforme (Cl(4,1)), funciona con el mismo código simplemente cambiando la signature.
-
White-Box AI: los parámetros aprendidos no son números opacos, sino "planos de rotación (Bivector)". Es posible interpretar "en qué plano y cuánto rotó" el modelo los datos para alinearlos.
-
Alto rendimiento y ligereza: soporta escalado O(n) y es lo bastante liviano como para permitir inferencia en tiempo real (5.8 ms/molécula) incluso en una CPU M4.
Mientras propuestas académicas recientes como GATr, que han ganado atención, adoptan un "enfoque arquitectónico" al usar GA dentro de una estructura transformer, Versor se enfoca en la "esencia geométrica" al introducir Rotors desde la unidad mínima de operación para bloquear desde el origen la distorsión espacial. Gracias a ello, logra una implementación más ligera, capaz de hacer inferencia en tiempo real con muchos menos parámetros.
Resultados de benchmark
-
QM9 (propiedades moleculares): al aplicar geometría euclidiana 3D (Cl(3,0)), alcanzó un MAE de 14.42 meV con solo 1 hora de entrenamiento en una sola GPU 4090.
-
Motion Alignment (UCI-HAR): alineó datos de movimiento de alta dimensión hacia un espacio latente linealmente separable usando solo rotación, alcanzando una precisión de ~100%.
-
Semantic Disentanglement (NLP): en el dataset 20 Newsgroups, logró 100% de Grade Purity mediante separación geométrica. (Grade Purity 100% significa que datos complejamente entrelazados fueron separados y alineados perfectamente, sin ruido, únicamente como componentes de "vector (Vector)", lo que demuestra matemáticamente que el aprendizaje de la estructura geométrica fue exitoso.)
¿No será overfitting?
La rápida convergencia y la alta precisión pueden generar dudas, pero esto se debe a un fuerte sesgo inductivo geométrico (Geometric Inductive Bias).
-
Una matriz general (n x n) tiene demasiados grados de libertad y termina aprendiendo incluso el ruido,
-
pero los Rotors de Versor están restringidos matemáticamente para permitir solo "rotación (Rotation)".
-
Como tienen una estructura que no puede hacer shear ni stretch, el modelo no puede aprender nada fuera de la estructura esencial de los datos, aunque quisiera. Por eso logra una gran capacidad de generalización con pocos parámetros.
Como Versor corre sobre Pytorch, se puede usar prácticamente la misma interfaz. Además, actualmente se están desarrollando activamente nuevas tareas y métricas, así que agradecerán mucho cualquier feedback.
10 comentarios
¿Podrías explicar cómo se relaciona el proyecto que compartiste con el contenido del siguiente artículo?
Versor: A Geometric Sequence Architecture
https://arxiv.org/abs/2602.10195
https://github.com/VersorAI/Versor
El nombre es el mismo y parece que los conceptos que usan también son parecidos, pero como no conozco bien este campo, no me queda claro de qué manera están relacionados.
Como las demos concretas son distintas, supongo que quizá sea un caso en el que surgieron ideas similares casi al mismo tiempo, y pregunto porque me da curiosidad si la tendencia reciente en este campo en sí se está orientando hacia este tipo de enfoque.
Gracias por su interés. Ya estaba al tanto del artículo que mencionó en su pregunta, y yo mismo realicé una revisión técnica minuciosa.
Como resultado de esa revisión, confirmé múltiples indicios graves de mala conducta en la investigación (Research Misconduct), incluida la imposibilidad física de los indicadores de rendimiento que afirma ese artículo y la manipulación de datos. En consecuencia, ya presenté una denuncia formal ante el comité de ética de investigación de QMUL (Queen Mary University of London), la institución a la que pertenecen los autores.
Actualmente, recibí respuesta de la universidad confirmando que la denuncia fue recibida correctamente y que se inició el procedimiento oficial de investigación (Triage stage). Por lo tanto, le agradecería que entendiera que ese artículo, más que ser un caso de coincidencia accidental de ideas, es un asunto en el que se detectaron fallas de ética en la investigación y sobre el que actualmente se está llevando a cabo una investigación oficial.
Nuevamente, muchas gracias por reconocer el valor del proyecto original y por dejar su pregunta.
Ya veo. De todos modos, espero que todo se resuelva como corresponde.
Oh, qué interesante.
¿Hay resultados que se puedan demostrar con cifras, en lugar de métricas ambiguas como «sobresaliente»?
Gracias por sus comentarios. Es posible que los valores indicados en el cuerpo del texto les hayan parecido algo poco familiares y por eso se sintieran "ambiguos", pero Versor fue desarrollado estrictamente con base en pruebas numéricas. Permítanme resumir una vez más los indicadores clave.
En la tarea QM9, alcanzó 14.42 meV en menos de una hora con una sola 4090. En comparación con los modelos SOTA existentes, que requieren varios días de cómputo en clústeres a gran escala, esta cifra demuestra una eficiencia de recursos de varias decenas de veces.
Incluso en un entorno de CPU (M4), registró una velocidad de inferencia de 5.8 ms/molécula, lo que confirmó su eficiencia frente a otros modelos.
También en la tarea UCI-HAR, mediante alineación geométrica, logró 100% de exactitud y Grade Purity. Este es el indicador más claro de que no se trata de una simple conjetura estadística, sino de una alineación perfecta de la estructura topológica de los datos.
Versor está demostrando la realidad matemática de las restricciones geométricas. También responderemos con cifras en los benchmarks que se publicarán próximamente, así que agradecemos mucho su interés.
Los valores numéricos también los mostraron bien, pero creo que sería bueno mostrar una comparación de esos números. Lo que da curiosidad es cuánto mejoró la velocidad al hacer algo similar con el mismo hardware; para mucha gente, saber que la velocidad es "cuánto" en sí no les da una idea clara y en realidad tampoco les interesa tanto.
Los datos comparativos, por supuesto, estarán incluidos. Sin embargo, consideré que las cifras de eficiencia por hora en una sola GPU ya presentadas eran suficientes para explicar lo innovador de la arquitectura. Si desean una comparación más intuitiva, les agradecería que esperaran el gráfico que se actualizará pronto.
De verdad me parece muy bueno este enfoque.
Pensé que algo del lado de la topología algebraica podría ser significativo, pero esto es mucho más simple.
Muchas gracias de verdad por empatizar. Yo también consideré un enfoque desde la topología algebraica durante el proceso de investigación, pero al final llegué a la conclusión de que, desde una perspectiva de ingeniería, la claridad del álgebra geométrica se integra mejor con el aprendizaje profundo. Gracias a que reconociste el valor de esa "simplicidad", me voy con mucha más confianza en mi enfoque.