OpenMythos: aparece una implementación de código abierto con ingeniería inversa de Claude Mythos
(github.com/kyegomez)- Un proyecto de código abierto que asume la arquitectura de Claude Mythos y la implementa con la forma de un “transformer que piensa de manera iterativa”
- OpenMythos recrea la estructura de Claude Mythos, conocido como el modelo de próxima generación de Anthropic, combinando información pública e ideas de investigación
- No es el modelo real, sino un proyecto que implementa en código la hipótesis de que “podría funcionar de esta manera”
Idea clave
El núcleo de este proyecto, a diferencia de los LLM convencionales,
consiste en ejecutar repetidamente la misma estructura en lugar de hacer el modelo más grande.
Al ejecutar varias veces una misma capa, actualiza gradualmente el estado interno,
y en ese proceso realiza un razonamiento más profundo.
Estructura principal
- Estructura que ejecuta repetidamente el mismo bloque transformer
- Durante la repetición, se activan de forma selectiva distintos expertos (MoE)
- Los resultados intermedios no se emiten como tokens externos, sino que se procesan en el estado interno
- Aplicación de una estructura de attention para mejorar la eficiencia de memoria
Diferencias frente al enfoque tradicional
Mientras que un LLM típico deja ver su proceso de razonamiento al generar tokens,
esta arquitectura se acerca más a un método que repite cálculos internamente varias veces y luego solo entrega el resultado final.
Es decir, no apunta a “pensar mientras habla”,
sino a una estructura de “pensar lo suficiente por dentro y luego hablar”.
Significado
Este enfoque también se relaciona con el problema de costos causado por el aumento en el uso de tokens.
Si el razonamiento se procesa mediante iteraciones internas, se puede reducir la cantidad de tokens generados hacia afuera.
Además, puede verse como una nueva tendencia en la medida en que busca elevar el rendimiento del modelo no aumentando el número de parámetros,
sino incrementando la cantidad de cómputo en la etapa de inferencia.
Limitaciones
No hay garantía de que sea igual a la arquitectura real de Claude Mythos,
y todavía faltan resultados de rendimiento validados o experimentos a gran escala.
Insight en una línea
- En vez de agrandar más el modelo, hacer que el mismo modelo se ejecute repetidamente para que piense más a fondo podría convertirse en el diseño de los LLM de próxima generación
7 comentarios
Estaría bueno que hubiera votos negativos en GeekNews.
> No hay garantía de que sea idéntico a la arquitectura real de Claude Mythos,
Entonces eso no es ingeniería inversa en absoluto;;
Si ni siquiera se ha hecho público, ¿cómo se supone que lo van a invertir mediante ingeniería inversa...??
No es un modelo real, sino un proyecto que implementa en código la hipótesis de que “podría funcionar de esta manera”..
¿Por qué no hacen GPT 6 y dicen que podría funcionar así? jajaja
Siento que esta persona, cada vez que sale algo que se vuelve tema, se pone a sacar en masa cosas con el patrón de nombre
open*, así que la percepción que deja no me parece muy buena...Cuando vi quién lo hizo y resultó ser el líder de un proyecto cripto, asentí con la cabeza...
Ah, sí, cierto. Viendo la lista del repo, parece que hay algunos proyectos más que empiezan con Open...