Caveman - Ahorra tokens de Claude/Codex con estilo de hombre de las cavernas
(github.com/JuliusBrussee)- Skill que fuerza respuestas en estilo de hombre de las cavernas para reducir en promedio 65~75% de los tokens de salida
- Ajusta la intensidad de compresión en tres niveles: Lite·Full·Ultra, y genera respuestas cortas y eficientes manteniendo la precisión técnica
- En benchmarks reales, las explicaciones sobre React·PostgreSQL·Git redujeron el uso de tokens a menos de la mitad
- Ofrece al mismo tiempo mejora de legibilidad, reducción de costos y una velocidad de respuesta cerca de 3 veces mayor
- Se puede instalar con un comando simple en Claude Code y Codex, y seguir usándolo durante toda la sesión
Resumen de Caveman
- Plugin para Claude Code y Codex que convierte las respuestas del LLM a “caveman-speak” y reduce el uso de tokens en alrededor de 75%
- Genera respuestas cortas y eficientes eliminando palabras innecesarias mientras mantiene la precisión técnica
- La instalación se hace con un comando de una sola línea y puede usarse de forma persistente en todas las sesiones
- Solo reduce los tokens de salida — los tokens de pensamiento/razonamiento no se ven afectados
- Elementos que elimina:
- Saludos e introducciones: "Sure, I'd be happy to help" (desperdicio de 8 tokens)
- Inicio de explicación causal: "The reason this is happening is because" (7 tokens)
- Expresiones de recomendación: "I would recommend that you consider" (7 tokens)
- Introducciones de relleno: "Sure, let me take a look at that for you" (10 tokens)
- Elementos que conserva: bloques de código, términos técnicos (como polymorphism), mensajes de error, mensajes de commit y PR de git
Ejemplos Before / After
- La misma explicación técnica se expresa comprimida en frases cortas
- Explicación de la causa de un re-render de componentes en React: 69 tokens → 19 tokens
- Explicación de un bug en middleware de autenticación: más de 75% de ahorro de tokens
- Se puede ajustar la intensidad de compresión en tres niveles: Lite / Full / Ultra
- Lite (
/caveman lite): elimina expresiones innecesarias, mantiene la gramática — profesional pero sin relleno - Full (
/caveman full): modo caveman por defecto — omite artículos, usa frases cortas y fragmentadas - Ultra (
/caveman ultra): compresión máxima — estilo telegráfico, todo abreviado
- Lite (
Benchmarks
- Comparación de uso real de tokens a través de la API de Claude: 65% de ahorro promedio
- Rango de ahorro: 22%~87%
- Explicación de bug de re-render en React: 1,180 → 159 tokens (87% de ahorro)
- Configuración de pool de conexiones en PostgreSQL: 2,347 → 380 tokens (84% de ahorro)
- Build multietapa de Docker: 1,042 → 290 tokens (72% de ahorro)
- Explicación de git rebase vs merge: 702 → 292 tokens (58% de ahorro)
- Refactor de callback → async/await: 387 → 301 tokens (22% de ahorro, efecto mínimo)
- Solo disminuyen los tokens de salida, los de pensamiento/razonamiento se mantienen igual
- Los beneficios principales son mejor legibilidad y mayor velocidad de respuesta; la reducción de costos es un efecto adicional
Base científica
- Paper de marzo de 2026 "Brevity Constraints Reverse Performance Hierarchies in Language Models": al forzar respuestas breves en modelos grandes, se observó una mejora de 26 puntos porcentuales en precisión en ciertos benchmarks y una inversión en el ranking de desempeño
- "Verbose not always better. Sometimes less word = more correct"
- Hay casos en los que una respuesta más corta es más precisa que una respuesta extensa
Cómo instalar
- Instalación en una línea:
npx skills add JuliusBrussee/caveman - Plugin de Claude Code:
claude plugin marketplace add JuliusBrussee/caveman - Codex: clona el repositorio y luego busca e instala Caveman desde el menú
/plugins - Activadores:
/caveman, "talk like caveman", "caveman mode", "less tokens please" - Desactivar: "stop caveman" o "normal mode"
- Se instala una vez → luego se aplica a toda la sesión
Uso
-
Comandos de activación:
/caveman,$caveman, “talk like caveman”, “caveman mode”, “less tokens please” -
Comandos para salir: “stop caveman”, “normal mode”
-
Ajuste de intensidad
Level Trigger Características Lite /caveman liteMantiene la gramática, elimina palabras innecesarias Full /caveman fullModo básico, elimina artículos y relleno Ultra /caveman ultraMáxima compresión, expresión centrada en abreviaciones -
La configuración se mantiene hasta que termine la sesión
-
Licencia MIT / Python 100% / Soporte para plugins de Claude Code y Codex
2 comentarios
¿Hablar estilo espartano aquí también...? jaja
Comentarios en Hacker News
Soy el autor. Algunas personas están refutando afirmaciones más fuertes de las que realmente hace este repositorio. En realidad esto se hizo en broma, no como un comentario a nivel de investigación
La idea no es reducir los reasoning tokens ocultos, sino enfocarse en recortar el relleno del texto de salida. No afecta al código en sí
Creo que los modelos de Anthropic están lo bastante ajustados con RL como para que no sea fácil degradar mucho su rendimiento a propósito
La cifra de “~75%” en el README venía de pruebas preliminares, así que debí expresarla con más cuidado. Ahora estoy preparando un benchmark formal
La skill no es gratis y consume parte del contexto al cargarse. Así que una evaluación real tiene que incluir tokens de entrada/salida, latencia y calidad
También hay investigaciones que muestran que prompts más concisos pueden acortar las respuestas manteniendo la calidad (enlace al paper)
En resumen, es una idea interesante, pero ha habido muchas interpretaciones exageradas y el README debería estar redactado con más precisión hasta que haya una evaluación formal
(Y sigo sin entender por qué este tipo de comentario relacionado recibe tantos downvotes)
Si le agregas un prompt como “actúa de forma tonta”, obviamente puedes bajar el rendimiento. La cuestión es cuánto impacta realmente un estilo de salida específico
Siempre he pensado que si fuerzas a un LLM a hablar de una forma distinta a su tono por defecto, su capacidad de razonamiento disminuye.
Porque algunas capas del modelo necesariamente tienen que enfocarse en “qué decir” o en “cómo decirlo”
En experimentos como ficción colaborativa o roleplay, he visto que cuanto más hechos tiene que considerar el modelo, más difícil se le hace mantener el estilo
La idea está divertida. Pero también me gustaría ver una dirección de tokens ricos, no solo tokens simples.
Por ejemplo, usar algo como “improve idiomatically” en vez de “make good”. El lenguaje es un modulador de la realidad, así que un uso más fino podría dar mejores resultados. Espero ese benchmark
Yo le hablé a Claude como caveman y la comprensión bajó, con muchos malentendidos. Al final tuve que explicar más cosas, y si había errores de dedo se perdía mucho contexto.
Da la impresión de que al final hacen falta más palabras. También parece que el LLM obtiene menos información de sus propias respuestas anteriores
Vi un texto sobre un Grug brained developer encontrándose con tooling de IA (grugbrain.dev)
La idea está interesante. Pero en mi empresa evalúan el desempeño por consumo de tokens. ¿Habrá alguna skill para volver a Claude deliberadamente verboso?
/tmpIdea tierna, pero en la práctica el cuello de botella son los tokens de entrada.
El modelo lee montones de archivos, salida de herramientas y árboles de directorios, pero la salida son solo unas cuantas centenas de líneas de código y una explicación breve
Por cierto, el mismo punto se puede transmitir sin decir “Cute idea, but” (enlace)
También existe este estudio relacionado: ‘Brevity Constraints Reverse Performance Hierarchies in Language Models’ (2026)
Interesante. Tal vez hasta se podría descomprimir la salida con un modelo 2B
Seguro alguien ya lo intentó, o yo mismo estoy pensando en implementarlo
Si un LLM conversara en un lenguaje no humano en vez de lenguaje humano, podría ser más eficiente.
La idea sería que un modelo local pequeño traduzca la entrada humana a un lenguaje amigable para LLM, y que el modelo grande piense en ese lenguaje antes de volver a traducir
Modelos con ventana de contexto pequeña como Apple Fundamental Models también podrían usarse como esa capa de traducción.
También parece posible hacer que descubran ese lenguaje por sí mismos con aprendizaje por refuerzo. Sería un proyecto realmente divertido
Porque habría que inventar un lenguaje y un método de entrenamiento completamente nuevos. Aun así, si alguien levantara inversión VC para eso, me gustaría participar