Caveman - Ahorra tokens de Claude/Codex con estilo de hombre de las cavernas

(github.com/JuliusBrussee)

30 puntos por GN⁺ 24 일 전 | 2 comentarios | Compartir por WhatsApp

Skill que fuerza respuestas en estilo de hombre de las cavernas para reducir en promedio 65~75% de los tokens de salida
Ajusta la intensidad de compresión en tres niveles: Lite·Full·Ultra, y genera respuestas cortas y eficientes manteniendo la precisión técnica
En benchmarks reales, las explicaciones sobre React·PostgreSQL·Git redujeron el uso de tokens a menos de la mitad
Ofrece al mismo tiempo mejora de legibilidad, reducción de costos y una velocidad de respuesta cerca de 3 veces mayor
Se puede instalar con un comando simple en Claude Code y Codex, y seguir usándolo durante toda la sesión

Resumen de Caveman

Plugin para Claude Code y Codex que convierte las respuestas del LLM a “caveman-speak” y reduce el uso de tokens en alrededor de 75%
Genera respuestas cortas y eficientes eliminando palabras innecesarias mientras mantiene la precisión técnica
La instalación se hace con un comando de una sola línea y puede usarse de forma persistente en todas las sesiones
Solo reduce los tokens de salida — los tokens de pensamiento/razonamiento no se ven afectados
Elementos que elimina:
- Saludos e introducciones: "Sure, I'd be happy to help" (desperdicio de 8 tokens)
- Inicio de explicación causal: "The reason this is happening is because" (7 tokens)
- Expresiones de recomendación: "I would recommend that you consider" (7 tokens)
- Introducciones de relleno: "Sure, let me take a look at that for you" (10 tokens)
Elementos que conserva: bloques de código, términos técnicos (como polymorphism), mensajes de error, mensajes de commit y PR de git

Ejemplos Before / After

La misma explicación técnica se expresa comprimida en frases cortas
- Explicación de la causa de un re-render de componentes en React: 69 tokens → 19 tokens
- Explicación de un bug en middleware de autenticación: más de 75% de ahorro de tokens
Se puede ajustar la intensidad de compresión en tres niveles: Lite / Full / Ultra
- Lite (/caveman lite): elimina expresiones innecesarias, mantiene la gramática — profesional pero sin relleno
- Full (/caveman full): modo caveman por defecto — omite artículos, usa frases cortas y fragmentadas
- Ultra (/caveman ultra): compresión máxima — estilo telegráfico, todo abreviado

Benchmarks

Comparación de uso real de tokens a través de la API de Claude: 65% de ahorro promedio
Rango de ahorro: 22%~87%
- Explicación de bug de re-render en React: 1,180 → 159 tokens (87% de ahorro)
- Configuración de pool de conexiones en PostgreSQL: 2,347 → 380 tokens (84% de ahorro)
- Build multietapa de Docker: 1,042 → 290 tokens (72% de ahorro)
- Explicación de git rebase vs merge: 702 → 292 tokens (58% de ahorro)
- Refactor de callback → async/await: 387 → 301 tokens (22% de ahorro, efecto mínimo)
Solo disminuyen los tokens de salida, los de pensamiento/razonamiento se mantienen igual
Los beneficios principales son mejor legibilidad y mayor velocidad de respuesta; la reducción de costos es un efecto adicional

Base científica

Paper de marzo de 2026 "Brevity Constraints Reverse Performance Hierarchies in Language Models": al forzar respuestas breves en modelos grandes, se observó una mejora de 26 puntos porcentuales en precisión en ciertos benchmarks y una inversión en el ranking de desempeño
"Verbose not always better. Sometimes less word = more correct"
- Hay casos en los que una respuesta más corta es más precisa que una respuesta extensa

Cómo instalar

Instalación en una línea: npx skills add JuliusBrussee/caveman
Plugin de Claude Code: claude plugin marketplace add JuliusBrussee/caveman
Codex: clona el repositorio y luego busca e instala Caveman desde el menú /plugins
Activadores: /caveman, "talk like caveman", "caveman mode", "less tokens please"
Desactivar: "stop caveman" o "normal mode"
Se instala una vez → luego se aplica a toda la sesión

Uso

Comandos de activación: /caveman, $caveman, “talk like caveman”, “caveman mode”, “less tokens please”
Comandos para salir: “stop caveman”, “normal mode”

Ajuste de intensidad

Level	Trigger	Características
Lite	`/caveman lite`	Mantiene la gramática, elimina palabras innecesarias
Full	`/caveman full`	Modo básico, elimina artículos y relleno
Ultra	`/caveman ultra`	Máxima compresión, expresión centrada en abreviaciones

La configuración se mantiene hasta que termine la sesión
Licencia MIT / Python 100% / Soporte para plugins de Claude Code y Codex

2 comentarios

joyfui 24 일 전

¿Hablar estilo espartano aquí también...? jaja

GN⁺ 24 일 전

Comentarios en Hacker News

Soy el autor. Algunas personas están refutando afirmaciones más fuertes de las que realmente hace este repositorio. En realidad esto se hizo en broma, no como un comentario a nivel de investigación
La idea no es reducir los reasoning tokens ocultos, sino enfocarse en recortar el relleno del texto de salida. No afecta al código en sí
Creo que los modelos de Anthropic están lo bastante ajustados con RL como para que no sea fácil degradar mucho su rendimiento a propósito
La cifra de “~75%” en el README venía de pruebas preliminares, así que debí expresarla con más cuidado. Ahora estoy preparando un benchmark formal
La skill no es gratis y consume parte del contexto al cargarse. Así que una evaluación real tiene que incluir tokens de entrada/salida, latencia y calidad
También hay investigaciones que muestran que prompts más concisos pueden acortar las respuestas manteniendo la calidad (enlace al paper)
En resumen, es una idea interesante, pero ha habido muchas interpretaciones exageradas y el README debería estar redactado con más precisión hasta que haya una evaluación formal
- Suena razonable. Las discusiones en línea suelen irse por ese camino. Aun así, este hilo está mejor que el promedio, aunque a veces decepciona
- Si quieres un benchmark, recomiendo revisar adam-s/testing-claude-agent
- Resumen: “Esto es una broma. No se enojen conmigo. Pero, ¿medio funciona?”
- Yo también tuve una conversación parecida con un LLM, y explicó que tiende a responder corto ante preguntas cortas, y a dar respuestas con mucha información ante solicitudes amables. Al final, la forma de preguntar sí afecta el estilo de la respuesta
  (Y sigo sin entender por qué este tipo de comentario relacionado recibe tantos downvotes)
- La frase “los modelos de Anthropic están optimizados para programación y no se les puede forzar una degradación de rendimiento” confunde un poco.
  Si le agregas un prompt como “actúa de forma tonta”, obviamente puedes bajar el rendimiento. La cuestión es cuánto impacta realmente un estilo de salida específico
Siempre he pensado que si fuerzas a un LLM a hablar de una forma distinta a su tono por defecto, su capacidad de razonamiento disminuye.
Porque algunas capas del modelo necesariamente tienen que enfocarse en “qué decir” o en “cómo decirlo”
En experimentos como ficción colaborativa o roleplay, he visto que cuanto más hechos tiene que considerar el modelo, más difícil se le hace mantener el estilo
- Al revés, si le dices “habla mucho”, la salida crece bastante. Los indicadores de personalidad sí tienen mucho impacto
- Yo pienso algo parecido. Al final, el modelo tiene un attention budget limitado, así que lo que puede hacer al mismo tiempo también es limitado
La idea está divertida. Pero también me gustaría ver una dirección de tokens ricos, no solo tokens simples.
Por ejemplo, usar algo como “improve idiomatically” en vez de “make good”. El lenguaje es un modulador de la realidad, así que un uso más fino podría dar mejores resultados. Espero ese benchmark
- Este estilo “caveman” me recuerda al estilo de los telegramas de antes. ¿Podría el modelo aprender “tokens ricos” que compriman información, como un libro de abreviaturas telegráficas, y luego decodificarlos en el navegador? enlace al libro de abreviaturas telegráficas
- Esto se parece al debate RISC vs CISC. Así como la simplicidad ganó en escalabilidad, los LLM también parecen estar evolucionando hacia pensar con conceptos simples y ortogonales
- Sugieren probar prompts como “MILSPEC prose register. Max per-token semantic yield.”
Yo le hablé a Claude como caveman y la comprensión bajó, con muchos malentendidos. Al final tuve que explicar más cosas, y si había errores de dedo se perdía mucho contexto.
Da la impresión de que al final hacen falta más palabras. También parece que el LLM obtiene menos información de sus propias respuestas anteriores
- En foros generales (Twitter, Reddit) la gente se queja de que los LLM son tontos, pero viendo cómo escriben se entiende por qué
- Al principio de ChatGPT probé hablar solo en s-expression, y el modelo respondía también en s-expression. El contenido era un desastre, pero los paréntesis estaban bien. Ahora ya no pasa así
- “¿Por qué hablar mucho? Hablar poco ahorra tiempo. Mundo océano”
- Como la mayor parte de los datos de habla “caveman” no son conversaciones científicas, parece que el modelo no sabe predecir bien ese contexto
Vi un texto sobre un Grug brained developer encontrándose con tooling de IA (grugbrain.dev)
- Yo también uso mucho a Grug como ejemplo cuando le pido a un LLM que explique conceptos
La idea está interesante. Pero en mi empresa evalúan el desempeño por consumo de tokens. ¿Habrá alguna skill para volver a Claude deliberadamente verboso?
- Haz que en cada loop escriba una explicación estilo ELI5 en /tmp
- ¿Lo dices en serio o es broma? ¿Trabajas en Nvidia, de casualidad?
Idea tierna, pero en la práctica el cuello de botella son los tokens de entrada.
El modelo lee montones de archivos, salida de herramientas y árboles de directorios, pero la salida son solo unas cuantas centenas de líneas de código y una explicación breve
- En un solo turno, sí. Pero acumulado en varios turnos, optimizar la salida sí tiene sentido.
  Por cierto, el mismo punto se puede transmitir sin decir “Cute idea, but” (enlace)
- Además, esta skill no afecta los thinking tokens. De hecho, cambiar al estilo caveman podría requerir todavía más razonamiento interno
También existe este estudio relacionado: ‘Brevity Constraints Reverse Performance Hierarchies in Language Models’ (2026)
Interesante. Tal vez hasta se podría descomprimir la salida con un modelo 2B
Seguro alguien ya lo intentó, o yo mismo estoy pensando en implementarlo
Si un LLM conversara en un lenguaje no humano en vez de lenguaje humano, podría ser más eficiente.
La idea sería que un modelo local pequeño traduzca la entrada humana a un lenguaje amigable para LLM, y que el modelo grande piense en ese lenguaje antes de volver a traducir
Modelos con ventana de contexto pequeña como Apple Fundamental Models también podrían usarse como esa capa de traducción.
También parece posible hacer que descubran ese lenguaje por sí mismos con aprendizaje por refuerzo. Sería un proyecto realmente divertido
- Yo también he pensado algo parecido. Estaría bueno crear un lenguaje para LLM dedicado y entrenar modelos con eso, pero probablemente harían falta entre 60 y 100 millones de dólares.
  Porque habría que inventar un lenguaje y un método de entrenamiento completamente nuevos. Aun así, si alguien levantara inversión VC para eso, me gustaría participar

Caveman - Ahorra tokens de Claude/Codex con estilo de hombre de las cavernas

Resumen de Caveman

Ejemplos Before / After

Benchmarks

Base científica

Cómo instalar

Uso

Lecturas relacionadas

2 comentarios

Comentarios en Hacker News