30 puntos por GN⁺ 24 일 전 | 2 comentarios | Compartir por WhatsApp
  • Skill que fuerza respuestas en estilo de hombre de las cavernas para reducir en promedio 65~75% de los tokens de salida
  • Ajusta la intensidad de compresión en tres niveles: Lite·Full·Ultra, y genera respuestas cortas y eficientes manteniendo la precisión técnica
  • En benchmarks reales, las explicaciones sobre React·PostgreSQL·Git redujeron el uso de tokens a menos de la mitad
  • Ofrece al mismo tiempo mejora de legibilidad, reducción de costos y una velocidad de respuesta cerca de 3 veces mayor
  • Se puede instalar con un comando simple en Claude Code y Codex, y seguir usándolo durante toda la sesión

Resumen de Caveman

  • Plugin para Claude Code y Codex que convierte las respuestas del LLM a “caveman-speak” y reduce el uso de tokens en alrededor de 75%
  • Genera respuestas cortas y eficientes eliminando palabras innecesarias mientras mantiene la precisión técnica
  • La instalación se hace con un comando de una sola línea y puede usarse de forma persistente en todas las sesiones
  • Solo reduce los tokens de salida — los tokens de pensamiento/razonamiento no se ven afectados
  • Elementos que elimina:
    • Saludos e introducciones: "Sure, I'd be happy to help" (desperdicio de 8 tokens)
    • Inicio de explicación causal: "The reason this is happening is because" (7 tokens)
    • Expresiones de recomendación: "I would recommend that you consider" (7 tokens)
    • Introducciones de relleno: "Sure, let me take a look at that for you" (10 tokens)
  • Elementos que conserva: bloques de código, términos técnicos (como polymorphism), mensajes de error, mensajes de commit y PR de git

Ejemplos Before / After

  • La misma explicación técnica se expresa comprimida en frases cortas
    • Explicación de la causa de un re-render de componentes en React: 69 tokens → 19 tokens
    • Explicación de un bug en middleware de autenticación: más de 75% de ahorro de tokens
  • Se puede ajustar la intensidad de compresión en tres niveles: Lite / Full / Ultra
    • Lite (/caveman lite): elimina expresiones innecesarias, mantiene la gramática — profesional pero sin relleno
    • Full (/caveman full): modo caveman por defecto — omite artículos, usa frases cortas y fragmentadas
    • Ultra (/caveman ultra): compresión máxima — estilo telegráfico, todo abreviado

Benchmarks

  • Comparación de uso real de tokens a través de la API de Claude: 65% de ahorro promedio
  • Rango de ahorro: 22%~87%
    • Explicación de bug de re-render en React: 1,180 → 159 tokens (87% de ahorro)
    • Configuración de pool de conexiones en PostgreSQL: 2,347 → 380 tokens (84% de ahorro)
    • Build multietapa de Docker: 1,042 → 290 tokens (72% de ahorro)
    • Explicación de git rebase vs merge: 702 → 292 tokens (58% de ahorro)
    • Refactor de callback → async/await: 387 → 301 tokens (22% de ahorro, efecto mínimo)
  • Solo disminuyen los tokens de salida, los de pensamiento/razonamiento se mantienen igual
  • Los beneficios principales son mejor legibilidad y mayor velocidad de respuesta; la reducción de costos es un efecto adicional

Base científica

  • Paper de marzo de 2026 "Brevity Constraints Reverse Performance Hierarchies in Language Models": al forzar respuestas breves en modelos grandes, se observó una mejora de 26 puntos porcentuales en precisión en ciertos benchmarks y una inversión en el ranking de desempeño
  • "Verbose not always better. Sometimes less word = more correct"
    • Hay casos en los que una respuesta más corta es más precisa que una respuesta extensa

Cómo instalar

  • Instalación en una línea: npx skills add JuliusBrussee/caveman
  • Plugin de Claude Code: claude plugin marketplace add JuliusBrussee/caveman
  • Codex: clona el repositorio y luego busca e instala Caveman desde el menú /plugins
  • Activadores: /caveman, "talk like caveman", "caveman mode", "less tokens please"
  • Desactivar: "stop caveman" o "normal mode"
  • Se instala una vez → luego se aplica a toda la sesión

Uso

  • Comandos de activación: /caveman, $caveman, “talk like caveman”, “caveman mode”, “less tokens please”

  • Comandos para salir: “stop caveman”, “normal mode”

  • Ajuste de intensidad

    Level Trigger Características
    Lite /caveman lite Mantiene la gramática, elimina palabras innecesarias
    Full /caveman full Modo básico, elimina artículos y relleno
    Ultra /caveman ultra Máxima compresión, expresión centrada en abreviaciones
  • La configuración se mantiene hasta que termine la sesión

  • Licencia MIT / Python 100% / Soporte para plugins de Claude Code y Codex

2 comentarios

 
joyfui 24 일 전

¿Hablar estilo espartano aquí también...? jaja

 
GN⁺ 24 일 전
Comentarios en Hacker News
  • Soy el autor. Algunas personas están refutando afirmaciones más fuertes de las que realmente hace este repositorio. En realidad esto se hizo en broma, no como un comentario a nivel de investigación
    La idea no es reducir los reasoning tokens ocultos, sino enfocarse en recortar el relleno del texto de salida. No afecta al código en sí
    Creo que los modelos de Anthropic están lo bastante ajustados con RL como para que no sea fácil degradar mucho su rendimiento a propósito
    La cifra de “~75%” en el README venía de pruebas preliminares, así que debí expresarla con más cuidado. Ahora estoy preparando un benchmark formal
    La skill no es gratis y consume parte del contexto al cargarse. Así que una evaluación real tiene que incluir tokens de entrada/salida, latencia y calidad
    También hay investigaciones que muestran que prompts más concisos pueden acortar las respuestas manteniendo la calidad (enlace al paper)
    En resumen, es una idea interesante, pero ha habido muchas interpretaciones exageradas y el README debería estar redactado con más precisión hasta que haya una evaluación formal

    • Suena razonable. Las discusiones en línea suelen irse por ese camino. Aun así, este hilo está mejor que el promedio, aunque a veces decepciona
    • Si quieres un benchmark, recomiendo revisar adam-s/testing-claude-agent
    • Resumen: “Esto es una broma. No se enojen conmigo. Pero, ¿medio funciona?”
    • Yo también tuve una conversación parecida con un LLM, y explicó que tiende a responder corto ante preguntas cortas, y a dar respuestas con mucha información ante solicitudes amables. Al final, la forma de preguntar sí afecta el estilo de la respuesta
      (Y sigo sin entender por qué este tipo de comentario relacionado recibe tantos downvotes)
    • La frase “los modelos de Anthropic están optimizados para programación y no se les puede forzar una degradación de rendimiento” confunde un poco.
      Si le agregas un prompt como “actúa de forma tonta”, obviamente puedes bajar el rendimiento. La cuestión es cuánto impacta realmente un estilo de salida específico
  • Siempre he pensado que si fuerzas a un LLM a hablar de una forma distinta a su tono por defecto, su capacidad de razonamiento disminuye.
    Porque algunas capas del modelo necesariamente tienen que enfocarse en “qué decir” o en “cómo decirlo”
    En experimentos como ficción colaborativa o roleplay, he visto que cuanto más hechos tiene que considerar el modelo, más difícil se le hace mantener el estilo

    • Al revés, si le dices “habla mucho”, la salida crece bastante. Los indicadores de personalidad sí tienen mucho impacto
    • Yo pienso algo parecido. Al final, el modelo tiene un attention budget limitado, así que lo que puede hacer al mismo tiempo también es limitado
  • La idea está divertida. Pero también me gustaría ver una dirección de tokens ricos, no solo tokens simples.
    Por ejemplo, usar algo como “improve idiomatically” en vez de “make good”. El lenguaje es un modulador de la realidad, así que un uso más fino podría dar mejores resultados. Espero ese benchmark

    • Este estilo “caveman” me recuerda al estilo de los telegramas de antes. ¿Podría el modelo aprender “tokens ricos” que compriman información, como un libro de abreviaturas telegráficas, y luego decodificarlos en el navegador? enlace al libro de abreviaturas telegráficas
    • Esto se parece al debate RISC vs CISC. Así como la simplicidad ganó en escalabilidad, los LLM también parecen estar evolucionando hacia pensar con conceptos simples y ortogonales
    • Sugieren probar prompts como “MILSPEC prose register. Max per-token semantic yield.”
  • Yo le hablé a Claude como caveman y la comprensión bajó, con muchos malentendidos. Al final tuve que explicar más cosas, y si había errores de dedo se perdía mucho contexto.
    Da la impresión de que al final hacen falta más palabras. También parece que el LLM obtiene menos información de sus propias respuestas anteriores

    • En foros generales (Twitter, Reddit) la gente se queja de que los LLM son tontos, pero viendo cómo escriben se entiende por qué
    • Al principio de ChatGPT probé hablar solo en s-expression, y el modelo respondía también en s-expression. El contenido era un desastre, pero los paréntesis estaban bien. Ahora ya no pasa así
    • “¿Por qué hablar mucho? Hablar poco ahorra tiempo. Mundo océano”
    • Como la mayor parte de los datos de habla “caveman” no son conversaciones científicas, parece que el modelo no sabe predecir bien ese contexto
  • Vi un texto sobre un Grug brained developer encontrándose con tooling de IA (grugbrain.dev)

    • Yo también uso mucho a Grug como ejemplo cuando le pido a un LLM que explique conceptos
  • La idea está interesante. Pero en mi empresa evalúan el desempeño por consumo de tokens. ¿Habrá alguna skill para volver a Claude deliberadamente verboso?

    • Haz que en cada loop escriba una explicación estilo ELI5 en /tmp
    • ¿Lo dices en serio o es broma? ¿Trabajas en Nvidia, de casualidad?
  • Idea tierna, pero en la práctica el cuello de botella son los tokens de entrada.
    El modelo lee montones de archivos, salida de herramientas y árboles de directorios, pero la salida son solo unas cuantas centenas de líneas de código y una explicación breve

    • En un solo turno, sí. Pero acumulado en varios turnos, optimizar la salida sí tiene sentido.
      Por cierto, el mismo punto se puede transmitir sin decir “Cute idea, but” (enlace)
    • Además, esta skill no afecta los thinking tokens. De hecho, cambiar al estilo caveman podría requerir todavía más razonamiento interno
  • También existe este estudio relacionado: ‘Brevity Constraints Reverse Performance Hierarchies in Language Models’ (2026)

  • Interesante. Tal vez hasta se podría descomprimir la salida con un modelo 2B

  • Seguro alguien ya lo intentó, o yo mismo estoy pensando en implementarlo
    Si un LLM conversara en un lenguaje no humano en vez de lenguaje humano, podría ser más eficiente.
    La idea sería que un modelo local pequeño traduzca la entrada humana a un lenguaje amigable para LLM, y que el modelo grande piense en ese lenguaje antes de volver a traducir
    Modelos con ventana de contexto pequeña como Apple Fundamental Models también podrían usarse como esa capa de traducción.
    También parece posible hacer que descubran ese lenguaje por sí mismos con aprendizaje por refuerzo. Sería un proyecto realmente divertido

    • Yo también he pensado algo parecido. Estaría bueno crear un lenguaje para LLM dedicado y entrenar modelos con eso, pero probablemente harían falta entre 60 y 100 millones de dólares.
      Porque habría que inventar un lenguaje y un método de entrenamiento completamente nuevos. Aun así, si alguien levantara inversión VC para eso, me gustaría participar