Manual de inferencia de LLM

(bentoml.com)

3 puntos por GN⁺ 2025-07-12 | 1 comentarios | Compartir por WhatsApp

El Manual de inferencia de LLM ofrece una guía integral de los conceptos clave y técnicas de optimización necesarias para la inferencia de LLM en entornos reales de producción
Proporciona información esencial para el trabajo práctico, como métricas de rendimiento (por ejemplo, Time to First Token, Tokens per Second) y mejores prácticas operativas
Explica en detalle métodos de optimización modernos como batching continuo y caché de prefijo
Reúne en un solo lugar el conocimiento sobre inferencia de LLM que estaba disperso, para mejorar la comprensión y utilidad para los desarrolladores
El manual se actualiza continuamente para reflejar información reciente del campo y metodologías comprobadas

Introducción al Manual de inferencia de LLM

LLM Inference in Production combina en una sola obra un glosario técnico, una guía práctica y un libro de referencia
Este manual aborda en detalle los temas que es imprescindible conocer en la práctica, como los conceptos básicos de la inferencia de LLM, métricas de rendimiento, técnicas de optimización (batching continuo, caché de prefijo, etc.) y mejores prácticas operativas

Ofrece orientación práctica sobre despliegue, escalamiento y operación de LLM en entornos de producción
Excluye excepciones poco realistas o ruido técnico innecesario, y se enfoca en lo realmente importante en el trabajo de campo
Presenta técnicas de mejora de rendimiento adecuadas para cada caso de uso, ayudando de forma real a optimizar el desempeño
Se actualiza continuamente con las últimas tendencias de la industria e insights validados en la práctica

Motivo de redacción

A los desarrolladores les resulta difícil encontrar información sobre inferencia de LLM, o la encuentran dispersa en muchos lugares, por lo que enfrentan un problema de fragmentación del conocimiento
El equipo autor del manual recopiló contenidos dispersos en papers, blogs de proveedores, issues de GitHub y conversaciones en Discord para organizarlos de forma que se pueda comprender de una sola vez:

La diferencia entre entrenamiento e inferencia de LLM
La relación entre Goodput y el cumplimiento de SLO
El uso práctico de la técnica de separación Prefill-Decode

Público objetivo

Este manual fue creado para ingenieros que despliegan, escalan y operan LLM en entornos de producción
Desde el fine-tuning de modelos abiertos pequeños hasta la operación de infraestructura propia a gran escala,

está dirigido principalmente a todas las personas que buscan hacer la inferencia de LLM más rápida, más barata y más confiable

Cómo usarlo

Este manual puede leerse de principio a fin o consultarse solo en las partes necesarias, como si fuera una obra de referencia
No existe un orden de entrada ni una forma de uso específica,

y se seguirá añadiendo/actualizando contenido para mantenerse al ritmo de los rápidos cambios en el campo de la inferencia de LLM

Guía de contribución

Se agradece el reporte de errores, las sugerencias de mejora y la incorporación de nuevos temas

Cualquiera puede participar registrando un issue o enviando un Pull Request al repositorio de GitHub

1 comentarios

GN⁺ 2025-07-12

Comentarios de Hacker News

Hola, soy uno de los mantenedores principales de este proyecto. Me da mucha alegría y es un honor que nuestro proyecto haya sido presentado en Hacker News. La razón por la que hicimos este handbook fue para que los desarrolladores que crean aplicaciones reales con LLM también puedan acercarse fácilmente a los conceptos de inferencia de LLM. Quisimos reunir conocimientos dispersos en muchos lugares de una forma clara, práctica y escalable. Vamos a seguir mejorándolo para hacer un handbook cada vez mejor, así que estamos recibiendo activamente todo tipo de feedback. También agradecería que le echaran un vistazo al repositorio de GitHub
- Muchas gracias por organizar todo esto. Tengo una pregunta: al ver esta imagen, donde se definen TTFT e ITL, parece que el modelo genera 4 tokens desde T0 hasta T3 y luego emite un token de salida. En mi opinión, esa imagen parece más adecuada para explicar ITL, y en el caso de TTFT, en la etapa de decode debería salir solo T0 y pasar de inmediato a la detokenization para que llegue el primer token de salida (porque en un entorno de streaming, si no se mide TTFT, no tendría mucho sentido)
- No creo que vaya a abrir un issue aparte, pero me gustaría que en la parte de self-hosting del handbook recomendaran explícitamente opciones open source de inferencia local y self-hosted como llama.cpp
- Me gusta porque este handbook parece útil y está bien organizado. Pero está dividido en demasiadas páginas pequeñas, y como en móvil la tabla de contenido no se muestra por defecto, se vuelve incómodo de leer. Terminé dejando de leer después de solo unas pocas páginas. Al menos me gustaría que cada sección apareciera en una sola página
- De verdad es un trabajo genial, está muy bien hecho visualmente y resulta útil
El diseño también está muy bueno y me dio curiosidad: quisiera saber cuál es la tendencia o el nombre del estilo de diseño que usaron en el sitio web. También me gustó mucho el diseño de este sitio
- Parece que usan el framework base de CSS llamado Infima. Es el framework CSS por defecto de Docusaurus, y aprovecha tal cual la pila de fuentes del sistema. La font-family es -apple-system, BlinkMacSystemFont, "Segoe UI", Roboto, Helvetica, Arial, sans-serif
Ojalá en el futuro agreguen más contenido sobre Structured outputs/Guided generation y sampling. Como referencia adicional para algoritmos de sampling en la etapa de inferencia, también vale la pena revisar esto
- Wow, este material que resume sampling también está súper detallado
Me alegra mucho que haya salido un handbook así. Entiendo que en los materiales públicos haya tanto interés y emoción por el entrenamiento de modelos, pero operar bien un modelo en la práctica también es muy importante. Si se quiere adoptar ampliamente en distintas aplicaciones, cada vez va a hacer más falta conocimiento sobre ejecución y operación
Gracias por reunir y organizar todo esto. De ahora en adelante, creo que bastará con compartir este único enlace para que alguien interesado pueda aprender. Si pudiera hacer una sugerencia, sería bueno agregar en la página de "OpenAI-compatible API" un ejemplo de llamadas REST puras sin usar el paquete de OpenAI
Lo que recuerdo de BentoML es que originalmente estaba más relacionado con MLOps; creo que lo usé hace un año. Me da curiosidad saber si la empresa cambió de enfoque
- Como el serving de LLM ocupa una parte grande del mercado, para un framework de serving es un paso natural expandirse hacia esta área
Es una referencia excelente, gracias por organizarlo tan bien