El futuro de la investigación en IA: de la receta al meal kit

(open.substack.com)

8 puntos por flamehaven01 2026-01-20 | 2 comentarios | Compartir por WhatsApp

Resumen clave (TL;DR)

Explosión de papers de IA = progreso + al mismo tiempo un ‘Noise Tax’
- Papers anuales de IA entre 2013 → 2023: ~102,000 → ~242,000
- En el mismo período, proporción de IA dentro de los papers de CS: 21.6% → 41.8%
A medida que aumentan los papers, se dispara el costo de selección/reproducción/operación
- Se lee más, pero los productos son menos estables
- Cuanto más se persigue el SOTA, más caen la reproducibilidad y la operabilidad
Cuando un paper se lleva a producción, casi siempre aparecen 4 modos de fallo
Por eso, la señal para 2026 es simple:
DIY (implementar la receta) ↓ / Packaging (meal kit) ↑
- Más que “leer el paper e implementarlo”, gana una unidad lista para desplegarse
- Empaquetados como NVIDIA NIM / SLM / Ollama están creando una tendencia hacia la estandarización

Definición del problema: los papers de IA son una ‘receta Michelin’

El autor compara los papers de investigación en IA con la receta de un chef Michelin.
La receta en sí no es el problema. Lo que pasa es que nuestra cocina es distinta.

Los papers se cocinan en una cocina perfecta.

Clústeres H100
Datasets limpiamente curados
Trucos ocultos optimizados para el entorno experimental

Pero cuando esa receta baja al terreno real (on-prem, legacy, compliance, operación), se repite el mismo patrón.

De paper a producción: 4 modos de fallo

1) Broken Utensils (infraestructura)

Los resultados del paper salen con base en miles de H100
La realidad es GPUs pequeñas / VRAM limitada / red restringida
El problema no es “el rendimiento baja un poco”
→ el fenómeno mismo no aparece
Síntomas comunes:
- “Corre, pero no muestra el comportamiento esperado”
- El pipeline termina, pero el promised behavior no aparece

2) Spoiled Ingredients (datos)

El paper asume datos curados
Los datos reales son:
- logs, PDFs escaneados, documentos legacy, cambios de esquema, procedencia poco clara
RAG/inferencia se va directo a las alucinaciones si se rompen la estructura, la evidencia y la consistencia
Lo más peligroso es que:
- como suena fluido, se le cree más
- “parece correcto, pero está mal” es lo más caro

3) Missing Salt (detalles de ingeniería)

La parte de “Season to taste” es la más grande
El verdadero punto crítico está en:
- inicialización / scheduler / ajuste fino al nivel de 0.001 / plantillas de prompt
Eso no cabe en 8 páginas de paper
En la práctica, todo se decide aquí:
- no es la receta sino el condimento secreto (las condiciones de reproducibilidad) lo que define el resultado

4) Responsibility Gap (responsabilidad)

Cuando falla, la conclusión suele ser esta:
- “La matemática está bien. El problema es tu entorno”
La responsabilidad de esa brecha cae aguas abajo
→ al final, el que leyó el paper y lo recomendó es quien recibe el golpe.
Cuando llega una caída o una auditoría, se convierte en “el sistema que nosotros hicimos”

Dos límites estructurales: por qué se abandona el DIY

A) Explosión de papers = Noise Tax

Cuantos más papers hay, más se dispara el costo de selección.

Se lee más, pero los productos son menos estables
Cuanto más se persigue el SOTA, más baja la operabilidad
No es “abundancia de conocimiento”, sino “costo de elección”

B) Cambio en la dirección del capital: de ‘papers’ a ‘operación’

El dinero se está moviendo de “nuevas recetas” hacia paquetes operables.
Las preguntas de inversión cambiaron.

¿Es demo o es operación?
¿Se puede manejar costo/latencia/observabilidad/auditoría?

Los riesgos operativos normalmente se reducen a estos 3:

Riesgo de costo: el PoC funciona, pero explota en operación
Riesgo de confianza: si se rompen la evidencia y la fuente, aunque la respuesta suene plausible sigue siendo peligrosa
Riesgo de responsabilidad: si hay una caída o una auditoría, se vuelve nuestra responsabilidad

La señal más fuerte para 2026: Packaging

AI Meal Kit = listo para desplegar + una unidad de despliegue con límites claros de responsabilidad ante fallos

En otras palabras, la conclusión para 2026 es esta:

Packaging beats ingenuity.

4 señales del mercado

Signal #1) NVIDIA NIMs

La configuración del modelo, las dependencias y la optimización quedan fijadas en contenedores
Disminuye la incertidumbre sobre el toolchain
El condimento secreto ya viene incluido.
El mensaje: “Tune less. Run more.”

Signal #2) SLMs

Aumentan las “recetas adaptadas a la cocina”
Sube la posibilidad de operar en local/edge
La dirección es: bounded / predictable / cheaper to operate

Signal #3) AI in a Box

Los servidores ya no se venden como “componentes”, sino como “producto terminado”
Incluyen RAG/seguridad/configuración base
Efecto: aparecen límites sobre quién se hace responsable de la brecha

Signal #4) Ollama / LM Studio

La dificultad de configuración cae drásticamente
Aumenta el número de operadores
Cuando aumentan los operadores, el mercado siempre termina así: la estandarización se acelera

Perspectiva práctica: indicadores para revisar de inmediato

Compute Fit: ¿el rendimiento objetivo se reproduce en “nuestra GPU/VRAM”?
Data Fit: ¿los datos de entrada mantienen “estructura/evidencia/procedencia”?
Hidden Salt: ¿los scripts/prompts/valores de ajuste necesarios para reproducir están fijados por versión?
Owner: cuando algo falla, ¿dónde está la superficie de responsabilidad? (¿nosotros? ¿el vendor? ¿el paquete?)
Ops: ¿la observabilidad (logs/métricas), rollback, tope de costos y auditoría están incorporados en el diseño?

Conclusión

En 2026, más que “un modelo más inteligente”,
ganará “una unidad de despliegue que explote menos”.

Los papers seguirán saliendo, pero el mercado compra inteligencia empaquetada.
Los equipos también tienen que decidir.

si seguir implementando recetas
o empaquetar y operar al nivel de un meal kit

One-liner

“Los papers venden ideas, y el mercado compra operación.”

2 comentarios

cgl00 2026-01-20

Pero, ¿en los negocios realmente ha habido casos en los que alguien lea un paper y lo implemente directamente para usarlo..?

flamehaven01 2026-01-21

Sí hay casos. Pero la mayoría de las veces, en lugar de ver el paper y construir todo desde cero, suelen partir de una implementación de referencia open source.
Últimamente, cuando sale un paper llamativo en el lado de AI, también aparecen un montón de POC, pero ya en producción muchas veces, por temas de datos/infraestructura/tuning, “sí corre, pero no tiene el sabor esperado”.
Por eso últimamente da la impresión de que se están yendo hacia stacks empaquetados como vLLM u Ollama.