El futuro de la investigación en IA: de la receta al meal kit
(open.substack.com)Resumen clave (TL;DR)
-
Explosión de papers de IA = progreso + al mismo tiempo un ‘Noise Tax’
- Papers anuales de IA entre 2013 → 2023: ~102,000 → ~242,000
- En el mismo período, proporción de IA dentro de los papers de CS: 21.6% → 41.8%
-
A medida que aumentan los papers, se dispara el costo de selección/reproducción/operación
- Se lee más, pero los productos son menos estables
- Cuanto más se persigue el SOTA, más caen la reproducibilidad y la operabilidad
-
Cuando un paper se lleva a producción, casi siempre aparecen 4 modos de fallo
-
Por eso, la señal para 2026 es simple:
DIY (implementar la receta) ↓ / Packaging (meal kit) ↑- Más que “leer el paper e implementarlo”, gana una unidad lista para desplegarse
- Empaquetados como NVIDIA NIM / SLM / Ollama están creando una tendencia hacia la estandarización
Definición del problema: los papers de IA son una ‘receta Michelin’
El autor compara los papers de investigación en IA con la receta de un chef Michelin.
La receta en sí no es el problema. Lo que pasa es que nuestra cocina es distinta.
Los papers se cocinan en una cocina perfecta.
- Clústeres H100
- Datasets limpiamente curados
- Trucos ocultos optimizados para el entorno experimental
Pero cuando esa receta baja al terreno real (on-prem, legacy, compliance, operación), se repite el mismo patrón.
De paper a producción: 4 modos de fallo
1) Broken Utensils (infraestructura)
-
Los resultados del paper salen con base en miles de H100
-
La realidad es GPUs pequeñas / VRAM limitada / red restringida
-
El problema no es “el rendimiento baja un poco”
→ el fenómeno mismo no aparece -
Síntomas comunes:
- “Corre, pero no muestra el comportamiento esperado”
- El pipeline termina, pero el promised behavior no aparece
2) Spoiled Ingredients (datos)
-
El paper asume datos curados
-
Los datos reales son:
- logs, PDFs escaneados, documentos legacy, cambios de esquema, procedencia poco clara
-
RAG/inferencia se va directo a las alucinaciones si se rompen la estructura, la evidencia y la consistencia
-
Lo más peligroso es que:
- como suena fluido, se le cree más
- “parece correcto, pero está mal” es lo más caro
3) Missing Salt (detalles de ingeniería)
-
La parte de “Season to taste” es la más grande
-
El verdadero punto crítico está en:
- inicialización / scheduler / ajuste fino al nivel de 0.001 / plantillas de prompt
-
Eso no cabe en 8 páginas de paper
-
En la práctica, todo se decide aquí:
- no es la receta sino el condimento secreto (las condiciones de reproducibilidad) lo que define el resultado
4) Responsibility Gap (responsabilidad)
-
Cuando falla, la conclusión suele ser esta:
- “La matemática está bien. El problema es tu entorno”
-
La responsabilidad de esa brecha cae aguas abajo
→ al final, el que leyó el paper y lo recomendó es quien recibe el golpe. -
Cuando llega una caída o una auditoría, se convierte en “el sistema que nosotros hicimos”
Dos límites estructurales: por qué se abandona el DIY
A) Explosión de papers = Noise Tax
Cuantos más papers hay, más se dispara el costo de selección.
- Se lee más, pero los productos son menos estables
- Cuanto más se persigue el SOTA, más baja la operabilidad
- No es “abundancia de conocimiento”, sino “costo de elección”
B) Cambio en la dirección del capital: de ‘papers’ a ‘operación’
El dinero se está moviendo de “nuevas recetas” hacia paquetes operables.
Las preguntas de inversión cambiaron.
- ¿Es demo o es operación?
- ¿Se puede manejar costo/latencia/observabilidad/auditoría?
Los riesgos operativos normalmente se reducen a estos 3:
- Riesgo de costo: el PoC funciona, pero explota en operación
- Riesgo de confianza: si se rompen la evidencia y la fuente, aunque la respuesta suene plausible sigue siendo peligrosa
- Riesgo de responsabilidad: si hay una caída o una auditoría, se vuelve nuestra responsabilidad
La señal más fuerte para 2026: Packaging
AI Meal Kit = listo para desplegar + una unidad de despliegue con límites claros de responsabilidad ante fallos
En otras palabras, la conclusión para 2026 es esta:
Packaging beats ingenuity.
4 señales del mercado
Signal #1) NVIDIA NIMs
- La configuración del modelo, las dependencias y la optimización quedan fijadas en contenedores
- Disminuye la incertidumbre sobre el toolchain
- El condimento secreto ya viene incluido.
- El mensaje: “Tune less. Run more.”
Signal #2) SLMs
- Aumentan las “recetas adaptadas a la cocina”
- Sube la posibilidad de operar en local/edge
- La dirección es: bounded / predictable / cheaper to operate
Signal #3) AI in a Box
- Los servidores ya no se venden como “componentes”, sino como “producto terminado”
- Incluyen RAG/seguridad/configuración base
- Efecto: aparecen límites sobre quién se hace responsable de la brecha
Signal #4) Ollama / LM Studio
- La dificultad de configuración cae drásticamente
- Aumenta el número de operadores
- Cuando aumentan los operadores, el mercado siempre termina así: la estandarización se acelera
Perspectiva práctica: indicadores para revisar de inmediato
- Compute Fit: ¿el rendimiento objetivo se reproduce en “nuestra GPU/VRAM”?
- Data Fit: ¿los datos de entrada mantienen “estructura/evidencia/procedencia”?
- Hidden Salt: ¿los scripts/prompts/valores de ajuste necesarios para reproducir están fijados por versión?
- Owner: cuando algo falla, ¿dónde está la superficie de responsabilidad? (¿nosotros? ¿el vendor? ¿el paquete?)
- Ops: ¿la observabilidad (logs/métricas), rollback, tope de costos y auditoría están incorporados en el diseño?
Conclusión
En 2026, más que “un modelo más inteligente”,
ganará “una unidad de despliegue que explote menos”.
Los papers seguirán saliendo, pero el mercado compra inteligencia empaquetada.
Los equipos también tienen que decidir.
- si seguir implementando recetas
- o empaquetar y operar al nivel de un meal kit
One-liner
“Los papers venden ideas, y el mercado compra operación.”
2 comentarios
Pero, ¿en los negocios realmente ha habido casos en los que alguien lea un paper y lo implemente directamente para usarlo..?
Sí hay casos. Pero la mayoría de las veces, en lugar de ver el paper y construir todo desde cero, suelen partir de una implementación de referencia open source.
Últimamente, cuando sale un paper llamativo en el lado de AI, también aparecen un montón de POC, pero ya en producción muchas veces, por temas de datos/infraestructura/tuning, “sí corre, pero no tiene el sabor esperado”.
Por eso últimamente da la impresión de que se están yendo hacia stacks empaquetados como vLLM u Ollama.