Soy un usuario experimentado de LLM, pero en realidad no los uso tan seguido

(minimaxir.com)

29 puntos por GN⁺ 2025-05-06 | 2 comentarios | Compartir por WhatsApp

El autor ha investigado LLM y tecnologías de generación de texto durante más de 10 años, pero revela que, contra lo esperado, no usa LLM con frecuencia en su vida diaria
Al usar LLM, da prioridad al control cuidadoso, como la ingeniería de prompts, la configuración del system prompt y el ajuste de temperatura, y prefiere un enfoque basado en API en lugar de un frontend general
En tareas de BuzzFeed como etiquetado de datos, resumen de clústeres de artículos y revisión de guías de estilo, utilizó LLM para resolver problemas concretos y demostró un gran ahorro de tiempo
No usa LLM para escribir, pero sí los aprovecha para validar la lógica de sus textos poniéndolos a prueba con comentarios críticos ficticios de Hacker News
Los LLM son útiles como apoyo para programar, pero prefiere implementar por su cuenta las tareas complejas o que requieren confiabilidad, y mantiene una postura escéptica sobre los agentes y el vibe coding

Mi distancia con los LLM

El autor es un científico de datos con amplia experiencia en herramientas de IA generativa, desde generación de texto basada en RNN y ajuste de GPT-2 hasta experimentos con GPT-3/ChatGPT
Sin embargo, rara vez los usa de forma directa y frecuente; su decisión de usarlos responde a un enfoque instrumental según la naturaleza y la necesidad de cada tarea

Cómo controla los LLM

La ingeniería de prompts es la clave para guiar a un LLM hacia la salida deseada
En lugar de un frontend general (ChatGPT.com), prefiere llamar directamente a la API o usarlos mediante una UI de backend, en especial la API de Claude Sonnet
Ajusta el equilibrio entre creatividad y determinismo con el system prompt y la temperatura (temperature); por lo general la fija entre 0.0 ~ 0.3 para mantener la previsibilidad de la salida
El problema de las alucinaciones (generación de contenido no factual) tiende a empeorar cuando la temperatura es más alta, por lo que lo maneja con cuidado

Casos de uso en el trabajo

Automatización de clasificación de artículos de BuzzFeed: con la API de Claude, un esquema de clasificación basado en JSON y temperature 0.0, logra una asignación precisa de categorías
Resumen de clústeres de artículos: entrega 5 artículos similares y obtiene un título y una descripción comunes, implementando una automatización eficiente del resumen de clústeres
Revisión de puntuación y guía de estilo: introduce la guía de estilo completa en el system prompt y realiza evaluaciones gramaticales basadas en políticas
Cada tarea permite completar un POC en cuestión de horas, demostrando un ahorro de varios días frente a métodos previos

Escribe por su cuenta, critica con LLM

Los textos del blog los escribe directamente, y su estilo tiene rasgos peculiares que a un LLM le cuesta reproducir
Sin embargo, le pide al LLM que redacte comentarios críticos como si fuera un usuario de Hacker News, y así lo usa como herramienta para detectar fallas lógicas
Este método ayuda a mejorar la calidad del texto, pero no significa que el LLM sustituya la escritura

Uso de LLM al programar

En tareas complejas pero repetitivas, como escribir expresiones regulares o hacer composiciones de imágenes con Pillow, los LLM aportan mucho a la productividad
En cambio, al usar bibliotecas recientes como Polars, surgen problemas como que el LLM las confunda con funciones de pandas
Las recomendaciones de código en tiempo real, como Copilot, no le gustan porque los frecuentes cambios de contexto mental terminan interfiriendo con la concentración
Sostiene la postura de que, a partir de ideas sugeridas por un LLM, es mejor “tomar la idea y corregirla uno mismo”

Opinión sobre Agents, MCP y Vibe Coding

MCP y los Agents han mejorado a nivel conceptual, pero en la práctica no han aportado nuevos casos de uso
El Vibe Coding puede servir para proyectos de hobby, pero no es adecuado para productos formales y no debe usarse como medio para evadir responsabilidades
Recalca la idea de que solo el código confiable es verdaderamente profesional

Reflexiones sobre la industria y la ética de los LLM

La afirmación de que “los LLM no sirven” no refleja la realidad del uso práctico; más bien, el punto central está en el ROI de corto plazo y los problemas de estructura industrial
Los modelos open source y las infraestructuras alternativas (Cerebras, Groq, etc.) pueden cubrir la demanda de LLM incluso si OpenAI desapareciera
En última instancia, los LLM son herramientas que deben usarse de forma adecuada según el propósito, y tanto el elogio incondicional como el rechazo absoluto son peligrosos

Cierre

Los LLM son una herramienta como forzar una clavija cuadrada en un agujero redondo; es decir, pueden ser ineficientes o también innovadores
Lo importante es el criterio técnico para decidir cuándo, dónde y cómo usarlos, y esa es la verdadera capacidad en la era de los LLM

2 comentarios

ifmkl 2025-05-07

Me identifico con la última línea. Además, lo que yo sentía era parecido: al final, la IA y los LLM se usan y se aprovechan tanto como lo permitan las capacidades del usuario.

GN⁺ 2025-05-06

Opiniones de Hacker News

Hay opiniones sobre los aspectos confusos de trabajar con LLMs incluso para programadores con experiencia
- pandas ha sido la biblioteca estándar para manipular datos tabulares en Python desde 2008
- Últimamente usan la nueva biblioteca polars, y a menudo los LLMs confunden funciones de polars con funciones de pandas, así que hace falta revisar la documentación
- La razón para no usar agentes de código es que "distraen", una postura con la que es fácil identificarse si a uno no le gusta el autocompletado
- Los LLMs "puros" producen errores de código en tareas de programación, pero una configuración de LLM con agentes también incluye código que estructura la interacción con el LLM
- Si el LLM genera un error en una función, el programa no compila, el agente lo detecta y el LLM lo corrige de forma iterativa
Usan vibe coding para crear maquetas de UI o sitios web
- Aunque no tienen experiencia en frontend, tiene valor crear un demo en vivo con un 80% de avance para mostrárselo a otras personas
- Todavía no está listo para un producto real, pero es útil para hacer maquetas para discusiones internas
Han probado distintas formas de obtener los mejores resultados con los LLMs
- Pensar en escenarios para "engañar" a los LLMs es ineficiente, y su efectividad puede variar mucho según la versión del modelo
Son más cautelosos con la salida del LLM cuando se trata de preguntas complejas de código sobre bibliotecas menos populares
- En los últimos meses, usar la interfaz de ChatGPT ha sido efectivo para resolver preguntas de código sobre bibliotecas recientes
- También lograron actualizar código a una nueva biblioteca de JavaScript con éxito
Usan el método de pegar directamente la documentación o toda la base de código de una nueva biblioteca en un modelo de contexto largo
- Funciona bien para bibliotecas de menos de 50,000 tokens, y Gemini 2.5 Pro maneja bien incluso varios cientos de miles de tokens
Les gustó que el autor incluyera registros de chat
- Muchas personas no pueden compartirlos porque podrían exponer información, pero cuando se afirma que un LLM logró algo, es importante respaldarlo
No usan ChatGPT.com ni interfaces de usuario generales
- Usan la UI de backend de cada servicio de LLM para obtener mejores resultados
- OpenAI tiende a limitar los modelos en la UI de ChatGPT
Las interfaces modernas de LLM que no permiten configurar explícitamente el system prompt usan su propio system prompt
- ChatGPT sí tiene system prompt, pero Claude no
- En los modelos nuevos, la utilidad del system prompt está disminuyendo
Establecer restricciones específicas sobre el texto generado funciona mejor en el system prompt que en el prompt del usuario
- Los LLMs entienden el concepto de 30 palabras, pero no siempre se desempeñan bien en ese tipo de tarea
Usan la UI de backend de cada servicio de LLM
- Les da curiosidad saber si usan wrappers personalizados para interactuar con la API o si usan clientes ya establecidos
Las respuestas en JSON no siempre funcionan como se espera
- Para devolver JSON consistente, definen un esquema JSON para que siempre regrese la misma estructura
Usan LLMs para aprender cosas nuevas o escribir scripts cortos
- Les parece interesante la técnica de meter el texto de una entrada de blog en un LLM y pedirle que escriba cinco comentarios fingiendo ser un comentarista sarcástico de Hacker News