- El autor ha investigado LLM y tecnologías de generación de texto durante más de 10 años, pero revela que, contra lo esperado, no usa LLM con frecuencia en su vida diaria
- Al usar LLM, da prioridad al control cuidadoso, como la ingeniería de prompts, la configuración del system prompt y el ajuste de temperatura, y prefiere un enfoque basado en API en lugar de un frontend general
- En tareas de BuzzFeed como etiquetado de datos, resumen de clústeres de artículos y revisión de guías de estilo, utilizó LLM para resolver problemas concretos y demostró un gran ahorro de tiempo
- No usa LLM para escribir, pero sí los aprovecha para validar la lógica de sus textos poniéndolos a prueba con comentarios críticos ficticios de Hacker News
- Los LLM son útiles como apoyo para programar, pero prefiere implementar por su cuenta las tareas complejas o que requieren confiabilidad, y mantiene una postura escéptica sobre los agentes y el vibe coding
Mi distancia con los LLM
- El autor es un científico de datos con amplia experiencia en herramientas de IA generativa, desde generación de texto basada en RNN y ajuste de GPT-2 hasta experimentos con GPT-3/ChatGPT
- Sin embargo, rara vez los usa de forma directa y frecuente; su decisión de usarlos responde a un enfoque instrumental según la naturaleza y la necesidad de cada tarea
Cómo controla los LLM
- La ingeniería de prompts es la clave para guiar a un LLM hacia la salida deseada
- En lugar de un frontend general (ChatGPT.com), prefiere llamar directamente a la API o usarlos mediante una UI de backend, en especial la API de Claude Sonnet
- Ajusta el equilibrio entre creatividad y determinismo con el system prompt y la temperatura (temperature); por lo general la fija entre
0.0 ~ 0.3 para mantener la previsibilidad de la salida
- El problema de las alucinaciones (generación de contenido no factual) tiende a empeorar cuando la temperatura es más alta, por lo que lo maneja con cuidado
Casos de uso en el trabajo
- Automatización de clasificación de artículos de BuzzFeed: con la API de Claude, un esquema de clasificación basado en JSON y
temperature 0.0, logra una asignación precisa de categorías
- Resumen de clústeres de artículos: entrega 5 artículos similares y obtiene un título y una descripción comunes, implementando una automatización eficiente del resumen de clústeres
- Revisión de puntuación y guía de estilo: introduce la guía de estilo completa en el system prompt y realiza evaluaciones gramaticales basadas en políticas
- Cada tarea permite completar un POC en cuestión de horas, demostrando un ahorro de varios días frente a métodos previos
Escribe por su cuenta, critica con LLM
- Los textos del blog los escribe directamente, y su estilo tiene rasgos peculiares que a un LLM le cuesta reproducir
- Sin embargo, le pide al LLM que redacte comentarios críticos como si fuera un usuario de Hacker News, y así lo usa como herramienta para detectar fallas lógicas
- Este método ayuda a mejorar la calidad del texto, pero no significa que el LLM sustituya la escritura
Uso de LLM al programar
- En tareas complejas pero repetitivas, como escribir expresiones regulares o hacer composiciones de imágenes con Pillow, los LLM aportan mucho a la productividad
- En cambio, al usar bibliotecas recientes como Polars, surgen problemas como que el LLM las confunda con funciones de pandas
- Las recomendaciones de código en tiempo real, como Copilot, no le gustan porque los frecuentes cambios de contexto mental terminan interfiriendo con la concentración
- Sostiene la postura de que, a partir de ideas sugeridas por un LLM, es mejor “tomar la idea y corregirla uno mismo”
Opinión sobre Agents, MCP y Vibe Coding
- MCP y los Agents han mejorado a nivel conceptual, pero en la práctica no han aportado nuevos casos de uso
- El Vibe Coding puede servir para proyectos de hobby, pero no es adecuado para productos formales y no debe usarse como medio para evadir responsabilidades
- Recalca la idea de que solo el código confiable es verdaderamente profesional
Reflexiones sobre la industria y la ética de los LLM
- La afirmación de que “los LLM no sirven” no refleja la realidad del uso práctico; más bien, el punto central está en el ROI de corto plazo y los problemas de estructura industrial
- Los modelos open source y las infraestructuras alternativas (Cerebras, Groq, etc.) pueden cubrir la demanda de LLM incluso si OpenAI desapareciera
- En última instancia, los LLM son herramientas que deben usarse de forma adecuada según el propósito, y tanto el elogio incondicional como el rechazo absoluto son peligrosos
Cierre
- Los LLM son una herramienta como forzar una clavija cuadrada en un agujero redondo; es decir, pueden ser ineficientes o también innovadores
- Lo importante es el criterio técnico para decidir cuándo, dónde y cómo usarlos, y esa es la verdadera capacidad en la era de los LLM
2 comentarios
Me identifico con la última línea. Además, lo que yo sentía era parecido: al final, la IA y los LLM se usan y se aprovechan tanto como lo permitan las capacidades del usuario.
Opiniones de Hacker News
Hay opiniones sobre los aspectos confusos de trabajar con LLMs incluso para programadores con experiencia
pandasha sido la biblioteca estándar para manipular datos tabulares en Python desde 2008polars, y a menudo los LLMs confunden funciones depolarscon funciones depandas, así que hace falta revisar la documentaciónUsan vibe coding para crear maquetas de UI o sitios web
Han probado distintas formas de obtener los mejores resultados con los LLMs
Son más cautelosos con la salida del LLM cuando se trata de preguntas complejas de código sobre bibliotecas menos populares
Usan el método de pegar directamente la documentación o toda la base de código de una nueva biblioteca en un modelo de contexto largo
Les gustó que el autor incluyera registros de chat
No usan ChatGPT.com ni interfaces de usuario generales
Las interfaces modernas de LLM que no permiten configurar explícitamente el system prompt usan su propio system prompt
Establecer restricciones específicas sobre el texto generado funciona mejor en el system prompt que en el prompt del usuario
Usan la UI de backend de cada servicio de LLM
Las respuestas en JSON no siempre funcionan como se espera
Usan LLMs para aprender cosas nuevas o escribir scripts cortos