29 puntos por GN⁺ 2025-05-06 | 2 comentarios | Compartir por WhatsApp
  • El autor ha investigado LLM y tecnologías de generación de texto durante más de 10 años, pero revela que, contra lo esperado, no usa LLM con frecuencia en su vida diaria
  • Al usar LLM, da prioridad al control cuidadoso, como la ingeniería de prompts, la configuración del system prompt y el ajuste de temperatura, y prefiere un enfoque basado en API en lugar de un frontend general
  • En tareas de BuzzFeed como etiquetado de datos, resumen de clústeres de artículos y revisión de guías de estilo, utilizó LLM para resolver problemas concretos y demostró un gran ahorro de tiempo
  • No usa LLM para escribir, pero sí los aprovecha para validar la lógica de sus textos poniéndolos a prueba con comentarios críticos ficticios de Hacker News
  • Los LLM son útiles como apoyo para programar, pero prefiere implementar por su cuenta las tareas complejas o que requieren confiabilidad, y mantiene una postura escéptica sobre los agentes y el vibe coding

Mi distancia con los LLM

  • El autor es un científico de datos con amplia experiencia en herramientas de IA generativa, desde generación de texto basada en RNN y ajuste de GPT-2 hasta experimentos con GPT-3/ChatGPT
  • Sin embargo, rara vez los usa de forma directa y frecuente; su decisión de usarlos responde a un enfoque instrumental según la naturaleza y la necesidad de cada tarea

Cómo controla los LLM

  • La ingeniería de prompts es la clave para guiar a un LLM hacia la salida deseada
  • En lugar de un frontend general (ChatGPT.com), prefiere llamar directamente a la API o usarlos mediante una UI de backend, en especial la API de Claude Sonnet
  • Ajusta el equilibrio entre creatividad y determinismo con el system prompt y la temperatura (temperature); por lo general la fija entre 0.0 ~ 0.3 para mantener la previsibilidad de la salida
  • El problema de las alucinaciones (generación de contenido no factual) tiende a empeorar cuando la temperatura es más alta, por lo que lo maneja con cuidado

Casos de uso en el trabajo

  • Automatización de clasificación de artículos de BuzzFeed: con la API de Claude, un esquema de clasificación basado en JSON y temperature 0.0, logra una asignación precisa de categorías
  • Resumen de clústeres de artículos: entrega 5 artículos similares y obtiene un título y una descripción comunes, implementando una automatización eficiente del resumen de clústeres
  • Revisión de puntuación y guía de estilo: introduce la guía de estilo completa en el system prompt y realiza evaluaciones gramaticales basadas en políticas
  • Cada tarea permite completar un POC en cuestión de horas, demostrando un ahorro de varios días frente a métodos previos

Escribe por su cuenta, critica con LLM

  • Los textos del blog los escribe directamente, y su estilo tiene rasgos peculiares que a un LLM le cuesta reproducir
  • Sin embargo, le pide al LLM que redacte comentarios críticos como si fuera un usuario de Hacker News, y así lo usa como herramienta para detectar fallas lógicas
  • Este método ayuda a mejorar la calidad del texto, pero no significa que el LLM sustituya la escritura

Uso de LLM al programar

  • En tareas complejas pero repetitivas, como escribir expresiones regulares o hacer composiciones de imágenes con Pillow, los LLM aportan mucho a la productividad
  • En cambio, al usar bibliotecas recientes como Polars, surgen problemas como que el LLM las confunda con funciones de pandas
  • Las recomendaciones de código en tiempo real, como Copilot, no le gustan porque los frecuentes cambios de contexto mental terminan interfiriendo con la concentración
  • Sostiene la postura de que, a partir de ideas sugeridas por un LLM, es mejor “tomar la idea y corregirla uno mismo”

Opinión sobre Agents, MCP y Vibe Coding

  • MCP y los Agents han mejorado a nivel conceptual, pero en la práctica no han aportado nuevos casos de uso
  • El Vibe Coding puede servir para proyectos de hobby, pero no es adecuado para productos formales y no debe usarse como medio para evadir responsabilidades
  • Recalca la idea de que solo el código confiable es verdaderamente profesional

Reflexiones sobre la industria y la ética de los LLM

  • La afirmación de que “los LLM no sirven” no refleja la realidad del uso práctico; más bien, el punto central está en el ROI de corto plazo y los problemas de estructura industrial
  • Los modelos open source y las infraestructuras alternativas (Cerebras, Groq, etc.) pueden cubrir la demanda de LLM incluso si OpenAI desapareciera
  • En última instancia, los LLM son herramientas que deben usarse de forma adecuada según el propósito, y tanto el elogio incondicional como el rechazo absoluto son peligrosos

Cierre

  • Los LLM son una herramienta como forzar una clavija cuadrada en un agujero redondo; es decir, pueden ser ineficientes o también innovadores
  • Lo importante es el criterio técnico para decidir cuándo, dónde y cómo usarlos, y esa es la verdadera capacidad en la era de los LLM

2 comentarios

 
ifmkl 2025-05-07

Me identifico con la última línea. Además, lo que yo sentía era parecido: al final, la IA y los LLM se usan y se aprovechan tanto como lo permitan las capacidades del usuario.

 
GN⁺ 2025-05-06
Opiniones de Hacker News
  • Hay opiniones sobre los aspectos confusos de trabajar con LLMs incluso para programadores con experiencia

    • pandas ha sido la biblioteca estándar para manipular datos tabulares en Python desde 2008
    • Últimamente usan la nueva biblioteca polars, y a menudo los LLMs confunden funciones de polars con funciones de pandas, así que hace falta revisar la documentación
    • La razón para no usar agentes de código es que "distraen", una postura con la que es fácil identificarse si a uno no le gusta el autocompletado
    • Los LLMs "puros" producen errores de código en tareas de programación, pero una configuración de LLM con agentes también incluye código que estructura la interacción con el LLM
    • Si el LLM genera un error en una función, el programa no compila, el agente lo detecta y el LLM lo corrige de forma iterativa
  • Usan vibe coding para crear maquetas de UI o sitios web

    • Aunque no tienen experiencia en frontend, tiene valor crear un demo en vivo con un 80% de avance para mostrárselo a otras personas
    • Todavía no está listo para un producto real, pero es útil para hacer maquetas para discusiones internas
  • Han probado distintas formas de obtener los mejores resultados con los LLMs

    • Pensar en escenarios para "engañar" a los LLMs es ineficiente, y su efectividad puede variar mucho según la versión del modelo
  • Son más cautelosos con la salida del LLM cuando se trata de preguntas complejas de código sobre bibliotecas menos populares

    • En los últimos meses, usar la interfaz de ChatGPT ha sido efectivo para resolver preguntas de código sobre bibliotecas recientes
    • También lograron actualizar código a una nueva biblioteca de JavaScript con éxito
  • Usan el método de pegar directamente la documentación o toda la base de código de una nueva biblioteca en un modelo de contexto largo

    • Funciona bien para bibliotecas de menos de 50,000 tokens, y Gemini 2.5 Pro maneja bien incluso varios cientos de miles de tokens
  • Les gustó que el autor incluyera registros de chat

    • Muchas personas no pueden compartirlos porque podrían exponer información, pero cuando se afirma que un LLM logró algo, es importante respaldarlo
  • No usan ChatGPT.com ni interfaces de usuario generales

    • Usan la UI de backend de cada servicio de LLM para obtener mejores resultados
    • OpenAI tiende a limitar los modelos en la UI de ChatGPT
  • Las interfaces modernas de LLM que no permiten configurar explícitamente el system prompt usan su propio system prompt

    • ChatGPT sí tiene system prompt, pero Claude no
    • En los modelos nuevos, la utilidad del system prompt está disminuyendo
  • Establecer restricciones específicas sobre el texto generado funciona mejor en el system prompt que en el prompt del usuario

    • Los LLMs entienden el concepto de 30 palabras, pero no siempre se desempeñan bien en ese tipo de tarea
  • Usan la UI de backend de cada servicio de LLM

    • Les da curiosidad saber si usan wrappers personalizados para interactuar con la API o si usan clientes ya establecidos
  • Las respuestas en JSON no siempre funcionan como se espera

    • Para devolver JSON consistente, definen un esquema JSON para que siempre regrese la misma estructura
  • Usan LLMs para aprender cosas nuevas o escribir scripts cortos

    • Les parece interesante la técnica de meter el texto de una entrada de blog en un LLM y pedirle que escriba cinco comentarios fingiendo ser un comentarista sarcástico de Hacker News