2 puntos por GN⁺ 22 일 전 | 1 comentarios | Compartir por WhatsApp
  • A medida que los LLM imitan a la perfección la calidad superficial, las métricas sustitutas (proxy measures) que se usaban para juzgar la calidad real del trabajo del conocimiento están perdiendo efectividad
  • Como en el trabajo del conocimiento es difícil evaluar la calidad intrínseca, se ha dependido de métricas sustitutas como la pulcritud formal de los documentos, pero los LLM las superan con facilidad
  • El código y los reportes escritos por IA parecen profesionales a simple vista, pero pasan sin que se verifique su exactitud o utilidad reales
  • Los propios LLM tampoco se entrenan para responder "¿es correcto?", sino "¿parece plausible?", por lo que incorporan el mismo problema de las métricas sustitutas
  • Se advierte que sistemas construidos con inversiones de decenas de miles de millones de dólares están siendo usados no para hacer trabajo real, sino como herramientas que ejecutan el simulacro del trabajo

El papel y los límites de las métricas sustitutas (proxy measures)

  • Cuando se recibe un reporte de análisis de mercado, es común descartarlo por completo solo por fallas superficiales como errores en fechas, typos o gráficos duplicados
  • Lo que realmente importa es si el reporte refleja la realidad y lleva a buenas decisiones, pero verificar eso de forma directa tiene un costo alto
  • La calidad superficial tiene un costo de verificación bajo y una correlación suficiente con la calidad real, por eso ha funcionado como métrica sustituta
  • Este problema existe en todo trabajo del conocimiento, y como juzgar objetivamente la calidad del trabajo de otros requiere mucho esfuerzo, la estructura termina dependiendo en gran medida de métricas sustitutas

Cómo los LLM anularon las métricas sustitutas

  • Las métricas sustitutas habían servido para contener los incentivos desalineados (misaligned incentives), pero los LLM rompieron ese equilibrio
  • Los LLM son excelentes para simular el estilo de escritura sin reproducir la calidad real del trabajo
  • Si se le pide a ChatGPT un reporte de análisis de mercado, el resultado parece escrito por un especialista de una firma de consultoría de primer nivel
  • Si un ingeniero de software escribe miles de líneas de código con IA, con una revisión de apenas unos segundos parece código de alta calidad
    • Los colegas también delegan la revisión de código a la IA y procesan mecánicamente los problemas detectados, con lo que solo se conserva el ritual del trabajo sin garantizar la calidad real

El mismo problema, incorporado en los propios LLM

  • El proceso de entrenamiento de los LLM tampoco evalúa si la respuesta es verdadera o si es útil
  • El criterio de entrenamiento equivale a preguntar si es una "respuesta que probablemente aparecería en los datos de entrenamiento" o una "respuesta que dejaría satisfecho al evaluador de RLHF"
  • Como resultado, los LLM están optimizados para producir salidas que parecen trabajo de alta calidad, y esa capacidad de optimización es muy alta

Advertencia sobre la situación actual

  • Sistemas construidos con inversiones de decenas de miles de millones de dólares están siendo usados para ejecutar el simulacro del trabajo
  • Las empresas compiten por quedar en primer lugar en el leaderboard de consumo de tokens
  • Cuanto más producen los trabajadores resultados generados por LLM, menos tiempo dedican a revisarlos a fondo
  • Lo único que queda es hojearlos, poner "LGTM" y abrir la sesión número 17 de Claude Code

1 comentarios

 
GN⁺ 22 일 전
Comentarios en Hacker News
  • Como dice el artículo, no termino de estar completamente de acuerdo ni con la idea de que antes era fácil estimar la calidad del trabajo de conocimiento humano mediante indicadores sustitutos como errores tipográficos o fallas menores, ni con la idea de que el problema ahora es que la IA ya no deja esas pistas.
    Siempre ha habido muchos productos humanos que son pésimos a nivel conceptual, pero correctos en los hechos y además bien presentados.
    Después de 10 años trabajando con clientes corporativos, para nada diría que la era pre-LLM fue una edad dorada del trabajo de conocimiento de alta calidad; también entonces abundaba la chatarra que era como un simulacro funcional del trabajo de conocimiento.

    • Para mí, el problema mayor es que desaparece la explicabilidad humana de los errores.
      Los resultados de baja calidad producidos por personas normalmente tienen causas como ignorancia, presión de tiempo o metas egoístas, y esas causas suelen ser bastante consistentes.
      Puedes identificar patrones de confianza, como un practicante prudente pero que no sabe, o un senior con mucho conocimiento que por falta de sueño pasa por alto algo obvio.
      Pero la IA puede implementar perfectamente un paper de una sola vez y, en la misma ejecución, cometer errores de nivel estudiante de primer semestre, así que terminas en la situación nada intuitiva de tener que hacer una revisión asumiendo incompetencia total frente a una máquina que también muestra una competencia extrema.
    • La era pre-LLM no fue una edad dorada de la calidad, pero sí es cierto que los LLM eliminaron otra marca que ayudaba a filtrar el trabajo apresurado y sin sentido.
    • En realidad, esto nunca fue una detección positiva, sino un filtro negativo.
      Si había errores tipográficos o errores fácticos básicos, era fácil descartarlo; pero que no los hubiera no significaba que la calidad fuera alta.
      Normalmente ese tipo de revisión era solo el primer filtro, no el conjunto completo, y una vez superado ese filtro era más fácil ver los problemas reales.
      En código, es parecido a ordenar primero el lint y el estilo antes del reasoning.
    • Puedes detectar frases claramente típicas de la IA, pero el otro 99% del texto generado por IA, sin marcas obvias, se te puede escapar.
      Y como uno mismo no sabe que ese 99% fue generado por IA, es fácil engañarse creyendo que puede filtrar todos los textos de IA solo porque reconoce el 100% de los patrones que sí alcanzó a notar.
    • No creo que esto sea lo más importante en el fondo.
      Mucho trabajo de conocimiento siempre ha sido un sustituto de otra cosa.
      La calidad sin errores tipográficos y con formato pulcro era, como una camisa blanca planchada y una corbata, sobre todo una señal de respeto, y había muchos documentos largos que en realidad nadie iba a leer a fondo.
      Al final era una forma simbólica de mostrar sacrificio y obediencia, y los LLM están desmantelando ese sistema de señales.
      Si antes tampoco se evaluaba realmente la calidad del contenido, entonces ese contenido nunca fue tan importante para empezar.
  • En el mundo académico ya se está viendo el problema del costo de revisar IA, aunque es un poco distinto de lo que plantea el artículo.
    Más que la desaparición de las marcas de trabajo mediocre, el punto es que el costo de revisar con cuidado trabajos hechos con IA se está volviendo demasiado alto para que humanos solos puedan absorberlo.
    Por ejemplo, en revistas de economía los apéndices pueden llegar a cientos de páginas, y el tiempo humano para leer es limitado.
    Me pregunto si en revistas de otras disciplinas no solo están sintiendo presión por el aumento de nuevos envíos, sino también por la intensidad de revisión necesaria para validar cada paper.

    • Para ser justos, en muchas disciplinas académicas, a partir de un nivel de maestría o superior, incluso distinguir ya exige una especialización muy alta.
      Por debajo de ese nivel, a veces es casi imposible diferenciar entre lo que es correcto y lo que solo parece correcto.
  • Siento que al usar IA estoy haciendo cargo-cult del entendimiento.
    Reproduzco la superficie de haber entendido algo, pero me quito a mí mismo el tiempo y el esfuerzo necesarios para entenderlo de verdad.

    • Es algo que siempre pienso al ver a un colega con el que trabajo: casi toda su visión del uso de IA parece una fantasía de Jarvis personal.
      Cree que si le metes a Claude Snowflake Cortex, código integrado, documentación y tickets de Jira, entonces podrás preguntarle cualquier cosa y todo será mucho mejor.
      Pero esa obsesión no ha producido grandes resultados, y varias veces ya se topó de frente con las limitaciones serias de la tecnología.
      Todos hablan de agentic workflow y de una enorme wiki interna, pero yo, en cambio, uso IA para acelerar bastante la entrega y no gasto tiempo en aventuras grandilocuentes, así que sigo sacando resultados.
      También veo la ironía de que personas que antes criticaban que la empresa metiera chatbots ahora estén quemando tokens para construir su propio chatbot juntando billones de archivos .md y archivos de skills.
      Lo que de verdad me preocupa es que el conocimiento institucional real se pierda dentro de estos atajos.
      Pedir ejemplos simples o hacer preguntas para aprender conceptos está bien, pero prompts del tipo “revisa las herramientas e infraestructura actuales, acelera 5x la velocidad de despliegue, investiga en la web y además arma una propuesta de adopción organizacional con análisis costo-beneficio a 5 años”, todo en una sola pasada, debilitan a la persona.
      Últimamente todos andan aventando por todos lados propuestas hechas por Claude, y se saltan el proceso de investigar un poco por su cuenta o explorar junto con un arquitecto o un ingeniero senior.
      El resultado es que entienden muchas cosas solo de forma superficial, no pueden explicarlas bien cuando se les cuestiona a fondo, y tratan la respuesta de la IA como si fuera una estrategia definitiva, sin querer que se la desafíen.
      Incluso dejan de ver como experiencia de aprendizaje la oportunidad de aprender de alguien con más experiencia.
      Al final, sigo creyendo que el cerebro humano sigue siendo una de las tecnologías más impresionantes que existen, y eso me hace preguntarme por qué querríamos construir afuera de nosotros esta inmensa biblioteca artificial.
    • Aquí yo no lo llamaría tanto cargo cult del entendimiento, sino más bien cargo cult desde la perspectiva del gerente.
      Como dice Bret Devereaux en su crítica de Game Of Thrones, una visión del mundo desde la élite solo les parece verosímil y hasta utópica a las élites.
      Esta burbuja desconectada del trabajo real acabará reventando con fuerza, y si a la masa que perdió su empleo por la IA se le responde “pues que coman pastel” cuando ni pan puede pagar, uno hasta puede imaginar una reacción del nivel de la Revolución Francesa.
    • Por otro lado, la IA sí puede hacer cosas por mí aunque yo no las entienda.
      Pero como herramienta para intentar entender algo a profundidad, también hay muy pocas cosas tan buenas como la propia IA.
  • Al final, entender algo es casi lo mismo que hacerlo por cuenta propia.
    No pasa nada si no lo entiendes, pero en ese caso, haya o no indicadores sustitutos, al final no te queda otra que confiar en el entendimiento de otra persona.
    Ir en la dirección de hacer menos y confiar más puede funcionar hasta cierto punto, pero más allá de eso pone en riesgo el trabajo del futuro.
    simulacrum es una palabra realmente buena.

    • El concepto de Simulacrum viene de Baudrillard, y su ensayo Simulation and Simulacra ayuda bastante a entender por qué la economía moderna se siente tan extraña.
  • Por eso creo que los mandos medios parecían los primeros conversos del maximalismo LLM.
    Los mandos medios tienen muchos incentivos para seguir empujando la abstracción del trabajo de conocimiento, más allá de la verdadera pericia del rol, y ese nivel abstracto parece describirse especialmente bien en el embedding space.

  • El código de IA muchas veces parece peor de lo que realmente es.
    Es excesivamente verboso, confuso y está lleno de fallbacks, así que cuando algo falla se va deslizando por montones de try/catch y termina mandando el stack trace a lugares absurdos.
    Aun así, si miras la funcionalidad pura, muchas veces me ha tocado que corre mejor que código escrito por humanos que por fuera se ve parecido.

    • Aun así, el código descrito de esa forma sigue siendo mal código.
      Tanto para personas como para LLM, es difícil razonar sobre él.
  • Ojalá hubiera más posts de blog con este estilo.
    Tienen una longitud adecuada, transmiten bien la idea y además tienen algo de narrativa.
    Hoy hay tanto AI slop producido por LLM con longitud de novela que esto se agradece más.

  • Para mucha gente de la industria, esto parece una tendencia bastante evidente.
    El problema es que hay demasiado dinero en juego, así que los grandes actores siguen empujando lo que les conviene.

  • Me hace imaginar que las partículas subatómicas en realidad son universos completos, y que sus propiedades reflejan a los seres que gobernaron esos universos y los rastros de automatización que siguieron funcionando después de su desaparición.
    Algo así como máquinas automáticas que cosechan entropía y siguen replicándose por sí solas.
    Nosotros estamos creando ahora una fuerza mayor que nosotros, y quizá en algún punto lleguemos a un punto de no retorno.

    • No diría que lo entendí del todo, pero la idea me parece fascinante.
      Me hace imaginar innumerables universos y civilizaciones subatómicas que ascienden y colapsan, y que incluso son devoradas por tecnologías seudointeligentes autónomas, mientras que a escala macroscópica todo eso se manifiesta como el comportamiento de las partículas.
      Ahora mismo nosotros también estamos creando al final una partícula, y nuestras decisiones colectivas quizá tengan un efecto diminuto pero significativo en el universo superior al que pertenecemos.
  • La salida de alguien siempre termina siendo la entrada de alguien más.
    Si con LLM aumentas el volumen, la siguiente persona también lo parsea con LLM para producir su propia salida.
    Y así se encadena todo, hasta que cuando el consumidor final se queja, ya nadie puede identificar exactamente dónde estuvo el error.

    • Claro, en ese momento dirán que fue el consumidor final quien lo usó mal.
      Porque al único que se ve es al consumidor final, y todos los demás están escondidos detrás de siete capas de proxies.