El simulacro del trabajo del conocimiento
(blog.happyfellow.dev)- La calidad del trabajo del conocimiento es difícil de verificar sin rehacer directamente el resultado, por lo que se termina dependiendo de indicadores sustitutos como la apariencia de completitud más que de la precisión real
- Si aparecen defectos superficiales como errores de fecha o problemas en las etiquetas de un gráfico, es fácil desechar todo el entregable aunque no afecten la conclusión principal, y el criterio de evaluación también se inclina hacia aspectos externos que son baratos de comprobar en lugar de hacia qué tanto refleja la realidad
- Los LLM pueden imitar muy bien un estilo y formato plausibles sin reproducir la calidad real del trabajo, de modo que los procedimientos rituales de un informe o de un código pueden seguir presentes mientras la calidad subyacente está vacía
- Si el criterio que se mide es la calidad superficial, entonces se vuelve racional dejar que el LLM escriba la mayor parte del resultado, y el propio LLM también termina optimizado para producir salidas que parezcan de alta calidad más que por su veracidad o utilidad
- Como resultado, sistemas de decenas de miles de millones de dólares terminan usándose más para la imitación del trabajo que para el trabajo real, y el flujo de revisar por encima y poner LGTM continúa como una automatización de la ley de Goodhart
La estructura y los resultados que cambiaron con los LLM
- Los LLM imitan extremadamente bien un estilo y formato plausibles incluso sin reproducir la calidad real del trabajo
- Un informe de análisis de mercado escrito con ChatGPT puede leerse y verse como un entregable de una firma de consultoría de primer nivel
- Un ingeniero de software puede generar miles de líneas de código que parecen de alta calidad con solo una revisión rápida, y un colega puede volver a pasar una revisión de código con IA para encontrar y corregir problemas
- Como resultado, los procedimientos rituales del trabajo se mantienen, pero la calidad real que hay debajo puede estar vacía
- Si el criterio que se mide es la calidad superficial, resulta racional que el trabajador actúe para verse bien bajo ese criterio y deje que el LLM escriba la mayor parte del entregable
- El entrenamiento de los LLM también se orienta menos a si una respuesta es verdadera o útil, y más a si parece algo que aparecería en el corpus de entrenamiento o si satisface a un evaluador de RLHF
- Al final, el propio LLM también queda optimizado para generar salidas que parezcan de alta calidad
- Sistemas construidos con inversiones de decenas de miles de millones de dólares terminan usándose para realizar una imitación del trabajo más que trabajo real
- Las empresas terminan compitiendo por ver quién usa más tokens
- Cuanto más genera un trabajador salidas con LLM, menos tiempo queda para revisar esas salidas en profundidad
- Lo único que queda es el flujo de revisar por encima, poner LGTM y luego abrir la siguiente sesión de Claude Code
1 comentarios
Comentarios en Hacker News
Como dice el artículo, no termino de estar completamente de acuerdo ni con la idea de que antes era fácil estimar la calidad del trabajo de conocimiento humano mediante indicadores sustitutos como errores tipográficos o fallas menores, ni con la idea de que el problema ahora es que la IA ya no deja esas pistas.
Siempre ha habido muchos productos humanos que son pésimos a nivel conceptual, pero correctos en los hechos y además bien presentados.
Después de 10 años trabajando con clientes corporativos, para nada diría que la era pre-LLM fue una edad dorada del trabajo de conocimiento de alta calidad; también entonces abundaba la chatarra que era como un simulacro funcional del trabajo de conocimiento.
Los resultados de baja calidad producidos por personas normalmente tienen causas como ignorancia, presión de tiempo o metas egoístas, y esas causas suelen ser bastante consistentes.
Puedes identificar patrones de confianza, como un practicante prudente pero que no sabe, o un senior con mucho conocimiento que por falta de sueño pasa por alto algo obvio.
Pero la IA puede implementar perfectamente un paper de una sola vez y, en la misma ejecución, cometer errores de nivel estudiante de primer semestre, así que terminas en la situación nada intuitiva de tener que hacer una revisión asumiendo incompetencia total frente a una máquina que también muestra una competencia extrema.
Si había errores tipográficos o errores fácticos básicos, era fácil descartarlo; pero que no los hubiera no significaba que la calidad fuera alta.
Normalmente ese tipo de revisión era solo el primer filtro, no el conjunto completo, y una vez superado ese filtro era más fácil ver los problemas reales.
En código, es parecido a ordenar primero el lint y el estilo antes del reasoning.
Y como uno mismo no sabe que ese 99% fue generado por IA, es fácil engañarse creyendo que puede filtrar todos los textos de IA solo porque reconoce el 100% de los patrones que sí alcanzó a notar.
Mucho trabajo de conocimiento siempre ha sido un sustituto de otra cosa.
La calidad sin errores tipográficos y con formato pulcro era, como una camisa blanca planchada y una corbata, sobre todo una señal de respeto, y había muchos documentos largos que en realidad nadie iba a leer a fondo.
Al final era una forma simbólica de mostrar sacrificio y obediencia, y los LLM están desmantelando ese sistema de señales.
Si antes tampoco se evaluaba realmente la calidad del contenido, entonces ese contenido nunca fue tan importante para empezar.
En el mundo académico ya se está viendo el problema del costo de revisar IA, aunque es un poco distinto de lo que plantea el artículo.
Más que la desaparición de las marcas de trabajo mediocre, el punto es que el costo de revisar con cuidado trabajos hechos con IA se está volviendo demasiado alto para que humanos solos puedan absorberlo.
Por ejemplo, en revistas de economía los apéndices pueden llegar a cientos de páginas, y el tiempo humano para leer es limitado.
Me pregunto si en revistas de otras disciplinas no solo están sintiendo presión por el aumento de nuevos envíos, sino también por la intensidad de revisión necesaria para validar cada paper.
Por debajo de ese nivel, a veces es casi imposible diferenciar entre lo que es correcto y lo que solo parece correcto.
Siento que al usar IA estoy haciendo cargo-cult del entendimiento.
Reproduzco la superficie de haber entendido algo, pero me quito a mí mismo el tiempo y el esfuerzo necesarios para entenderlo de verdad.
Cree que si le metes a Claude Snowflake Cortex, código integrado, documentación y tickets de Jira, entonces podrás preguntarle cualquier cosa y todo será mucho mejor.
Pero esa obsesión no ha producido grandes resultados, y varias veces ya se topó de frente con las limitaciones serias de la tecnología.
Todos hablan de agentic workflow y de una enorme wiki interna, pero yo, en cambio, uso IA para acelerar bastante la entrega y no gasto tiempo en aventuras grandilocuentes, así que sigo sacando resultados.
También veo la ironía de que personas que antes criticaban que la empresa metiera chatbots ahora estén quemando tokens para construir su propio chatbot juntando billones de archivos
.mdy archivos de skills.Lo que de verdad me preocupa es que el conocimiento institucional real se pierda dentro de estos atajos.
Pedir ejemplos simples o hacer preguntas para aprender conceptos está bien, pero prompts del tipo “revisa las herramientas e infraestructura actuales, acelera 5x la velocidad de despliegue, investiga en la web y además arma una propuesta de adopción organizacional con análisis costo-beneficio a 5 años”, todo en una sola pasada, debilitan a la persona.
Últimamente todos andan aventando por todos lados propuestas hechas por Claude, y se saltan el proceso de investigar un poco por su cuenta o explorar junto con un arquitecto o un ingeniero senior.
El resultado es que entienden muchas cosas solo de forma superficial, no pueden explicarlas bien cuando se les cuestiona a fondo, y tratan la respuesta de la IA como si fuera una estrategia definitiva, sin querer que se la desafíen.
Incluso dejan de ver como experiencia de aprendizaje la oportunidad de aprender de alguien con más experiencia.
Al final, sigo creyendo que el cerebro humano sigue siendo una de las tecnologías más impresionantes que existen, y eso me hace preguntarme por qué querríamos construir afuera de nosotros esta inmensa biblioteca artificial.
Como dice Bret Devereaux en su crítica de Game Of Thrones, una visión del mundo desde la élite solo les parece verosímil y hasta utópica a las élites.
Esta burbuja desconectada del trabajo real acabará reventando con fuerza, y si a la masa que perdió su empleo por la IA se le responde “pues que coman pastel” cuando ni pan puede pagar, uno hasta puede imaginar una reacción del nivel de la Revolución Francesa.
Pero como herramienta para intentar entender algo a profundidad, también hay muy pocas cosas tan buenas como la propia IA.
Al final, entender algo es casi lo mismo que hacerlo por cuenta propia.
No pasa nada si no lo entiendes, pero en ese caso, haya o no indicadores sustitutos, al final no te queda otra que confiar en el entendimiento de otra persona.
Ir en la dirección de hacer menos y confiar más puede funcionar hasta cierto punto, pero más allá de eso pone en riesgo el trabajo del futuro.
simulacrumes una palabra realmente buena.Por eso creo que los mandos medios parecían los primeros conversos del maximalismo LLM.
Los mandos medios tienen muchos incentivos para seguir empujando la abstracción del trabajo de conocimiento, más allá de la verdadera pericia del rol, y ese nivel abstracto parece describirse especialmente bien en el embedding space.
El código de IA muchas veces parece peor de lo que realmente es.
Es excesivamente verboso, confuso y está lleno de fallbacks, así que cuando algo falla se va deslizando por montones de
try/catchy termina mandando el stack trace a lugares absurdos.Aun así, si miras la funcionalidad pura, muchas veces me ha tocado que corre mejor que código escrito por humanos que por fuera se ve parecido.
Tanto para personas como para LLM, es difícil razonar sobre él.
Ojalá hubiera más posts de blog con este estilo.
Tienen una longitud adecuada, transmiten bien la idea y además tienen algo de narrativa.
Hoy hay tanto AI slop producido por LLM con longitud de novela que esto se agradece más.
Para mucha gente de la industria, esto parece una tendencia bastante evidente.
El problema es que hay demasiado dinero en juego, así que los grandes actores siguen empujando lo que les conviene.
Me hace imaginar que las partículas subatómicas en realidad son universos completos, y que sus propiedades reflejan a los seres que gobernaron esos universos y los rastros de automatización que siguieron funcionando después de su desaparición.
Algo así como máquinas automáticas que cosechan entropía y siguen replicándose por sí solas.
Nosotros estamos creando ahora una fuerza mayor que nosotros, y quizá en algún punto lleguemos a un punto de no retorno.
Me hace imaginar innumerables universos y civilizaciones subatómicas que ascienden y colapsan, y que incluso son devoradas por tecnologías seudointeligentes autónomas, mientras que a escala macroscópica todo eso se manifiesta como el comportamiento de las partículas.
Ahora mismo nosotros también estamos creando al final una partícula, y nuestras decisiones colectivas quizá tengan un efecto diminuto pero significativo en el universo superior al que pertenecemos.
La salida de alguien siempre termina siendo la entrada de alguien más.
Si con LLM aumentas el volumen, la siguiente persona también lo parsea con LLM para producir su propia salida.
Y así se encadena todo, hasta que cuando el consumidor final se queja, ya nadie puede identificar exactamente dónde estuvo el error.
Porque al único que se ve es al consumidor final, y todos los demás están escondidos detrás de siete capas de proxies.