Cómo usa Oxide los LLM

(rfd.shared.oxide.computer)

4 puntos por GN⁺ 2025-12-08 | 1 comentarios | Compartir por WhatsApp

Los modelos de lenguaje de gran escala (LLM) están transformando de forma fundamental la forma de trabajar, y Oxide ha definido con claridad cómo se deben usar dentro de la organización
- Oxide es una startup de infraestructura de cómputo bajo demanda que construye hardware y software integrados para centros de datos on-premise
Como principio central para aprovechar los LLM propone un equilibrio entre responsabilidad, rigor, empatía, trabajo en equipo y urgencia
Son útiles para tareas como resumen y comprensión de documentos, revisión de código y depuración, pero en la escritura o la programación el juicio y la responsabilidad humanos son esenciales
Los resultados generados por LLM deben mantener siempre una estructura donde una persona los revise y asuma la responsabilidad
Oxide promueve el uso de LLM, condicionado al sentido de responsabilidad hacia el producto, los clientes y los compañeros

Criterios de valor para usar LLM

Oxide evalúa el uso de LLM según los valores clave de la organización
- Responsabilidad (Responsibility) : Los LLM son solo una herramienta; la responsabilidad del resultado recae completamente en una persona
- Rigor (Rigor) : Usados con cuidado pueden pulir el pensamiento, pero si se usan sin cuidado disminuyen la calidad del mismo
- Empatía (Empathy) : Debe reconocerse que tanto el destinatario como el autor del mensaje son humanos, y mantener una comunicación centrada en las personas
- Trabajo en equipo (Teamwork) : Hay que cuidar que el uso de LLM no dañe la confianza entre colegas y que la transparencia en su uso no se perciba como evasión de responsabilidad
- Urgencia (Urgency) : Aunque se pueda mejorar la velocidad, no se deben sacrificar otros valores

Formas diversas de uso de LLM

LLMs como lectores

Los LLM son excelentes para resumir documentos y responder preguntas, y pueden ayudar a entender rápidamente grandes volúmenes de información
No obstante, se debe garantizar la privacidad de los datos y ajustar la configuración para que los documentos cargados no se usen en el entrenamiento del modelo
Son útiles como herramienta de apoyo para comprender documentos, pero no deben reemplazar las situaciones en las que se debe leer directamente

LLMs como editores

Son eficaces para mejorar la estructura y el estilo de documentos ya terminados, y son útiles cuando se usan en etapas finales
Sin embargo, los LLM tienden a dar una respuesta excesivamente positiva, lo que puede traducirse en falta de análisis crítico
Si se usan en la fase de borrador existe el riesgo de perder la voz propia del autor

LLMs como escritores

Los textos creados por LLM suelen ser con frecuencia demasiado genéricos o con huellas evidentes de generación automática
Los textos generados automáticamente pueden socavar la autenticidad del razonamiento y la confianza del lector
El lector presupone que el autor comprende el contenido, pero los textos de LLM rompen esa premisa
Oxide parte de que todos los miembros saben escribir y no usa LLM como protagonista en la redacción
Sin embargo, puede usarse de forma limitada como herramienta auxiliar para ordenar ideas

LLMs como revisores de código

Los LLM son útiles para detectar ciertos tipos de problemas de código, pero no pueden reemplazar la revisión humana
Dado que las sugerencias pueden carecer de lógica o perder el contexto, deben usarse solo como herramienta complementaria

LLMs como depuradores

Los LLM pueden usarse como un "rubber duck" que provoque ideas de depuración
Su capacidad para resolver problemas reales es limitada, pero son útiles como estímulo para generar nuevos enfoques

LLMs como programadores

Los LLM tienen una capacidad de creación de código muy alta y son adecuados para la escritura experimental y de apoyo
Cuanto más se acerque al código de producto, más importantes son la verificación y la responsabilidad
El código creado por un LLM debe ser revisado directamente por quien lo escribió (auto-revisión) y siempre verificado antes de la revisión por pares
Durante la revisión de código está prohibido responder re-generando todo por completo, ya que eso impide la revisión repetida
También al generar código se deben mantener la responsabilidad, el rigor, la empatía y el trabajo en equipo

Operación y directrices

Los detalles técnicos e internas guías del uso de LLM están documentados en documentos internos de GitHub
Oxide recomienda el uso de LLM, pero exige un uso responsable
- Da prioridad a la conciencia de responsabilidad en relación con la calidad del producto, la confianza del cliente y la colaboración entre colegas

1 comentarios

GN⁺ 2025-12-08

Comentarios en Hacker News

El texto de Bryan muestra una visión equilibrada y realista
Creo que el RFD no incluyó nada sobre eso porque Oxide no contrata ingenieros junior
Bryan es un ingeniero con más de 30 años trabajando con software y hardware difíciles, y tiene experiencia terminando un “programa realmente difícil (un SO)”
La forma en que él usa los LLM es muy distinta a la de un ingeniero junior de 2025
Da la impresión de que los juniors de hoy casi nunca han programado sin ayuda de un LLM
- Antes hubo una época en la empresa en la que pasábamos meses haciendo solo modelos para ingesta de datos
  Era tan aburrido que hasta costaba ir a trabajar, pero ahora siento que eso podría terminarse en minutos con un LLM
  Viéndolo hoy, todo el tiempo que invertimos entonces parece casi una locura
- Recuerdo que en mi primera clase de diseño web, el profesor se pasó todo un semestre enseñándonos los “principios básicos” de HTML, CSS y JS con Notepad
  Recién después presentó Dreamweaver, y la productividad aumentó como diez veces
- Es interesante la tensión entre “artesanía vs. practicidad” en los LLM
  En áreas con resultados claros, como la investigación en seguridad, los LLM destacan, pero son débiles en problemas que requieren juicios sutiles
  Por eso lo ideal es dejarle al LLM las partes repetitivas y sistemáticas, y que el humano se encargue de las partes que requieren criterio
- Llevo más de 20 años programando y tenía una resistencia invisible a usar LLM
  Pero ahora acepté que esta es una “nueva forma de programar”, y al reconocerlo hasta me sentí más joven
- Me dio risa que justo después de la frase “gente que reconoce las huellas de un LLM” apareciera un em-dash (—)
  Últimamente me molesta un poco que usar em-dash haga que crean que un texto fue escrito por IA
Al leer el RFD de Oxide asentí con casi todo, pero no estoy de acuerdo con la parte de que “el LLM escribe bien código desde cero”
Los LLM sirven para resolver el “síndrome de la página en blanco”, pero creo que el código que realmente se despliega está muy lejos de ese resultado
Tal vez esto sea una “ilusión de progreso”
- La escritura es expresión personal, pero el código es una herramienta para resolver problemas
  Los LLM aprenden “buenas soluciones” que aparecen mucho en el dataset, así que son fuertes para resolver problemas
  En cambio, en la expresión humana la diversidad es esencial, así que la expresión promedio pierde interés
  Al final, los LLM podrían limitar la capacidad de resolver problemas no resueltos
  Creo que la razón de la baja calidad del código es la limitación de la context window
- La escritura trillada es mala, pero el código trillado en realidad es bueno
- La respuesta de “prueba otro modelo” ya se siente como el “No True Scotsman” del mundo LLM
  La generación a nivel de función está bien, pero si le encargas una funcionalidad completa, la estructura y las interfaces salen hechas un desastre
  Si lo comparas con escribir, sería como darle la primera y la última oración de un párrafo y pedirle que complete lo demás
- Es parecido a cuando detectamos fácilmente errores en noticias sobre áreas que conocemos bien, pero nos creemos sin más las de áreas que no conocemos
  Los programadores pueden juzgar la calidad del código, pero con la escritura no pasa igual
- La calidad de un LLM varía según el modelo
  Muchas veces la mala impresión viene de haber usado modelos viejos o baratos
Me genera dudas la afirmación de que “un LLM detecta bien textos hechos por LLM”
Me pregunto si eso está demostrado con datos
- Bryan de Oxide lo explicó directamente
  Dijo que, como su proceso de contratación está centrado en la escritura, últimamente se disparó la cantidad de postulaciones redactadas con LLM
  Lo advierten en RFD 0003 y en la página de empleo, pero sigue pasando
  También tratan casos relacionados en un episodio del pódcast
  Dice que el LLM no detecta todo el texto generado por IA, pero sí es útil como herramienta de apoyo para detectar casos sospechosos
- Como forma de detectar texto generado por LLM, alguien propone la idea de meter la mitad del texto en un LLM y hacer que prediga la otra mitad para comparar la probabilidad de n tokens
  No lo he probado, pero parece un enfoque interesante
- Como la dificultad de detección depende de cuánto haya intervenido el LLM (escritura completa, resumen, corrección, etc.),
  creo que con la tecnología actual es imposible una detección perfecta
Al usar código hecho por LLM, la responsabilidad recae en el ingeniero
El código que uno no revisó por cuenta propia no puede pasar a revisión
Mi proceso es el siguiente:
1. ingresar el código relacionado → 2) explicar el objetivo → 3) revisar el diseño → 4) generar el código → 5) probar y corregir → 6) leer todo el código con atención y corregir manualmente
  El último paso es el más difícil, y emocionalmente dan ganas de saltárselo
  Este método permite mantener el pensamiento a nivel de arquitectura mientras reduce trabajo repetitivo
  Pero los LLM no son deterministas, así que son distintos de herramientas predecibles como un compilador
- En la práctica, el paso 6 se lleva la mayor parte del tiempo total
  Si el código no funciona bien, hace falta todavía más corrección
  Por eso no estoy seguro de que el LLM realmente ahorre tiempo
- Antes del paso 4 estaría bien agregar un paso para que primero genere código de pruebas, y luego hacer que falle y después pase
- Si, en vez de hacer correcciones manuales, dejas que el LLM lidere todos los cambios, puede mantener la consistencia del conocimiento dentro de la sesión
- Aun así, se siente que eso daña el orgullo y el sentido de pertenencia del ingeniero
  Cuesta involucrarse emocionalmente en pulir código hecho por una máquina
Me parece raro que no se mencione la posibilidad de infracción de copyright en el código generado por LLM
Podría copiar código de GitHub tal cual, y eso es un tema importante para una empresa de open source
- Si el contenido generado por LLM no está sujeto a copyright, entonces queda ambigua la situación legal del código con licencia Copyleft
  Tiene que haber suficiente aporte humano para que exista copyright, pero no está claro dónde está ese umbral
- Me pregunto si este tipo de tema ya se trató alguna vez en tribunales
- También me pregunto si los LLM actuales siguen causando ese problema, o si lo hacen más seguido que los humanos
El documento está bien armado, pero la parte de que “no hay problema en usar un LLM como ayuda de lectura” se siente contradictoria
Si fuera perfecto, no se diferenciaría del original, y si no lo es, existe el riesgo de mala interpretación
De hecho, muchas veces veo que los LLM no leen bien un documento y deducen cosas solo mirando el índice
Existe el riesgo de que aparezca una capa de traducción entre el contenido y el lector
- Creo que el RFD hablaba no de “leer”, sino de las expectativas sociales alrededor de “escribir”
- Si le haces comparar tres libros técnicos y da un resultado incorrecto, eso sería un fracaso en el uso de la herramienta
  Hay que meter el texto completo directamente en la context window
  Aunque es posible que el contenido completo de tres libros ya supere los límites de un LLM
Me identifico con la idea de que “el texto escrito por LLM daña incluso la autenticidad del pensamiento”
Lo escrito directamente por un humano tiene valor, pero lo escrito por un LLM parece una copia diluida de valor
Me impactó la frase de que sería mejor leer el prompt
- El arte humano expresa el mundo interior de una persona, mientras que el LLM es el resultado del promedio colectivo
  Las ideas interesantes y originales están en los puntos que se alejan del promedio
  Entiendo que alguien use un LLM para expresar mejor sus ideas, por ejemplo en traducción o si no es hablante nativo,
  pero quien recibe ese texto termina dudando si esa expresión realmente refleja el pensamiento de esa persona
- Me hizo pensar en “Programming as Theory Building” de Naur
  Los comentarios son un intento de expresar el contexto teórico que no queda contenido en el código
  Como un LLM no puede tener esa “teoría”, no puede producir comentarios verdaderamente valiosos
- No me gusta el “estilo de escritura de IA” tan típico de los LLM, pero mucha gente ni lo nota
  Por ejemplo, la mayoría de las publicaciones en /r/SaaS parecían escritas por LLM,
  pero aun así provocaban bien la reacción de los lectores mediante storytelling emocional
  Yo también uso LLM para redactar documentación o benchmarks
  También ayudan a quienes no son hablantes nativos al escribir documentos técnicos, aunque la calidad varía mucho
  Al final, en la escritura para transmitir información, los LLM se están volviendo cada vez más útiles
- Eso de “quiero leer el prompt” también me pasa cuando veo titulares de noticias
  No me interesa solo qué se escribió, sino por qué se escribió
- Los LLM predicen bien oraciones promedio, pero casi nunca aciertan una oración creativa
  Así que me consuela pensar que, aunque mis ideas no sean originales, al menos estadísticamente son raras
Creo que no vale la pena leer texto escrito con LLM
Me gusta que Oxide haya establecido un principio firme de no usar LLM para entregables que no sean código
En las revisiones de código debería aplicar lo mismo: quien lo generó tiene que revisarlo primero
Habrá que ver si esta cultura realmente se mantiene, pero la dirección parece sensata
Existe una percepción fuerte de que los LLM fueron entrenados con datos apropiados indebidamente,
y creo que deberían haber tenido en cuenta esa percepción pública
Sea por una cuestión ética o por riesgo de marca, hoy es claramente un factor importante
- Veo este documento no como algo para el público general, sino como un documento técnico interno
  Su propósito parece ser dar lineamientos técnicos, más que fijar una postura ética
- Creo que lo que el texto llama “colapso de la confianza” trata justamente ese problema con otras palabras
  El texto generado por LLM pierde autenticidad, y el lector termina sintiendo que hasta el pensamiento fue automatizado
  Al final, eso puede dañar la confianza mutua
Me pareció interesante la idea de que “escribir implica un trabajo intelectual mayor que leer”
Pero con el código siento que es al revés
- Un texto horrible no sirve de nada, pero un código horrible, mientras funcione, igual puede cerrar un ticket de Jira
  Por eso hay mucho más código malo
  En cambio, el código bien escrito tiene gran valor como aprendizaje y requiere intuición, igual que la escritura
- Citan la ley de Kernighan
  “Debuggear es dos veces más difícil que escribir código.
  Así que, si escribes el código lo más inteligentemente posible, depurarlo será imposible”
  Enlace de laws-of-software.com

Cómo usa Oxide los LLM

Criterios de valor para usar LLM

Formas diversas de uso de LLM

LLMs como lectores

LLMs como editores

LLMs como escritores

LLMs como revisores de código

LLMs como depuradores

LLMs como programadores

Operación y directrices

Lecturas relacionadas

1 comentarios

Comentarios en Hacker News