En un estudio de Stanford Law, la IA mostró mejores resultados que los profesores de derecho

(law.stanford.edu)

1 puntos por GN⁺ 2026-06-04 | 2 comentarios | Compartir por WhatsApp

En un estudio de Stanford Law School, los profesores de derecho prefirieron de forma abrumadora las respuestas generadas por IA frente a las respuestas de sus colegas a preguntas de estudiantes, mostrando resultados que podrían influir en la forma en que se imparte la educación jurídica
En una evaluación ciega con 16 profesores de derecho de facultades de derecho de EE. UU., se realizaron cerca de 3,000 comparaciones anónimas, y la IA registró una tasa de victoria del 75% en comparaciones directas con respuestas de profesores
Los participantes crearon 40 preguntas que un estudiante probablemente haría después de una clase de derecho contractual o en horario de oficina, respondieron ellas mismas y luego evaluaron respuestas de IA y de colegas sin conocer su origen
Los profesores marcaron como pedagógicamente dañinas el 3.5% de las respuestas de IA, frente al 12% de las respuestas de sus colegas, y el sistema de IA mostró un desempeño comparable al de los mejores instructores humanos del estudio
Los resultados no respaldan por sí solos una adopción total de tutores de IA, pero sí ofrecen base para debatir formas de despliegue responsables incluso en áreas como el derecho, donde el juicio es fundamental

Diseño del estudio y resultados clave

El estudio dirigido por el profesor de Stanford Law School Julian Nyarko, “Law Professors Prefer AI Over Peer Answers”, evaluó si los modelos de lenguaje de gran escala pueden actuar como tutores eficaces en clases de derecho contractual
En el estudio participaron 16 profesores de derecho de facultades de derecho de EE. UU., quienes elaboraron 40 preguntas representativas de derecho contractual que un estudiante podría hacer después de clase o en horario de oficina, y las respondieron directamente
Los profesores evaluaron las respuestas sin saber si provenían de la IA o de otro profesor participante, y en cerca de 3,000 comparaciones anónimas las respuestas de IA mostraron una tasa de victoria del 75% en comparaciones directas
El equipo de investigación ajustó la longitud y la estructura de las respuestas de IA para alinearlas con las respuestas humanas, utilizó varios métodos de evaluación y también pidió a los profesores que valoraran si las respuestas podían desorientar o confundir a los estudiantes
El sistema de IA logró un desempeño similar al de los mejores instructores humanos del estudio, y la proporción de respuestas marcadas como pedagógicamente dañinas fue de 3.5% para la IA y de 12% para las respuestas de colegas

Implicaciones y límites para la educación jurídica

En derecho, muchas veces no existe una respuesta claramente correcta, y argumentos contrapuestos pueden resultar igualmente persuasivos, por lo que el juicio, el razonamiento matizado y la capacidad de manejar la ambigüedad son esenciales
El equipo de investigación también examinó varios modelos de IA, incluidos sistemas comerciales de tutoría y NotebookLM de Google, y observó diferencias de rendimiento entre modelos
Incluso cuando las limitaciones de contexto afectaron las respuestas de la IA, los profesores siguieron prefiriéndolas con frecuencia frente a alternativas redactadas por humanos
Las facultades de derecho deben mantener estándares académicos estrictos al considerar la integración de herramientas de IA en la educación jurídica, y también tener en cuenta riesgos como alucinaciones, dependencia excesiva y debilitamiento de la capacidad de pensamiento crítico
El estudio evaluó la calidad de las respuestas producidas por herramientas de IA, pero la forma de implementación que mejora con mayor eficacia el aprendizaje estudiantil sigue siendo una cuestión abierta, y el debate debe pasar de si la IA puede dar respuestas precisas y de alta calidad a cómo desplegarla de manera responsable para que realmente ayude a los estudiantes

2 comentarios

adieuxmonth 2026-06-04

Uf.

GN⁺ 2026-06-04

Comentarios de Hacker News

Este estudio es bastante sospechoso. Habría que investigarlo más, pero si lo lees, claramente deberían sonar bastante fuerte varias señales de alerta
La Figura 2 (página 6) parece tener muchos problemas. Solo hay 16 profesores, pero se habla de 3 mil comparaciones por cada uno, y además los resultados por profesor son muy irregulares. La varianza es muy grande, lo que parece una señal de que el estudio no tiene una potencia estadística significativa
Además, en el resultado principal solo aparecen modelos de Google, así que también se ve un sesgo claro. Otros modelos aparecen en otras partes, así que queda la duda de por qué no están en el resultado clave
No soy experto en derecho, pero sí sé bastante de estadística, y puedo decir con confianza que este paper huele raro. No puedo afirmar que sea una tontería, pero hay señales de peligro por todos lados
- Sí, pero hace 2 años la idea era que la IA era “una herramienta impresionante, pero no reemplazará a los trabajadores del conocimiento”, y ahora estamos en “el estudio que dice que superó a trabajadores del conocimiento de primer nivel podría tener fallas metodológicas”. En 2 años más, esto se va a descontrolar
- Más allá de eso, toda la estructura del estudio parece carecer de sentido. Lo armaron en formato de pregunta/respuesta y luego hicieron que humanos evaluaran las respuestas, pero eso es literalmente para lo que se entrena un LLM. Al final, se trata de convencer a un humano de presionar el botón de “esta respuesta es mejor”
- Independientemente de que todo el paper pueda ser algo ambiguo, es interesante que las tasas de daño de los Instructors 3 y 8 sean bastante más bajas que las del LLM, pero su preferencia no sea la más alta. El daño se mueve en dirección opuesta a la preferencia, pero no de forma perfecta. Parece que incluso en elecciones de expertos cierto carisma influye un poco
- Parece que la cifra de 3 mil sale de aquí, y está explicada en el paper
  Se indica que los profesores, en calidad de evaluadores, realizaron 2,918 comparaciones ciegas de elección forzada, que la mediana por evaluador fue de 200 casos, y que cada vez elegían entre una respuesta anonimizada del instructor y una respuesta del LLM cuál preferirían dar al estudiante
- Últimamente, al ver papers, cada vez hay más de ese estilo de “entrevistamos a 8 personas y sacamos conclusiones basadas en la opinión de expertos”. El campo de IA y ciberseguridad está especialmente lleno de eso
  Incluso vi un paper que llamaba “metodología” a meter las entrevistas y los protocolos en ChatGPT y sacar resultados. Pasó revisión por pares y hasta fue publicado
Tal vez esto se pueda explicar de forma parecida a una película de Hollywood. Si una película se hace para satisfacer a la mayor cantidad de gente posible, es más probable que la gente la elija sobre otras
Un profesor humano de derecho deja ver su personalidad, creencias y opiniones en lo que escribe, mientras que un LLM está entrenado para satisfacer al público más amplio. Eso no significa que la respuesta sea mejor. Es como decir que Captain America es necesariamente mejor película que American Beauty
Como ingeniero de software, uno tiene cierta intuición sobre qué tareas es riesgoso delegarle a un agente
Pero cuando le encargas a una IA un borrador de documento legal, no tienes esa misma intuición calibrada sobre qué podría salir mal. Redactar un testamento parece inofensivo a simple vista, pero en realidad no lo sé. El sistema legal es famoso por estar lleno de trampas
- He usado bastante LLM de propósito general, como los típicos Claude o GPT, para redactar borradores de documentos legales. La trampa más grande son las citas de precedentes alucinadas
  Puede meter con facilidad citas plausibles de otros casos que parecen probar perfectamente el argumento que quieres, e incluso inventarse nombres de casos que suenan reales, como United States v. Shenzhou Electronics Inc. Revisas varias veces y no hay citas falsas, así que te confías, y luego en la siguiente moción de pronto mete tres
  Aun así, un abogado que no use LLM para investigación se está quedando atrás. Son increíblemente buenos para encontrar precedentes de nicho que uno por sí solo jamás habría hallado. Antes había mucha coincidencia exacta de términos de búsqueda, y eso muchas veces era inútil por naturaleza para la investigación jurídica. Lo que se necesita es algo que pueda buscar con criterios más ambiguos, y la IA hace eso muy bien. Pero los resultados siempre hay que verificarlos. Es probable que los LLM de Lexis Nexis o Westlaw sean mejores que los modelos de propósito general
  Los LLM son excelentes asistentes legales. Si trabajas en temas jurídicos, deberías usarlos aunque solo sea para lanzar ideas. También sirve ponerlos a hacer de abogado del diablo desde la postura contraria. Un amigo mío siempre los pone a actuar como el abogado de la otra parte para revisar todas las objeciones que podrían salir
  Es igual que en el desarrollo de software. Si lo que importa es el resultado que produces, tienes que verificar la salida
- Creo que esto aplica para la mayoría de las profesiones especializadas. La IA se aprovecha mejor cuando la usa alguien que ya conoce bien esa habilidad o profesión
  Es como comparar lo que busco yo como administrador de sistemas con lo que busca Jane del equipo de contabilidad. Un usuario final no técnico tiene muchas más probabilidades de empeorar el problema o de instalar algo sospechoso desde resultados de búsqueda llenos de anuncios. Yo o alguien de la mesa de ayuda tenemos menos probabilidades de hacer eso
  No confiaría en redactar documentos legales importantes con IA sin el consejo de un abogado. Del mismo modo, tampoco querría depender de que mi abogado escriba mi código con IA
- Como abogado e ingeniero de software, mi impresión hasta ahora es que la tasa de errores de los LLM en código y en borradores de documentos legales es bastante parecida. Pero en el contexto legal es más problemático, porque los documentos legales no tienen muchas de las salvaguardas estructurales que sí tiene el código
  Los documentos legales no tienen pruebas automatizadas, tipos estáticos, entornos de prueba, logging/instrumentación de observabilidad ni sandboxing
  El retraso entre la redacción y el “despliegue” también hace que el ciclo de depuración sea mucho menos efectivo y más costoso. El código se puede desplegar en producción en segundos, ver el error en los logs y depurarlo de inmediato. Pero los errores en contratos o escritos judiciales muchas veces no se detectan hasta días después como mínimo, y a menudo hasta años después, cuando ya no se pueden corregir. Por eso los errores son más difíciles tanto de descubrir como de resolver
  Las consecuencias de los errores también suelen ser mucho mayores. A veces no se pueden corregir, y un error legal puede poner en riesgo la vida, la libertad o una cantidad importante de patrimonio de alguien. Claro, los bugs en sistemas críticos para la seguridad pueden ser tan malos como los errores legales o peores, así que no es una distinción absoluta. Aun así, en general la mayoría del software es menos riesgoso que la mayoría de los documentos legales
  Por otro lado, los LLM parecen hacerlo mejor con el estilo y la estructura básica de los documentos legales que con el código. Cosas como seguir el formato IRAC, adjuntar citas a proposiciones jurídicas y escribir oraciones comprensibles. Claro, las alucinaciones siguen siendo un problema. En código, esto equivaldría a buenas prácticas como buenos comentarios, cohesión, uso consistente de patrones de diseño, cobertura de pruebas, nombres de variables claros y DRY
  Que les vaya mejor en estas métricas cualitativas puede deberse a que incluso los documentos legales más largos suelen tener una estructura más simple y menos líneas de texto que una base de código grande y compleja. O puede ser porque los LLM han sido entrenados más con texto en lenguaje natural que con código, o porque el lenguaje natural es más tolerante que el código. Es probable que pequeñas diferencias de redacción o gramática no afecten mucho la interpretación de un documento, mientras que un error de un solo carácter en código puede tener un impacto enorme
- Que redactar un testamento sea inofensivo, para nada. Para el albacea que tenga que lidiar con un testamento de IA defectuoso, definitivamente no lo es. Esta primavera me tocó gestionar la herencia de mi padre, y hasta la herencia más simple fue un proceso frustrante y confuso
- No considero que redactar un testamento sea inofensivo. Si está mal hecho, los parientes más cercanos pueden quedar cargando con un gran dolor de cabeza y pasar por un proceso de sucesión de meses o incluso años
Aunque este estudio en particular sea malo, en general no resulta sorprendente.
Dentro del trabajo legal hay áreas que consisten en analizar grandes volúmenes de texto, sacar conclusiones y luego redactar otros textos con base en eso. Eso es literalmente la especialidad de los LLM.
Los abogados de ese tipo deberían estar al frente de la fila del desempleo. No los programadores; ni siquiera hay comparación.
- Que en teoría sea la especialidad de los LLM no significa que los LLM puedan hacer ese trabajo. Dejando de lado las creencias previas, todavía hace falta demostrarlo. El derecho es un sistema donde está en juego la vida de las personas y debe someterse al nivel más alto de verificación.
- Sí, es correcto decir que es la especialidad de los LLM. Pero en términos del uso de LLM, programar tiene más ventajas que el derecho.
  Puedes ejecutar la lógica y construir bucles con la salida. Es más fácil configurar un aprendizaje por refuerzo más útil, y también crear datos sintéticos de entrenamiento. El uso de herramientas y la paralelización de agentes también se prestan de forma natural. La integración con APIs también es más sencilla comparada con las pocas APIs que ofrece el sistema judicial.
  La programación codifica explícitamente la abstracción a nivel de funciones y módulos, así que es más fácil convertirla en grafos de conocimiento, razonar sobre ella y construir encima que a partir de fragmentos de texto.
- En programación y en derecho se ve el mismo problema con la IA.
  La IA es como una costra sobre una herida. Temporalmente tapa huecos y se lanza a rellenar vacíos, pero no va a ser la solución final.
  Los modelos han demostrado que había una enorme demanda insatisfecha de alfabetización, tanto en software como en derecho. Ahora la elección es entre resolver las causas estructurales de esa demanda insatisfecha, o taparla cubriéndola con capas y capas de costras de IA.
- Los sujetos de este estudio son gente de la academia. No es por menospreciarlos a ellos ni a su trabajo, pero eso es muy distinto del trabajo transaccional o de litigio que se hace en BigLaw.
  Está mucho más enfocado en analizar y resumir textos existentes, y esos textos en sí mismos también pueden usarse más fácilmente para entrenar LLM: leyes, precedentes, revistas jurídicas, libros de texto y cosas por el estilo.
  Así que probablemente sea el tipo de trabajo legal más fácil de convertir en LLM, pero al mismo tiempo también podría ser el de menor valor. Los profesores de derecho no ganan lo mismo que los abogados de BigLaw. Este enfoque no se va a escalar tal cual. Eso no significa que la IA no pueda abrirse paso en BigLaw, pero sería otro desafío.
Entiendo por qué la discusión de este artículo se está yendo en esa dirección, pero el estudio en sí se enfoca en la posibilidad de que los LLM funcionen como tutores de derecho. Extender eso a si los LLM van a reemplazar abogados es interesante, pero no era lo que trataba el estudio.
Si el marco es usar LLM como tutores legales y bajar el costo de la educación jurídica, parece un resultado socialmente positivo. Más aún, si los sistemas LLM modernos pueden acceder a materiales de referencia legales, resulta intuitivamente plausible que puedan responder de forma integral a las preguntas que plantee el estudiante y ofrecer pistas o referencias directas que lleven a materiales educativos o fuentes primarias. Los resultados del estudio también parecen apuntar en esa dirección.
Los autores subrayan de manera explícita e intencional que muchas preguntas legales no tienen una respuesta computable aislada, sino que requieren contextualización. Los resultados sugieren que un sistema basado en LLM, mediante la “generación algorítmica de mejor ajuste probabilístico” de los modelos de lenguaje modernos, puede contextualizar adecuadamente la pregunta de un estudiante, explicar las compensaciones o complejidades implícitas en ella y, de manera crucial, explicar esa complejidad al estudiante cumpliendo con el estándar profesional de un educador jurídico.
Siendo realistas, espero que este resultado les dé a los lectores de HN un poco más de confianza en que, cuando le hagan preguntas legales a un LLM, pueden esperar respuestas que expliquen la complejidad del derecho relacionada con esa pregunta. Es una buena noticia y, si el tiempo lo permite, probablemente sea el trabajo previo mínimo que deberíamos hacer antes de consultar a un abogado de verdad.
Por otro lado, no creo que este estudio señale que los LLM ya estén listos para ofrecer asesoría legal directa. Es parecido a que un libro de texto jurídico no sustituye la asesoría legal o, más precisamente, a que encontrar por casualidad un caso legal más o menos parecido a mi situación no garantiza el mismo resultado.
- Sí parece mostrar que los LLM son lo bastante inteligentes como para ser útiles en un contexto de educación jurídica.
La Figura I.1 dice mucho. La longitud de la respuesta aparece como el predictor más fuerte de la tasa de victoria. Eso probablemente se deba a un defecto metodológico del estudio.
A los profesores se les indicó que respondieran de manera concisa. Era algo como: “por favor redacte de forma concisa. Se espera que cada respuesta no tome más de 3 minutos”. Eso probablemente los empujó a escribir poco. Ya estando en modo conciso, puede que los profesores simplemente no le hayan dedicado mucho esfuerzo a las respuestas por escrito. Este no es el titular que los autores creen que es.
Me sorprende que Stanford Law haya aceptado un título de comunicado de prensa tan exagerado. Algo como “para preguntas típicas de contratos de primer año, los profesores de derecho prefirieron respuestas generadas por IA antes que respuestas generadas por profesores” me parecería más correcto.
- El título corregido es preciso. Se siente raro que académicos intenten inflar la valoración con afirmaciones exageradas, como si fueran CEOs de institutos punteros.
Mi mejor apuesta es que Gemini fue entrenado con el libro de texto que las preguntas intentaban evaluar, y por eso probablemente era más fuerte en el recuerdo explícito de esa pregunta o de preguntas relacionadas.
Por lo que dice la metodología del paper, parece ser un curso introductorio bastante limitado.
- Además de eso, este estudio se realizó en el instituto HAI de Stanford, parece tener un sesgo evidente, y al paper de forma extraña le falta una declaración de conflicto de interés.
  Edit: acabo de enterarme de que Google es uno de los principales donantes de HAI. Entonces este estudio, al menos en parte, fue financiado con dinero de Google. Probablemente esa sea también la razón por la que los autores no pudieron declarar ausencia de conflicto de interés.
El campo legal encaja por naturaleza de forma ideal con los modelos de lenguaje de IA. Fundamentalmente, todo se basa en texto interconectado.
Creo que aquí podría venir una ola de despidos aún mayor que en IT. Solo que es muy probable que opere un lobby más fuerte, y que intenten inflar muchísimo el valor de su trabajo para impedir la entrada de agentes externos.
- Como abogado, creo que esa intuición sobre los LLM es correcta. El derecho es el tipo de juego de lenguaje en el que los LLM son buenos.
  Pero esa ola ya empezó, y va a ser enorme. Los clientes corporativos están exigiendo el uso de IA. No quieren pagar para que un asociado pase horas redactando un borrador y luego un socio lo revise. Quieren que el socio principal use IA y solo corrija.
Lo que un LLM no puede hacer es explicar por qué dijo eso cuando se le somete a un contrainterrogatorio. A lo más, alucina la mejor explicación de por qué alguien podría haber dicho lo que dijo, y también puede dar razones plausibles de por qué otra persona podría haber dicho algo distinto
La pregunta “¿por qué dijiste esto y no aquello?” no obliga a explicitar el fundamento de lo dicho, sino que solo hace que genere una afirmación nueva y más compleja
- En casos simples, sí
  Pero existen técnicas de construcción de contexto para LLM que fijan el resultado final en una estructura de datos. Esa estructura conserva la forma de los argumentos que sostienen la conclusión contenida en el texto completado. Organizar la lógica dentro del lenguaje es un campo muy amplio y hay muchos patrones; el que más me gustó fue algo llamado Claim Dependency Graph, que modela las relaciones entre afirmaciones atómicas como aristas de un grafo
  Hay muchas operaciones que pueden ejecutarse sobre esa estructura, y “reconstruir cómo se llegó a esta conclusión” claramente es una de ellas
- Los humanos sí tienen una motivación real que moldea el marco del pensamiento expresado. Un LLM, en cambio, termina creando pensamientos generados de nuevo en respuesta al flujo de preguntas
- Probablemente lo mismo también aplica a los humanos. En una conversación, muchas veces respondemos de forma instintiva, y solo cuando nos lo piden construimos una racionalización a posteriori
  Incluso con pensamientos más reflexionados, si tenemos suerte podemos recordar el “rastro de razonamiento”, pero hasta ahí llega nuestra introspección. A menos que seas neurocientífico, ni siquiera sabes cuántas neuronas tenemos, y mucho menos cómo producen pensamientos
  El razonamiento motivado obstaculiza aún más la introspección, y si a eso se suman la deshonestidad y los errores de comunicación, ni siquiera la información limitada que queda logra transmitirse bien entre nosotros
  La investigación sobre interpretabilidad de modelos ha avanzado mucho. De forma polémica, incluso podría decirse que ya podemos explicar mejor la toma de decisiones de la IA que la del cerebro humano
- Los LLM alucinan porque los humanos también alucinan
  Pedirle a un LLM que anote sus fuentes puede, igual que en los humanos, aumentar mucho el pattern matching que imita de cerca la lógica
  Entiendo qué significa la pregunta “¿por qué dijiste esto y no aquello?”, pero también he visto otras maneras de preguntar que evitan que el LLM reaccione de forma excesiva en la dirección contraria

En un estudio de Stanford Law, la IA mostró mejores resultados que los profesores de derecho

Diseño del estudio y resultados clave

Implicaciones y límites para la educación jurídica

Lecturas relacionadas

2 comentarios

Comentarios de Hacker News