En un estudio de Stanford Law, la IA mostró mejores resultados que los profesores de derecho
(law.stanford.edu)- En un estudio de Stanford Law School, los profesores de derecho prefirieron de forma abrumadora las respuestas generadas por IA frente a las respuestas de sus colegas a preguntas de estudiantes, mostrando resultados que podrían influir en la forma en que se imparte la educación jurídica
- En una evaluación ciega con 16 profesores de derecho de facultades de derecho de EE. UU., se realizaron cerca de 3,000 comparaciones anónimas, y la IA registró una tasa de victoria del 75% en comparaciones directas con respuestas de profesores
- Los participantes crearon 40 preguntas que un estudiante probablemente haría después de una clase de derecho contractual o en horario de oficina, respondieron ellas mismas y luego evaluaron respuestas de IA y de colegas sin conocer su origen
- Los profesores marcaron como pedagógicamente dañinas el 3.5% de las respuestas de IA, frente al 12% de las respuestas de sus colegas, y el sistema de IA mostró un desempeño comparable al de los mejores instructores humanos del estudio
- Los resultados no respaldan por sí solos una adopción total de tutores de IA, pero sí ofrecen base para debatir formas de despliegue responsables incluso en áreas como el derecho, donde el juicio es fundamental
Diseño del estudio y resultados clave
- El estudio dirigido por el profesor de Stanford Law School Julian Nyarko, “Law Professors Prefer AI Over Peer Answers”, evaluó si los modelos de lenguaje de gran escala pueden actuar como tutores eficaces en clases de derecho contractual
- En el estudio participaron 16 profesores de derecho de facultades de derecho de EE. UU., quienes elaboraron 40 preguntas representativas de derecho contractual que un estudiante podría hacer después de clase o en horario de oficina, y las respondieron directamente
- Los profesores evaluaron las respuestas sin saber si provenían de la IA o de otro profesor participante, y en cerca de 3,000 comparaciones anónimas las respuestas de IA mostraron una tasa de victoria del 75% en comparaciones directas
- El equipo de investigación ajustó la longitud y la estructura de las respuestas de IA para alinearlas con las respuestas humanas, utilizó varios métodos de evaluación y también pidió a los profesores que valoraran si las respuestas podían desorientar o confundir a los estudiantes
- El sistema de IA logró un desempeño similar al de los mejores instructores humanos del estudio, y la proporción de respuestas marcadas como pedagógicamente dañinas fue de 3.5% para la IA y de 12% para las respuestas de colegas
Implicaciones y límites para la educación jurídica
- En derecho, muchas veces no existe una respuesta claramente correcta, y argumentos contrapuestos pueden resultar igualmente persuasivos, por lo que el juicio, el razonamiento matizado y la capacidad de manejar la ambigüedad son esenciales
- El equipo de investigación también examinó varios modelos de IA, incluidos sistemas comerciales de tutoría y NotebookLM de Google, y observó diferencias de rendimiento entre modelos
- Incluso cuando las limitaciones de contexto afectaron las respuestas de la IA, los profesores siguieron prefiriéndolas con frecuencia frente a alternativas redactadas por humanos
- Las facultades de derecho deben mantener estándares académicos estrictos al considerar la integración de herramientas de IA en la educación jurídica, y también tener en cuenta riesgos como alucinaciones, dependencia excesiva y debilitamiento de la capacidad de pensamiento crítico
- El estudio evaluó la calidad de las respuestas producidas por herramientas de IA, pero la forma de implementación que mejora con mayor eficacia el aprendizaje estudiantil sigue siendo una cuestión abierta, y el debate debe pasar de si la IA puede dar respuestas precisas y de alta calidad a cómo desplegarla de manera responsable para que realmente ayude a los estudiantes
1 comentarios
Comentarios de Hacker News
Este estudio es bastante sospechoso. Habría que investigarlo más, pero si lo lees, claramente deberían sonar bastante fuerte varias señales de alerta
La Figura 2 (página 6) parece tener muchos problemas. Solo hay 16 profesores, pero se habla de 3 mil comparaciones por cada uno, y además los resultados por profesor son muy irregulares. La varianza es muy grande, lo que parece una señal de que el estudio no tiene una potencia estadística significativa
Además, en el resultado principal solo aparecen modelos de Google, así que también se ve un sesgo claro. Otros modelos aparecen en otras partes, así que queda la duda de por qué no están en el resultado clave
No soy experto en derecho, pero sí sé bastante de estadística, y puedo decir con confianza que este paper huele raro. No puedo afirmar que sea una tontería, pero hay señales de peligro por todos lados
Se indica que los profesores, en calidad de evaluadores, realizaron 2,918 comparaciones ciegas de elección forzada, que la mediana por evaluador fue de 200 casos, y que cada vez elegían entre una respuesta anonimizada del instructor y una respuesta del LLM cuál preferirían dar al estudiante
Incluso vi un paper que llamaba “metodología” a meter las entrevistas y los protocolos en ChatGPT y sacar resultados. Pasó revisión por pares y hasta fue publicado
Tal vez esto se pueda explicar de forma parecida a una película de Hollywood. Si una película se hace para satisfacer a la mayor cantidad de gente posible, es más probable que la gente la elija sobre otras
Un profesor humano de derecho deja ver su personalidad, creencias y opiniones en lo que escribe, mientras que un LLM está entrenado para satisfacer al público más amplio. Eso no significa que la respuesta sea mejor. Es como decir que Captain America es necesariamente mejor película que American Beauty
Como ingeniero de software, uno tiene cierta intuición sobre qué tareas es riesgoso delegarle a un agente
Pero cuando le encargas a una IA un borrador de documento legal, no tienes esa misma intuición calibrada sobre qué podría salir mal. Redactar un testamento parece inofensivo a simple vista, pero en realidad no lo sé. El sistema legal es famoso por estar lleno de trampas
Puede meter con facilidad citas plausibles de otros casos que parecen probar perfectamente el argumento que quieres, e incluso inventarse nombres de casos que suenan reales, como United States v. Shenzhou Electronics Inc. Revisas varias veces y no hay citas falsas, así que te confías, y luego en la siguiente moción de pronto mete tres
Aun así, un abogado que no use LLM para investigación se está quedando atrás. Son increíblemente buenos para encontrar precedentes de nicho que uno por sí solo jamás habría hallado. Antes había mucha coincidencia exacta de términos de búsqueda, y eso muchas veces era inútil por naturaleza para la investigación jurídica. Lo que se necesita es algo que pueda buscar con criterios más ambiguos, y la IA hace eso muy bien. Pero los resultados siempre hay que verificarlos. Es probable que los LLM de Lexis Nexis o Westlaw sean mejores que los modelos de propósito general
Los LLM son excelentes asistentes legales. Si trabajas en temas jurídicos, deberías usarlos aunque solo sea para lanzar ideas. También sirve ponerlos a hacer de abogado del diablo desde la postura contraria. Un amigo mío siempre los pone a actuar como el abogado de la otra parte para revisar todas las objeciones que podrían salir
Es igual que en el desarrollo de software. Si lo que importa es el resultado que produces, tienes que verificar la salida
Es como comparar lo que busco yo como administrador de sistemas con lo que busca Jane del equipo de contabilidad. Un usuario final no técnico tiene muchas más probabilidades de empeorar el problema o de instalar algo sospechoso desde resultados de búsqueda llenos de anuncios. Yo o alguien de la mesa de ayuda tenemos menos probabilidades de hacer eso
No confiaría en redactar documentos legales importantes con IA sin el consejo de un abogado. Del mismo modo, tampoco querría depender de que mi abogado escriba mi código con IA
Los documentos legales no tienen pruebas automatizadas, tipos estáticos, entornos de prueba, logging/instrumentación de observabilidad ni sandboxing
El retraso entre la redacción y el “despliegue” también hace que el ciclo de depuración sea mucho menos efectivo y más costoso. El código se puede desplegar en producción en segundos, ver el error en los logs y depurarlo de inmediato. Pero los errores en contratos o escritos judiciales muchas veces no se detectan hasta días después como mínimo, y a menudo hasta años después, cuando ya no se pueden corregir. Por eso los errores son más difíciles tanto de descubrir como de resolver
Las consecuencias de los errores también suelen ser mucho mayores. A veces no se pueden corregir, y un error legal puede poner en riesgo la vida, la libertad o una cantidad importante de patrimonio de alguien. Claro, los bugs en sistemas críticos para la seguridad pueden ser tan malos como los errores legales o peores, así que no es una distinción absoluta. Aun así, en general la mayoría del software es menos riesgoso que la mayoría de los documentos legales
Por otro lado, los LLM parecen hacerlo mejor con el estilo y la estructura básica de los documentos legales que con el código. Cosas como seguir el formato IRAC, adjuntar citas a proposiciones jurídicas y escribir oraciones comprensibles. Claro, las alucinaciones siguen siendo un problema. En código, esto equivaldría a buenas prácticas como buenos comentarios, cohesión, uso consistente de patrones de diseño, cobertura de pruebas, nombres de variables claros y DRY
Que les vaya mejor en estas métricas cualitativas puede deberse a que incluso los documentos legales más largos suelen tener una estructura más simple y menos líneas de texto que una base de código grande y compleja. O puede ser porque los LLM han sido entrenados más con texto en lenguaje natural que con código, o porque el lenguaje natural es más tolerante que el código. Es probable que pequeñas diferencias de redacción o gramática no afecten mucho la interpretación de un documento, mientras que un error de un solo carácter en código puede tener un impacto enorme
Aunque este estudio en particular sea malo, en general no resulta sorprendente.
Dentro del trabajo legal hay áreas que consisten en analizar grandes volúmenes de texto, sacar conclusiones y luego redactar otros textos con base en eso. Eso es literalmente la especialidad de los LLM.
Los abogados de ese tipo deberían estar al frente de la fila del desempleo. No los programadores; ni siquiera hay comparación.
Puedes ejecutar la lógica y construir bucles con la salida. Es más fácil configurar un aprendizaje por refuerzo más útil, y también crear datos sintéticos de entrenamiento. El uso de herramientas y la paralelización de agentes también se prestan de forma natural. La integración con APIs también es más sencilla comparada con las pocas APIs que ofrece el sistema judicial.
La programación codifica explícitamente la abstracción a nivel de funciones y módulos, así que es más fácil convertirla en grafos de conocimiento, razonar sobre ella y construir encima que a partir de fragmentos de texto.
La IA es como una costra sobre una herida. Temporalmente tapa huecos y se lanza a rellenar vacíos, pero no va a ser la solución final.
Los modelos han demostrado que había una enorme demanda insatisfecha de alfabetización, tanto en software como en derecho. Ahora la elección es entre resolver las causas estructurales de esa demanda insatisfecha, o taparla cubriéndola con capas y capas de costras de IA.
Está mucho más enfocado en analizar y resumir textos existentes, y esos textos en sí mismos también pueden usarse más fácilmente para entrenar LLM: leyes, precedentes, revistas jurídicas, libros de texto y cosas por el estilo.
Así que probablemente sea el tipo de trabajo legal más fácil de convertir en LLM, pero al mismo tiempo también podría ser el de menor valor. Los profesores de derecho no ganan lo mismo que los abogados de BigLaw. Este enfoque no se va a escalar tal cual. Eso no significa que la IA no pueda abrirse paso en BigLaw, pero sería otro desafío.
Entiendo por qué la discusión de este artículo se está yendo en esa dirección, pero el estudio en sí se enfoca en la posibilidad de que los LLM funcionen como tutores de derecho. Extender eso a si los LLM van a reemplazar abogados es interesante, pero no era lo que trataba el estudio.
Si el marco es usar LLM como tutores legales y bajar el costo de la educación jurídica, parece un resultado socialmente positivo. Más aún, si los sistemas LLM modernos pueden acceder a materiales de referencia legales, resulta intuitivamente plausible que puedan responder de forma integral a las preguntas que plantee el estudiante y ofrecer pistas o referencias directas que lleven a materiales educativos o fuentes primarias. Los resultados del estudio también parecen apuntar en esa dirección.
Los autores subrayan de manera explícita e intencional que muchas preguntas legales no tienen una respuesta computable aislada, sino que requieren contextualización. Los resultados sugieren que un sistema basado en LLM, mediante la “generación algorítmica de mejor ajuste probabilístico” de los modelos de lenguaje modernos, puede contextualizar adecuadamente la pregunta de un estudiante, explicar las compensaciones o complejidades implícitas en ella y, de manera crucial, explicar esa complejidad al estudiante cumpliendo con el estándar profesional de un educador jurídico.
Siendo realistas, espero que este resultado les dé a los lectores de HN un poco más de confianza en que, cuando le hagan preguntas legales a un LLM, pueden esperar respuestas que expliquen la complejidad del derecho relacionada con esa pregunta. Es una buena noticia y, si el tiempo lo permite, probablemente sea el trabajo previo mínimo que deberíamos hacer antes de consultar a un abogado de verdad.
Por otro lado, no creo que este estudio señale que los LLM ya estén listos para ofrecer asesoría legal directa. Es parecido a que un libro de texto jurídico no sustituye la asesoría legal o, más precisamente, a que encontrar por casualidad un caso legal más o menos parecido a mi situación no garantiza el mismo resultado.
La Figura I.1 dice mucho. La longitud de la respuesta aparece como el predictor más fuerte de la tasa de victoria. Eso probablemente se deba a un defecto metodológico del estudio.
A los profesores se les indicó que respondieran de manera concisa. Era algo como: “por favor redacte de forma concisa. Se espera que cada respuesta no tome más de 3 minutos”. Eso probablemente los empujó a escribir poco. Ya estando en modo conciso, puede que los profesores simplemente no le hayan dedicado mucho esfuerzo a las respuestas por escrito. Este no es el titular que los autores creen que es.
Me sorprende que Stanford Law haya aceptado un título de comunicado de prensa tan exagerado. Algo como “para preguntas típicas de contratos de primer año, los profesores de derecho prefirieron respuestas generadas por IA antes que respuestas generadas por profesores” me parecería más correcto.
Mi mejor apuesta es que Gemini fue entrenado con el libro de texto que las preguntas intentaban evaluar, y por eso probablemente era más fuerte en el recuerdo explícito de esa pregunta o de preguntas relacionadas.
Por lo que dice la metodología del paper, parece ser un curso introductorio bastante limitado.
Edit: acabo de enterarme de que Google es uno de los principales donantes de HAI. Entonces este estudio, al menos en parte, fue financiado con dinero de Google. Probablemente esa sea también la razón por la que los autores no pudieron declarar ausencia de conflicto de interés.
El campo legal encaja por naturaleza de forma ideal con los modelos de lenguaje de IA. Fundamentalmente, todo se basa en texto interconectado.
Creo que aquí podría venir una ola de despidos aún mayor que en IT. Solo que es muy probable que opere un lobby más fuerte, y que intenten inflar muchísimo el valor de su trabajo para impedir la entrada de agentes externos.
Pero esa ola ya empezó, y va a ser enorme. Los clientes corporativos están exigiendo el uso de IA. No quieren pagar para que un asociado pase horas redactando un borrador y luego un socio lo revise. Quieren que el socio principal use IA y solo corrija.
Lo que un LLM no puede hacer es explicar por qué dijo eso cuando se le somete a un contrainterrogatorio. A lo más, alucina la mejor explicación de por qué alguien podría haber dicho lo que dijo, y también puede dar razones plausibles de por qué otra persona podría haber dicho algo distinto
La pregunta “¿por qué dijiste esto y no aquello?” no obliga a explicitar el fundamento de lo dicho, sino que solo hace que genere una afirmación nueva y más compleja
Pero existen técnicas de construcción de contexto para LLM que fijan el resultado final en una estructura de datos. Esa estructura conserva la forma de los argumentos que sostienen la conclusión contenida en el texto completado. Organizar la lógica dentro del lenguaje es un campo muy amplio y hay muchos patrones; el que más me gustó fue algo llamado Claim Dependency Graph, que modela las relaciones entre afirmaciones atómicas como aristas de un grafo
Hay muchas operaciones que pueden ejecutarse sobre esa estructura, y “reconstruir cómo se llegó a esta conclusión” claramente es una de ellas
Incluso con pensamientos más reflexionados, si tenemos suerte podemos recordar el “rastro de razonamiento”, pero hasta ahí llega nuestra introspección. A menos que seas neurocientífico, ni siquiera sabes cuántas neuronas tenemos, y mucho menos cómo producen pensamientos
El razonamiento motivado obstaculiza aún más la introspección, y si a eso se suman la deshonestidad y los errores de comunicación, ni siquiera la información limitada que queda logra transmitirse bien entre nosotros
La investigación sobre interpretabilidad de modelos ha avanzado mucho. De forma polémica, incluso podría decirse que ya podemos explicar mejor la toma de decisiones de la IA que la del cerebro humano
Pedirle a un LLM que anote sus fuentes puede, igual que en los humanos, aumentar mucho el pattern matching que imita de cerca la lógica
Entiendo qué significa la pregunta “¿por qué dijiste esto y no aquello?”, pero también he visto otras maneras de preguntar que evitan que el LLM reaccione de forma excesiva en la dirección contraria