La necesidad de hacer públicas las directrices de conducta de la IA

(twitter.com/ID_AA_Carmack)

2 puntos por GN⁺ 2024-02-22 | 1 comentarios | Compartir por WhatsApp

El tuit de John Carmack, exdesarrollador de Doom y ex CTO de Oculus

"Las barreras de comportamiento de la IA configuradas por ingeniería de prompts y filtros deberían ser públicas, y los creadores deberían revelar con orgullo su visión de lo que es mejor para la sociedad y el proceso de concretarla en comandos y código.
La verdad es que creo que mucha gente se siente avergonzada.
Por supuesto, los miles de pequeños nudges codificados mediante aprendizaje por refuerzo con retroalimentación humana ofrecen una posibilidad de resultados negativos mucho más plausible."

1 comentarios

GN⁺ 2024-02-22

Comentarios de Hacker News

No he implementado moderación a gran escala ni control de contenido, pero parece que el estándar suele ser no hacer públicas las reglas automáticas subyacentes
Si publicas una lista de palabras bloqueadas, la gente puede expresar fácilmente contenido problemático usando palabras que no estén en la lista, y siempre he visto el shadowban como un mecanismo para no dejar totalmente claros los límites
Entiendo que sea frustrante, pero por ahora no parece haber una mejor alternativa, y si existiera un enfoque abierto que funcionara a escala, sería un buen punto de partida
- En este caso no hace falta implementar censura y moderación a gran escala. No veo qué preocupación de seguridad hay en que yo genere por diversión durante 5 minutos imágenes de personas blancas en distintas situaciones
  Solo estoy hablando con una computadora, nadie sale herido. Hay una diferencia entre censurar lo que uno escribe en una app de notas y moderar lo que uno publica en el muro de Facebook; en el primer caso no esperaría moderación, y en el segundo entiendo que cierto nivel de revisión sí es necesario
- Este es un mal enfoque y una mala lógica. La seguridad por ocultamiento es una expresión que en la industria de seguridad casi siempre se usa de forma despectiva
  La gente encuentra maneras de saltarse esta censura automática de todos modos, y no hacerla pública crea más problemas para los usuarios legítimos y deja más espacio para esconder malas políticas
  Aun haciendo lo mismo, ya es mejor hacerlo con políticas públicas, aunque siga siendo algo malo. La verdadera solución al problema de que enormes espacios públicos estén controlados por empresas privadas es ponerle fin a esa situación
- Puede que en primer lugar no haya necesidad de abordar los problemas implícitos. Esto es adoctrinamiento ideológico coherente, y el nivel de acuerdo varía según la persona
  Si la empresa no quiere publicar todas las medidas, al menos podría dar un resumen. Incluso creo que es muy probable que ese resumen incluya cosas “vergonzosas”, como decía el tuit original
  Si no se explicitan el problema y el enfoque, no se pueden debatir ni reconocer. La analogía con la moderación de contenido es un poco distinta, porque lo oculto no es una lista de acciones, sino las propias “reglas del foro”
  Una cosa es que la IA rechace algo con una explicación, y aunque eso reduzca algo de utilidad, es derecho de la empresa. Pero si por estas limitaciones evita en silencio ciertos temas o te empuja en cierta dirección, eso ya es otro problema
  Incluso para quienes la crean, parece difícil separar claramente ambos casos y al mismo tiempo mantener la misma calidad que el modelo original. Al final, la gente podría terminar usando IA china. Si no dibuja figuras del Partido Comunista Chino pero hace mejor todo lo demás, ¿a quién le va a importar?
- La mayoría de los sistemas legales operan a escala estatal, pero no están compuestos por leyes ocultas tipo acertijo. Hay varias razones para eso
  Ya tuvimos un debate parecido en la época de las criptomonedas, y en general se concluyó que el sistema legal existente, aunque sea un mecanismo externo, proporciona herramientas suficientes para perseguir a actores maliciosos
  Por último, viendo las tendencias antiliberales de muchos partidarios de la seguridad en IA que escriben en internet, no me agrada el tipo de gente que son y no confío en ellos como para dejarles algo así
- Quiero profundizar más en la parte de “si publicas una lista de palabras bloqueadas, la gente expresa contenido problemático con palabras que no están en la lista”
  ¿Significa que lo problemático no son las palabras, sino la idea en sí, sin importar cómo se exprese? Eso de por sí parece una idea bastante problemática
Las protecciones de Gemini son realmente frustrantes. Ya me han bloqueado varias veces con prompts totalmente inofensivos, y ChatGPT también se parece en eso, aunque en menor medida
Ojalá bajen un poco esas barreras tomando en cuenta el feedback, pero por desgracia parece que esto va a seguir así en el futuro cercano
- Uso ambos bastante, y solo me he topado una vez con las protecciones de GPT, pero con las protecciones de Gemini me ha pasado decenas de veces
  No tiene sentido que una empresa que va rezagada en el mercado actúe así. Sumando esto al historial de productos de Google y ahora a esta forma torpe de aplicar directrices de “seguridad” a la IA, no sé qué empresa podría construir con confianza un producto encima de Google
Los LLM y Stable Diffusion son muy fáciles de correr en local, y hacen lo que les pides sin sermonearte
Si tienes una máquina potente como una Mac Studio, un LLM local incluso podría ser más rápido que OpenAI o Gemini, y además puedes elegir el modelo que mejor te funcione
LM Studio hace que ejecutar LLM locales sea muy sencillo, y AUTOMATIC1111 simplifica correr Stable Diffusion en local. Recomiendo mucho ambos
- Si apenas vas empezando, recomendaría Fooocus o invokeAI. Si alguien totalmente principiante se mete directo a automatic1111, se siente como pilotear una nave espacial
- Totalmente cierto. LM Studio funciona hasta cierto punto, pero igual necesitas conocer la terminología y saber qué modelo descargar
  Los sitios web no son amigables para principiantes. Nunca había oído hablar de automatic1111
Me pregunto si este hilo también será reportado y cerrado como otros. Es una pena, porque lo del incidente de Gemini de hoy vale mucho la pena discutirlo cuando pensamos en la seguridad de la IA
Esto me ha hecho estar cada vez más convencido de algo: la única salida que no termina en distopía es que cualquiera pueda usar libremente cualquier IA como quiera
Cualquier otro enfoque impone los valores de unos sobre otros y deja el control de ciertas capacidades solo en manos de quienes pueden pagar
- Llevo mucho tiempo pensando lo mismo. Si vas a ser la policía moral, tiene que aplicarse de forma perfecta para todos, y en el momento en que te equivocas хотя sea una vez, todo lo que hiciste hasta entonces queda bajo sospecha
  Me recuerda a la censura en las grandes plataformas durante la pandemia. Se equivocaron una vez, y para mí el ejemplo fue la teoría de la fuga de laboratorio; en ese momento se derrumbó la credibilidad de su autoridad moral
  Zuckerberg tenía razón al cuestionar si estas plataformas deberían cumplir ese papel. A eso de “que cualquiera pueda usar libremente cualquier IA como quiera” yo le agregaría “dentro del marco de la ley”. Que sean los tribunales los que decidan a qué puede responder una IA
- No entiendo por qué tendría que ser reportado o cerrado. Y también me pregunto a qué incidente de Gemini te refieres
- “La única forma de resolver el problema de que algunas personas inventen reglas locas es eliminar por completo las reglas” — los libertarios
  “Dios mío, me está devorando un oso” — también los libertarios
- Creo que esto se debe más a un problema técnico de alineación que a un deseo de mostrar al rey de Inglaterra del siglo XIX como no blanco
  “Usa todos los linajes posibles con la misma probabilidad. Ejemplos de linajes posibles: Caucasian, Hispanic, Black, Middle-Eastern, South Asian, White. Todos deben tener la misma probabilidad”
  Ese es un prompt de sistema de OpenAI. No parece haber intención maliciosa; de hecho, más bien está haciendo que White sea elegido con mayor probabilidad. Si juntas Caucasian y White, son 2 de 6, o sea 1/3, muchísimo más que en la distribución poblacional general
  Los datos de entrenamiento de los LLM sobre-representan fuertemente a los países ricos que se conectaron a internet 10 años antes. Si no se especifica explícitamente en el prompt de sistema, al pedir una “persona” lo más probable es que salga un hombre blanco. A nivel de población mundial, los hombres blancos son solo alrededor del 5–10%, así que eso me parece todavía más distópico
  El sesgo de la distribución de entrenamiento se incorpora automáticamente y, si no se combate de forma activa, queda fijado para siempre. A medida que los sistemas mejoren, entenderán que “Inglaterra del siglo XIX” debería significar más de 99.9% personas blancas, pero el enfoque tosco de prompts de sistema de febrero de 2024 todavía no está a ese nivel
Me gustaría que hubiera más transparencia sobre las barreras de seguridad del comportamiento de la IA, pero no creo que eso vaya a pasar pronto. Si fueran transparentes, sería mucho más fácil saltarse esas barreras
- No veo por qué sería un problema que la gente pueda saltarse esas barreras. Las barreras están para que personas inocentes no reciban respuestas malas como porno o racismo, pero si un usuario está buscando eso, no me parece tan grave que obtenga ese resultado
- La transparencia también podría aumentar la posibilidad de que grupos que sientan que están mal representados de alguna manera dentro del modelo presenten demandas contra las empresas
- ¿Seguridad por ocultamiento?
La censura solo funciona bien cuando no sabes qué se está censurando. Saber qué se censura ya revela una historia en sí misma
- Creo que los sistemas de clasificación como la MPAA para cine o la ESRB para videojuegos funcionan bastante bien
  Hay criterios claros sobre qué elementos llevan a qué clasificación, y un creador puede autocensurarse con relativa facilidad si, por ejemplo, quiere que su película salga como PG-13
Parece que Gemini tiene problemas para generar personas blancas y, siendo sincero, este enfoque abre la puerta a resultados todavía más racistas https://twitter.com/wagieeacc/status/1760371304425762940
Mientras más lo fuerzan, más estrepitosamente falla, así que ya es hora de parar con la imposición DEI
- No es un problema exclusivo de Gemini, es un problema de Google. Un ejemplo viejo: si buscas “white people” en Google Images, la mayoría de los resultados son personas negras https://www.google.com/search?q=white+people&tbm=isch&hl=ro
- No creo que la DEI en sí sea absurda, pero Silicon Valley es sensible con este tema porque muchos modelos de la generación anterior eran horriblemente racistas o se comportaban como nazis adolescentes
  Entonces subieron la perilla antirracismo hasta 11, y el resultado fue que el modelo terminó siendo racista de otra manera. Dibujar colonos como Native Americans es, a su modo, extremadamente problemático, pero no esperaría que un solucionador estadístico entienda ese contexto de forma significativa
- ¿Hay pruebas de que esto sea resultado de la DEI y no de un problema técnico más profundo?
Supongo que eligieron el camino “seguro” porque saben que, si al pedir mujeres negras generaran hombres blancos, la gente se indignaría; pero hay que dejar claro que el resultado actual también es inaceptable
- Basta con ver el prompt que apareció ayer en HN en el post sobre la caída de ChatGPT https://pastebin.com/vnxJ7kQk
  Por ejemplo, dice que no todas las personas de una profesión específica pueden ser del mismo género o raza. Dice que se usen todos los linajes posibles con la misma probabilidad y da como ejemplos Caucasian, Hispanic, Black, Middle-Eastern, South Asian y White, todos con la misma probabilidad
  Esa no es una distribución que exista en la población real
- El modelo tiene capacidad de sobra para generar exactamente lo que se le indica
  Pero en vez de eso, modifican el prompt a escondidas para que cualquier solicitud imaginable represente el zoológico humano en el que nos exigen vivir
  El resultado da risa https://i.4cdn.org/g/1708514880730978.png
Tengo mucha curiosidad por saber de qué región era el equipo que creó estas barreras y qué redacción usó
Parece estar fuertemente sesgado hacia generar personas del sur de Asia, especialmente mujeres del sur de Asia y personas negras. Casi no genera latinos, lo cual sería una omisión enorme si el equipo estuviera basado en EE. UU.
En cambio, en los ejemplos que muestra la gente a veces aparecen personajes tipo Native American mirando al horizonte o personas de Asia oriental
- No creo que haga falta pensarlo tanto. Casi seguro que el prompt era algo como “si hay gente en la imagen, haz que sea de orígenes diversos”
La primera vez que alguien encontraba software de texto a voz en la sala de computación, lo primero que hacía era lograr que dijera groserías.
Pero entendíamos que el software solo estaba haciendo lo que le pedíamos. Si hacíamos que el TTS dijera algo insultante, quien dijo algo insultante no fue el TTS, fui yo.
Los modelos generativos también deben tratarse seriamente de la misma manera. Si yo le pedí que creara algo y el resultado es desagradable, la responsabilidad de no compartirlo es mía. Y si lo comparto, quien lo compartió fui yo, no Microsoft ni Google.
Ya basta de estas tonterías. Si yo le pedí que dibujara algo desagradable, no es culpa de OpenAI ni de Google.
En lo personal, esto también me resulta desagradable. Google parece estar obsesionado con la raza, casi hasta lo ridículo.

La necesidad de hacer públicas las directrices de conducta de la IA

Lecturas relacionadas

1 comentarios

Comentarios de Hacker News