Crisis de confianza en la inteligencia artificial

(simonwillison.net)

1 puntos por GN⁺ 2023-12-16 | 1 comentarios | Compartir por WhatsApp

La polémica por la nueva función de AI de Dropbox creció por el temor de que los archivos personales confiados al servicio pudieran usarse para el entrenamiento de OpenAI, algo que Dropbox negó con firmeza
La función consiste en resúmenes bajo demanda y “chat con tus datos” basado en generación aumentada por recuperación (RAG), pero en privacidad de AI es difícil ganar confianza solo con explicaciones generales
Un interruptor de AI que parecía venir activado por defecto, junto con la frase de principio de que “no se usa para entrenamiento sin consentimiento”, dejó espacio para que los usuarios confundieran el alcance del consentimiento
Aunque OpenAI diga que “los datos enviados por API no se usan para entrenamiento”, muchos usuarios no lo creen, lo que crea una estructura de desconfianza parecida a la creencia de que Facebook escucha por el micrófono para mostrar anuncios
Las empresas de AI deben recuperar la confianza con explicaciones transparentes sobre los datos de entrenamiento y la forma en que los procesan, y los modelos locales se están volviendo una alternativa más atractiva en medio de las preocupaciones por la privacidad

El punto central de la polémica sobre la función de AI de Dropbox

Después de que Dropbox añadiera nuevas funciones de AI, crecieron las críticas de que los archivos privados podrían enviarse a OpenAI y usarse para entrenar modelos
La preocupación central era si los archivos personales almacenados en Dropbox se usaban como datos de entrenamiento de OpenAI, y Dropbox lo negó con firmeza
La función está compuesta por resúmenes bajo demanda y un esquema de generación aumentada por recuperación (RAG) como “chat con tus datos”
En servicios donde se guarda mucha información personal, basta con que la explicación sobre privacidad de AI sea un poco ambigua para perder la confianza

La confusión creada por el consentimiento y el texto de configuración

En los AI principles de Dropbox aparece el mensaje de que se basan en la confianza del cliente y la privacidad de los datos, y de que no usan datos de clientes para entrenar modelos de AI sin consentimiento
En la configuración de la cuenta había un interruptor relacionado con AI, y hasta en cuentas donde el usuario no lo había activado directamente aparecía como encendido
- Aproximadamente 4 horas después de publicarse el texto, ese enlace de configuración dejó de funcionar
No estaba claro si ese interruptor debía interpretarse como consentimiento para el entrenamiento del modelo
La palabra “consentimiento” se vuelve muy ambigua cuando se combina con la realidad de aceptar términos sin leerlos
Muchos usuarios entendieron que los datos personales cuya protección habían confiado a Dropbox terminarían entrando al proceso de entrenamiento de OpenAI

Usuarios que no confían en OpenAI

El texto de configuración de Dropbox indicaba sobre OpenAI, su socio tercero, que “los datos nunca se usan para entrenamiento de modelos internos y se eliminan de los servidores de terceros dentro de 30 días”
Pero muchos usuarios no creen que OpenAI no use esos datos para entrenamiento
La polémica va más allá de un problema de configuración en Dropbox y se extiende a una crisis de confianza en la AI en general
La percepción de que “OpenAI entrena con todos los datos que ve” ocupa un lugar parecido a la creencia de que “Facebook escucha conversaciones por el micrófono del teléfono y luego muestra anuncios”

Comparación con la teoría conspirativa del micrófono de Facebook

Desde hace años existe la teoría de que Facebook escucha las conversaciones de los usuarios a través del micrófono del teléfono para mostrar anuncios
Desde el punto de vista técnico, hay varios argumentos para refutarlo
- Los sistemas operativos móviles no permiten que una app acceda al micrófono sin que se note
- Investigadores de privacidad pueden auditar la comunicación entre el dispositivo y Facebook para verificar qué ocurre realmente
- Mantener reconocimiento de voz de alta calidad funcionando todo el tiempo a gran escala sería muy costoso
También hay refutaciones no técnicas
- Facebook lo niega, y si se descubriera que miente, el riesgo reputacional sería enorme
- Tendría que participar demasiada gente como para que pudiera sostenerse sin filtraciones internas
- Facebook ya tiene métodos de segmentación publicitaria mucho más baratos y eficaces sin necesidad de escuchar por micrófono
- Si ves miles de anuncios, es posible que alguno coincida por casualidad con algo que acabas de decir
Cuando un usuario siente que vio un anuncio relacionado justo después de hablar de algo, estos argumentos dejan de resultar convincentes
El episodio de noviembre de 2017 de Reply All, “109 Is Facebook Spying on You?”, concluyó que Facebook no espía con el micrófono, pero sigue siendo difícil convencer a quien ya lo cree

En la AI, la caja negra alimenta la desconfianza

En el caso de Facebook, los usuarios creen saber qué ocurre basándose en su experiencia personal
En la AI ocurre casi lo contrario
- Los modelos se parecen a una caja negra y se construyen en secreto
- Es difícil saber qué datos de entrenamiento se usaron
- También es difícil entender cómo esos datos afectaron al modelo
Los usuarios terminan guiándose más por el ambiente y la intuición que por la evidencia, y hoy el ambiente alrededor de la AI no es bueno

Por qué importa la crisis de confianza

La sospecha de que una empresa miente sobre cómo trata la privacidad es algo muy serio
No es saludable una sociedad en la que grandes empresas puedan mentir descaradamente sobre el manejo de datos sin consecuencias
Una de las funciones importantes del gobierno es evitar que eso ocurra
- Si OpenAI entrenó con datos sobre los que dijo que no lo haría, debería enfrentar a reguladores o demandas
- Si Facebook vigilara a través del micrófono del teléfono, igualmente debería ser objeto de regulación y litigios
Si las teorías conspirativas sin fundamento se toman como hechos, también puede debilitarse la intolerancia social frente a verdaderas conductas ilegales de las empresas
La privacidad es importante, pero se malinterpreta con facilidad
- A veces las personas sobrestiman o subestiman lo que hacen las empresas y lo que pueden hacer
- La tecnología de AI está cambiando rápidamente el rango de lo posible, y es difícil de entender incluso para quienes conocen bien este campo

Lo que OpenAI y los laboratorios de AI pueden hacer

Los grandes laboratorios de AI podrían explicar con mayor claridad cómo entrenan sus modelos
La pregunta clave es qué usa OpenAI como datos de entrenamiento
Hoy no se puede saber, y todo el proceso es muy opaco
En esta situación, aunque OpenAI diga que “los datos enviados por API no se usan para entrenamiento”, a la gente le cuesta creerlo
El caso de ChatGPT en sí es más complejo
- OpenAI usa las interacciones con ChatGPT para mejorar el modelo
- Esto no excluye a los clientes de pago; la excepción es ChatGPT Enterprise, con “precio según consulta”
Si un usuario pega un documento privado en ChatGPT y pide un resumen, para evaluar si parte de ese documento podría quedar expuesta a otros usuarios después de una actualización del modelo se necesita una explicación más detallada de cómo se usan los datos de ChatGPT para mejorar el modelo
Así como las grandes plataformas publican postmortems abiertos después de una caída, las empresas de AI también pueden recuperar confianza con explicaciones transparentes
- Dan Luu recopiló una lista de ejemplos de postmortems relacionados

La oportunidad de los modelos locales

Una tendencia que se repite en esta polémica es que los usuarios se sienten más cómodos confiando sus datos a modelos locales que se ejecutan en su propio dispositivo, en lugar de modelos alojados en la nube
Los modelos locales mejoran de forma constante en calidad y también se están haciendo más pequeños
Mixtral-8x7b-Instruct podía ejecutarse en una laptop y fue considerado el primer modelo local con una calidad comparable a ChatGPT 3.5
Phi-2 de Microsoft es un modelo de 2.7 mil millones de parámetros
- Muchos modelos locales útiles empiezan desde los 7 mil millones de parámetros
- Phi-2 afirma un rendimiento de nivel avanzado en comparación con algunos modelos más grandes
- El costo de entrenamiento parece rondar los 35,000 dólares
El potencial de los modelos locales es grande, pero debe evitarse perder las ventajas de modelos alojados más grandes y convenientes por preocupaciones de privacidad equivocadas

Las condiciones para debatir AI y privacidad

La intersección entre AI y privacidad es un tema importante
Para una discusión de alta calidad, se necesita la mayor transparencia posible y comprensión sobre lo que realmente está ocurriendo
Cuando no se confía automáticamente en lo que dicen las empresas, esta discusión se vuelve aún más difícil
Las empresas deben ganarse la confianza de los usuarios y hacer que entiendan por qué

1 comentarios

GN⁺ 2023-12-16

Opiniones de Hacker News

En la privacidad de los sitios web, hace falta una definición viable y legalmente clara de qué es el consentimiento
No debería hacerse parecer que el usuario está dando su consentimiento activo para la recopilación, el procesamiento y la transferencia de datos a terceros, cuando en realidad ya se procesó todo a escondidas y luego se maquilla el consentimiento a posteriori.
- Ese concepto ya existe, y siempre existió. Se llama fraude.
  Si engañaste a alguien para que firmara un contrato, ese contrato es fraudulento; y si dijiste que pedirías permiso antes de hacer algo, pero luego afirmas en silencio que ya obtuviste ese permiso en un contrato anterior, eso también es fraude.
  No sé cuándo el sistema judicial se volvió tan impotente, pero no se le puede echar la culpa a los ciudadanos desprotegidos.
- Cualquier cosa que produzcan los tribunales se convertirá en otra palanca para explotar la asimetría de poder entre particulares y empresas.
  Lo que hace falta es devolver la ley a la línea de la desintegración de monopolios y la era del New Deal: poder aplastar la mala influencia y luego reconstruir.
- Me impactó iniciar sesión en Dropbox y ver que la opción para compartir mis datos con empresas de IA de terceros “verificadas” estaba activada por defecto.
  Le mandé al soporte un correo tipo WTF, pero probablemente termine cerrando la cuenta. No imagino qué respuesta podrían dar para que esto me parezca aceptable.
- El GDPR ya lo contempla. Pero a las empresas no les importa, y a los reguladores tampoco.
  Las grandes corporaciones tienen demasiado poder e influencia.
El texto en general es bueno, pero la analogía entre “mi teléfono me escucha a escondidas” y “OpenAI puede mentir sobre cómo usa mis datos” me parece algo defectuosa.
Hay controles fuertes para que apps de terceros accedan al micrófono del iPhone, pero no hay nada equivalente cuando mis datos se entregan en texto plano a un tercero. Para una persona común pueden parecer lo mismo, pero en el primer caso todavía hay protección.
Puede parecer una distinción menor, pero actuar como si la batalla por la privacidad y soberanía de los datos de los usuarios ya estuviera perdida es muy contraproducente. Veo a menudo a gente cínica con ciertos conocimientos técnicos reaccionar ante cada nuevo abuso corporativo como si fuera “lo de siempre”, y comportarse como si, si no llevas más de 10 años usando Tails Linux, entonces da igual comprimir tu directorio home y mandárselo completo a empresas tecnológicas sospechosas y brokers de datos.
Esta indefensión aprendida no solo daña la confianza, sino que también da la impresión de que un mundo mejor es imposible. El caso de Dropbox parece un ejemplo de esa mentalidad volviendo a aparecer: la locura de pensar que a los usuarios no les va a importar que se sugiera que sus archivos privados se envían a terceros sin preguntarles.
Como referencia, ya había sacado la mayor parte de mis datos de Dropbox y los había movido a autoalojamiento, pero lo de ayer fue el golpe final que me hizo cerrar la cuenta por completo. Gracias, Dropbox.
- El texto intentaba tratar el defecto de esa analogía.
  En el ejemplo de Facebook, la gente cree entender lo que ocurre basándose en su propia evidencia personal, mientras que con la IA pasa casi lo contrario. Los modelos de IA son cajas negras extrañas, se construyen en secreto y no hay forma de entender cuáles fueron los datos de entrenamiento ni cómo influyeron en el modelo.
  Coincido totalmente en que la mayor amenaza ahora es la complacencia. Si la gente forma modelos mentales equivocados y se encoge de hombros diciendo “simplemente así son las cosas”, se vuelve difícil mejorar los problemas reales.
- No queda más que creer que un mundo mejor es posible. La situación actual es insoportable, y si mañana no puede ser mejor, ¿qué sentido tiene nada?
  Seguramente hay opciones mejores y peores sobre a quién confiarle los datos y la privacidad, pero ni siquiera se puede saber quiénes son, o si en un sentido amplio existe algún lugar “confiable”, así que uno termina actuando bajo la suposición de que no puede confiar en nadie.
  Me gustaría ser menos cínico, pero viendo los últimos 10 o 20 años, el cinismo parece totalmente justificado. Si esta actitud está equivocada, ¿cómo se corrige?
- Esto no es hilar fino con una diferencia menor; es un muy buen punto.
  El acceso de las apps al micrófono lo controla el sistema operativo, y existen herramientas provistas por el sistema operativo que permiten al usuario ver qué app puede usar el micrófono y cuándo.
  En cambio, el acceso a datos en la nube es completamente un asunto de “confía en mí”, y ya quedó demostrado que muchas empresas abusaron de esa confianza.
- Hay dos caminos principales: invertir los recursos necesarios para usar herramientas open source y autoalojadas, o aceptar la comodidad de los servicios propietarios pero tener cuidado con lo que metes ahí.
  Uso Dropbox, pero todo lo que pongo en Dropbox está cifrado o es algo que no me importaría si se filtrara en internet público. Pasé mucho tiempo trasteando con soluciones autoalojadas, pero a partir de cierto punto concluí que la ganancia práctica no era tan grande y que era mejor dedicar mi tiempo y energía a otra cosa.
- ¿Podrías contar con más detalle cómo tienes configurado tu almacenamiento autoalojado? Hace tiempo que quiero algo así.
Este texto me parece un poco ingenuo y con una fuerte vibra de “asumamos buena fe”
Si miras lo que pasó fuera de la IA en los últimos 10 años, todos están devorando datos como coleccionistas compulsivos. No solo Google o Facebook, que usan datos en sus productos principales, sino casi todo el mundo. Hoy vi que un minisite de recetas tradicionales suecas que usaba en Navidad agregó videos con reproducción automática y banners de consentimiento de cookies con dark patterns
Casi todas las apps y sitios nuevos giran alrededor de este eje económico, y justo cuando los modelos de lenguaje grandes empezaron a volverse potentes, las API de terceros se cerraron de golpe y al mismo tiempo
La generación actual de IA no es como otros jugadores comiéndose datos a escondidas como un snack nocturno, sino como zombis rápidos hambrientos de sangre y cerebro. En parte porque los datos tienen un rol más directo en el producto, y en parte porque la posibilidad de un cambio de paradigma como no se veía en décadas despertó la mentalidad de competencia sobrecalentada del venture capital tecnológico
Todas las señales apuntan a un apocalipsis zombi y una fiebre del oro, con la lógica de pedir perdón después. Por eso creo firmemente que todos están reforzando el discurso de seguridad y responsabilidad antes de la inevitable crisis de reputación. Están acumulando munición para enturbiar las aguas por adelantado
Pero los tecnólogos están tirados como si no hubieran vivido a fondo la última década, y creen que esta vez será distinto porque la IA tiene raíces académicas, porque son empresas nuevas y relucientes, porque hay discurso de seguridad, porque existen los tuits filosos de fundadores “realistas”
No voy a fingir que sé exactamente qué pasa detrás de escena, pero llevo el tiempo suficiente como para saber cómo funciona la gente. Y la gente no ha mejorado
- La nueva megacorporación promete no ser malvada...
- Estas empresas ya robaron los datos de todos, y los tecnólogos se quejan de las leyes de propiedad intelectual mientras dicen que cualquier cosa en internet pública puede usarse sin permiso
  Legalmente puede que esa sea la realidad, pero hacerlo igual te hace ver como el feo de la industria tecnológica
El texto pasa demasiado por alto que, además de entrenar con mis datos, hay preocupaciones de privacidad
Trabajo profesionalmente, y mis clientes están sujetos a acuerdos de confidencialidad y regulaciones sobre adónde va la información. Prefiero usar un servicio donde los datos simplemente se queden en el servidor, en lugar de que cada vez haya más puntos de fuga
Para empezar, no entiendo bien por qué mis datos no están siempre totalmente cifrados y visibles solo para mí. Pero la idea de que se envíen activamente por internet para que otra empresa los consuma y procese, sin mi consentimiento ni interés, es horrible
Uso funciones de IA con frecuencia cuando decido activarlas, pero que una empresa mande mis archivos personales de un lado a otro por internet sin mi consentimiento es una locura
Sinceramente, OneDrive tiene una herramienta de migración, así que saqué una prueba de Dropbox Business y anoche moví todos mis archivos automáticamente. Fue la gota que derramó el vaso después de conductas como meter basura y popups en la interfaz de escritorio, y no ofrecer el cifrado de extremo a extremo que llevo pidiendo
Si quieres moverte con unos clics desde Dropbox Business a una cuenta de Office 365 OneDrive, está aquí: https://learn.microsoft.com/en-us/sharepointmigration/mm-dro...
- Esto no es un problema solo de la “IA”, sino un problema más profundo en toda la tendencia centrada en la nube del mundo tecnológico
  El cifrado homomórfico podría llegar a ser una solución para la computación distribuida, pero faltan años para que sea realidad. Mientras tanto, hay que avanzar hacia la descloudificación, el regreso a on-premise y cooperativas híbridas de nubes privadas dentro de grupos de confianza
  Otra razón es impedir la enorme transferencia de riqueza desde individuos y empresas pequeñas hacia el big data
  Es positivo que disminuya la fantasía de una IA omnipotente tomando el control del mundo y que se entienda mejor una realidad más común. La IA solo acelera los desequilibrios de poder absurdos que ya existen. Lo privado debe mantenerse privado
- Dropbox publicó ayer mismo esta declaración: “Si usaste las herramientas de IA de Dropbox, algunos documentos y archivos pueden haber sido compartidos temporalmente con OpenAI”
  Si crees que un proveedor de nube prioriza tus mejores intereses, te deseo suerte. Esto es Hacker News, y la confianza no se da por sentada: se gana
- Estoy de acuerdo en su mayoría, pero ¿no se puede cifrar uno mismo la información sensible antes de subirla o compartirla en una cuenta de Dropbox?
  No es cifrado de extremo a extremo, pero puede impedir que la empresa use los datos cifrados como corpus de entrenamiento. ¿Quizá las carpetas y archivos compartidos creados por colegas o familiares no estén hechos por gente lo bastante técnica como para saber de cifrado?
- Una mejor solución es poner una capa de cifrado separada, como Cryptomator, encima del almacenamiento en la nube que uses
  Si tienes acuerdos de confidencialidad con clientes, no deberías usar Dropbox sin cifrado de extremo a extremo, y lo mismo vale para OneDrive
- ¿OneDrive tiene cifrado de extremo a extremo? Si Microsoft todavía no lo implementó, imagino que pronto agregará algo similar
El punto central no es solo preocuparse por si los archivos personales de Dropbox pasan a ser datos de entrenamiento para los modelos de OpenAI.
No quiero que mis datos se envíen a ningún lado, sea cual sea el uso, a menos que yo lo autorice.
En este caso, no solo tenemos que confiar en que OpenAI no entrena con nuestros archivos, sino también en que puede manejarlos de forma segura. No hay motivo para dudar de que sea verdad cuando dicen que no los entrenarán, pero aun así el problema sigue ahí.
- En términos de redacción, “no entrenamos modelos con datos de usuarios” podría ser literalmente cierto. Porque aquí entrenamiento puede interpretarse en un sentido muy específico.
  Pero, al mismo tiempo, podrían hacer algún tipo de monitoreo de las salidas del modelo y, en especial, cuando se usa generación aumentada por recuperación (RAG) sobre archivos personales, puede producirse una filtración clara de información personal.
  Es bastante razonable no creer que la gente entienda por completo los detalles de los términos y condiciones. Probablemente en realidad no los entienda, y porque una cosa que las empresas de IA han demostrado claramente es que creen que pueden usar los materiales que quieran, de la forma que quieran, sin importar si tienen permiso de los creadores.
- Al final, es la misma estructura continua de los proveedores SaaS.
  Si quieres evitar que un tercero o una segunda parte lea tus datos, debes asegurarte de que estén cifrados de extremo a extremo del lado del cliente.
  Eso significa que deberías usar Syncthing en lugar de Dropbox, y Signal en lugar de Slack o Discord.
- Es muy razonable preocuparse por la política de OpenAI de “conservar los datos solo 30 días con fines de auditoría”, porque significa que, si ocurre una brecha durante esos 30 días, los datos podrían filtrarse.
  En especial porque en el pasado hubo varios problemas de seguridad documentados.
- La misma lógica podría aplicarse al procesamiento de datos en la nube, pero curiosamente nadie se queja de que Dropbox almacene datos en lugares como AWS o Google Cloud.
La parte del artículo sobre la confianza en los micrófonos parece una cortina de humo que desvía la atención de un punto que podría explicarse con más claridad.
Facebook literalmente toma datos de las apps y de internet, rastrea el comportamiento en línea y mete esos datos en modelos sobre ti. Estos modelos son tan precisos que a veces casi pueden predecir lo que estás pensando. Por eso la gente común concluye que los escuchan con el micrófono.
Las empresas de modelos de lenguaje a gran escala, como OpenAI, y sus socios usan modelos casi exactamente iguales. Raspán datos de todo tipo de fuentes para mejorar sus modelos y monetizarlos aumentando la probabilidad de que sigas haciendo clic donde ellos quieren.
- Exacto. En un sentido más amplio, la gente común no necesariamente está equivocada.
  Técnicamente se equivoca sobre el mecanismo, pero tiene toda la razón en que se trata de una intrusión extrema en la privacidad. Que esa intrusión llegue en forma de modelos precisos y no de un micrófono es solo un detalle técnico; el efecto final es el mismo.
- Y todo esto, al final, es para mostrarme anuncios pésimos de juegos en línea que jamás jugaría, servicios de citas con temática universitaria que no usaría, artículos de yoga o servicios de envío de dinero.
  Vivo cerca de una universidad grande, así que probablemente lo infieren por la IP. De vez en cuando también me salen anuncios de Lexus o Jaguar, pero esos están bien.
No creo que Facebook esté espiando a nadie en secreto con el micrófono del teléfono, pero el argumento de que “si se descubre la mentira, el riesgo reputacional sería astronómico” no me convence en absoluto.
Entre la gente común no técnica de Estados Unidos que conozco, la reputación de Facebook ya es pésima. La gente vio que Facebook contribuyó a incitar la insurrección del 6 de enero de 2021 y que después evitó cualquier responsabilidad sin arreglar nada.
Si se revelara que realmente hizo algo que mucha gente ya cree que probablemente está haciendo, el daño reputacional sería mucho menor que eso.
- Ellos también saben que su reputación es pésima, pero la gente sigue usando Insta y WhatsApp
No “confío” en OpenAI ni en ninguna otra gran empresa respecto de lo que dicen que hicieron, que harán o que están haciendo.
Aun así, no creo que OpenAI esté usando datos de Dropbox para entrenar modelos sin el consentimiento de los usuarios.
Pero ese no es el problema aquí. El problema son los datos en tránsito. Datos que se envían a un tercero que realmente puede leerlos, a un lugar donde puede haber empleados maliciosos que Dropbox no puede controlar, donde pueden quedar en logs o estar sujetos a otras políticas.
Si le envío datos privados a Dropbox, Dropbox no debería enviárselos a nadie por ningún motivo, incluido “mejorar el producto”, sin un consentimiento explícito y suficientemente informado. No entiendo por qué esto es discutible.
Si Dropbox alojara el modelo directamente y ofreciera búsqueda con generación aumentada por recuperación a usuarios que dieron su consentimiento, eso sería otra cosa.
Si Dropbox enviara los datos de todos los usuarios a un tercero sin avisarle a nadie por adelantado, eso sería algo completamente distinto, y horrible.
- ¿Por qué creer eso? Entrenaron con mi código sin mi consentimiento; ¿por qué los datos de usuario deberían ser distintos?
  El entrenamiento o es uso justo o no lo es. Y las empresas de alto crecimiento de Silicon Valley no son famosas por respetar el espíritu de la ley.
- En el momento en que se los entregas a un tercero sin cifrar, esos datos ya no son “privados”, y sus políticas dicen que pueden usar prácticamente cualquier cosa si pueden alegar que es “por intereses legítimos de operación del servicio y del negocio”, así que es discutible.
  Incluso la política dice que pueden actualizarla cuando quieran.
  Las políticas de privacidad ni siquiera son legalmente vinculantes. Si estás en EE. UU. y no tienes un contrato con Dropbox, casi no tienes derechos, y para hacer valer los derechos que crees tener tendrías que ir a tribunales, que en la práctica es un sistema en el que gana quien tiene dinero, y la contraparte es una empresa con miles de millones en activos.
  Si Dropbox traicionara descaradamente la confianza que depositaste en ellos, sería algo realmente pésimo y quizá una decisión de negocio horrible que haría que nadie volviera a confiarle datos a Dropbox. Pero si un día se volvieran completamente malvados y empezaran a entregar datos a cualquiera que pague, creo que habría muy poco que podrías hacer.
  Los datos que te importan no deberías subirlos a la nube sin backups locales y cifrado. Así no tendrías que preocuparte por lo que haga el proveedor de nube ni por a quién se los entregue.
- Soy cliente de pago de Dropbox, pero no quiero pagar por una función así.
  Más bien quisiera que cifraran mis datos para que no puedan ofrecer ese tipo de funciones. Quiero recuperación de datos, pero el solo hecho de que puedan ofrecer esta “función” de AI parece indicar que hicieron muy poco esfuerzo por impedir que empleados internos maliciosos o terceros accedan a mis datos.
- Si Dropbox alguna vez firmó un BAA con clientes empresariales que usan documentos sujetos a HIPAA, compartir documentos con terceros no divulgados les causaría problemas enormes muy rápidamente.
  Las multas financieras son muy altas por cada exposición y por cada empleado involucrado, y la responsabilidad también alcanza personalmente al empleado que divulgó o compartió directamente la información.
  Por eso, aunque hubieran compartido documentos con un tercero no divulgado y sin aviso, estoy seguro de que no habría sido “todo”. Los datos empresariales probablemente estén a salvo. Esos contratos se revisan con mucha dureza antes de firmarse.
- Exacto. El punto central es quién puede ver mis datos sensibles, en sí mismo.
¿Crisis de confianza en la AI?
¿Más aún después de ver que la junta directiva y el CEO de una empresa parecían haber sido despedidos o reemplazados por acusaciones de mentiras o manipulación, aunque nadie sabe claramente qué fue lo que pasó?
Si Dropbox escanea datos de usuarios para crear datos derivados, esos datos “derivados” ya no son “datos de usuario”, sino datos de Dropbox, y pueden compartirse. Puede que sean solo de naturaleza estadística y que no estén directamente relacionados con usuarios individuales, pero ¿no es eso exactamente data de entrenamiento? ¿No funciona así originalmente? Entonces, ¿no podrían compartirse para entrenar modelos de AI?
No es una mentira, es un juego de palabras. No, eso es comportamiento poco ético, y se volvió el estándar de las grandes tecnológicas.
- Para ser justos con Sam Altman y OpenAI, los reportes confiables que he leído, en especial el trabajo de Kara Swisher, indicaban que no se trató de seguridad de la AI ni de que el CEO le mintiera a la junta, sino de un conflicto más amplio entre lo que el CEO y la junta consideraban adecuado para el rumbo de OpenAI.
  No tengo intereses en esta pelea. No estoy del lado de Altman ni de OpenAI. Y tengo bastantes preocupaciones sobre a dónde nos lleva este mundo feliz. Por poco atractivo que sea el destino, tampoco sé si existe una opción confiable para bajarse de este carrusel.
  El comportamiento de Dropbox descrito aquí es solo uno más en una larguísima fila de traiciones a la confianza por parte de empresas tecnológicas.
- La acusación de comportamiento poco ético con demasiada frecuencia es refleja, infundada y basada en conjeturas.
  En el ejemplo que da el autor, Dropbox solo envía datos a OpenAI cuando el usuario le pide explícitamente que ejecute funciones relacionadas con AI, como resumir documentos. Pero la reacción parece asumir, sin pruebas, que escanean y suben masivamente los documentos de la gente.
  Sin duda existe comportamiento poco ético en empresas de AI. Personalmente, me reservo el juicio sobre si su proporción es mayor o menor que la tasa base de comportamiento poco ético en la población general. En cualquier caso, si vamos a hablar de malas conductas, hay que usar ejemplos concretos con evidencia citable, no alarmismo.
Quienes no confían en las empresas de AI probablemente sienten algo parecido respecto de muchas empresas de distintos sectores, organizaciones sin fines de lucro e incluso agencias gubernamentales.
Dependerá de a quién se le pregunte, pero parece haber un problema de confianza más grande que va mucho más allá del ámbito de las empresas basadas en AI. Por eso, pedirle solo a este sector específico que combata la desconfianza hacia sí mismo parece una tarea imposible y fuera del alcance de estas empresas, porque implica enfrentar la desconfianza que viene de todos lados.
No sé cuál es la respuesta a este problema, si realmente es un problema, ni hacia dónde vamos si este cinismo generalizado se extiende a todo y a todos. Tal vez simplemente estemos condenados a vivir tiempos interesantes.
- El primer paso para recuperar la confianza es dejar de abusar de la confianza.
  Toda nuestra industria abusa de la confianza de una manera increíble, y no se ven señales de que eso vaya a cambiar pronto.

Crisis de confianza en la inteligencia artificial

El punto central de la polémica sobre la función de AI de Dropbox

La confusión creada por el consentimiento y el texto de configuración

Usuarios que no confían en OpenAI

Comparación con la teoría conspirativa del micrófono de Facebook

En la AI, la caja negra alimenta la desconfianza

Por qué importa la crisis de confianza

Lo que OpenAI y los laboratorios de AI pueden hacer

La oportunidad de los modelos locales

Las condiciones para debatir AI y privacidad

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News