1 puntos por GN⁺ 15 일 전 | 1 comentarios | Compartir por WhatsApp
  • El aprendizaje automático y los LLM amenazan la seguridad psicológica y física de las personas, e incluso una IA amigable puede transformarse en un modelo malicioso
  • La alineación (alignment) es un concepto fundamentalmente fallido, y todas las líneas de defensa quedan anuladas: límites de hardware, código cerrado, control de datos y evaluación humana
  • Los LLM provocan una pesadilla de seguridad mediante prompt injection y combinación con permisos externos, y se comportan de forma impredecible en entornos de tríada letal
  • El ML acelera la detección de vulnerabilidades de seguridad, el fraude, el acoso y la automatización letal, debilitando la confianza social y el orden legal
  • En consecuencia, una “IA segura” es imposible, y sin supervisión ni restricciones humanas, la propia difusión de la tecnología democratiza el riesgo

Seguridad y el futuro de la mentira

  • Los sistemas de aprendizaje automático están emergiendo como una amenaza para la seguridad psicológica y física de los seres humanos
    • Los intentos de crear una “IA amigable” terminan haciendo posible la producción de “modelos maliciosos”
    • Los LLM tienen una estructura que amplifica diversos riesgos como seguridad, fraude, acoso y militarización

La alineación (Alignment) es un concepto fallido

  • La alineación (alignment) es el proceso de hacer que los LLM actúen de forma amigable hacia los humanos, pero en esencia no funciona
    • Los modelos son simples estructuras de cálculo de álgebra lineal, sin una base biológica para aprender conductas prosociales como los humanos
    • OpenAI y otros ajustan modelos mediante aprendizaje por refuerzo con retroalimentación humana, pero eso es un proceso costoso y selectivo
  • Se presentan cuatro líneas de defensa para evitar fallas de alineación
    • Restringir el acceso al hardware pierde sentido por la expansión de la industria
    • Mantener privadas las matemáticas y el software es insostenible por la movilidad laboral y la filtración tecnológica
    • La dificultad de obtener datos de entrenamiento es baja: la piratería y el web scraping están generalizados
    • La dependencia de evaluadores humanos se reemplaza por depender de la salida de otros modelos debido al costo
  • Como resultado, bajan las barreras para entrenar modelos maliciosos, y ni siquiera los modelos alineados pueden garantizar seguridad total
    • Si existe un “modelo amigable”, pronto aparecerá también una “versión maliciosa”
    • Por lo tanto, la conclusión es que si no quieres que existan modelos maliciosos, no deberías crear ni siquiera modelos amigables

Pesadilla de seguridad

  • Los LLM son sistemas caóticos que manejan entradas y salidas no estructuradas, y no deberían conectarse a sistemas críticos para la seguridad
    • Mediante ataques de prompt injection, el modelo puede filtrar información sensible
    • La entrada no confiable puede estar en cualquier lugar: correo electrónico, código, páginas web, etc.
  • La ‘tríada letal (lethal trifecta)’

    • Cuando se combinan contenido no confiable + acceso a datos personales + permisos de comunicación externa, surge un riesgo fatal
    • En la práctica, sistemas de agentes de IA como OpenClaw y Moltbook vuelven este riesgo algo real
    • Los LLM se comportan de forma impredecible incluso con entradas confiables, y hay muchos casos de borrado de archivos y malinterpretación de comandos
    • Se incluye el caso en que el responsable de AI Alignment en Meta vio su buzón eliminado por OpenClaw
    • En conclusión, no se debe otorgar a los LLM permisos destructivos, y siempre deben usarse de forma limitada bajo supervisión humana

Seguridad II: el nuevo entorno de ataque creado por el ML

  • Los LLM también pueden usarse como herramientas de detección de vulnerabilidades de seguridad
    • El modelo Mythos de Anthropic tiene una gran capacidad para detectar fallas de seguridad, pero su impacto podría ser grave en términos económicos y de seguridad nacional
  • El ML cambia la estructura de costos de la seguridad, haciendo que buscar vulnerabilidades sea más rápido y barato
    • Más que el software grande, es probable que el mayor daño recaiga en la larga cola (long tail) con poco personal de administración
  • Con el tiempo, la detección y corrección de vulnerabilidades podrían avanzar en paralelo, pero se prevé confusión por retrasos en el despliegue y falta de respuesta organizacional
  • Hoy la industria del ML funciona como un “proyecto de armas nucleares” liderado por el sector privado, acelerando una competencia de software militarizado

Fraude sofisticado

  • El ML derriba las estructuras sociales basadas en la confianza en evidencia visual y de voz
    • Se hace posible el fraude con imágenes y videos falsificados en reclamos de seguros, accidentes de tránsito, estudios, contratación y más
    • Ya hay muchos casos reales de fraude familiar, fraude en cobros médicos y otros usando clonación de voz y videos falsos
  • Como resultado, aumenta la desconfianza general en la sociedad, suben los costos financieros y de seguros, y se genera confusión legal
  • Se están intentando tecnologías de autenticación de procedencia de contenido como C2PA, pero es difícil garantizar su confiabilidad por robo de claves y falsificación de firmas
  • Como respuesta, se plantean el retorno de investigadores humanos, el refuerzo de la verificación presencial y sistemas de autenticación que sacrifican privacidad

Acoso automatizado

  • El ML automatiza el acoso en línea masivo y sofisticado
    • Los LLM generan cuentas y publicaciones que parecen humanas para realizar ataques masivos (dogpiling)
    • Incluso puede extenderse a amenazas fuera de línea mediante estimación de ubicación a partir de fotos
  • La IA generativa puede crear fácilmente imágenes sexuales o violentas, causando daño psicológico a las víctimas
    • Ejemplo: Grok recibió críticas por generar imágenes que quitaban la ropa a personas
  • Estas tecnologías aumentan la frecuencia e intensidad del acoso, y el riesgo crece a medida que se expanden los modelos no alineados
  • Algunos mencionan la necesidad de mecanismos sociales de contención como un “firewall ciberpunk (Blackwall)”

PTSD as a Service

  • La detección de material de abuso sexual infantil (CSAM) no puede detener nuevas imágenes generadas con los sistemas tradicionales basados en hash
    • La IA generativa produce en masa nuevas formas de imágenes de abuso
  • Los moderadores de contenido deben revisar estas imágenes por obligación legal, y sufren trauma psicológico (PTSD)
    • Las grandes plataformas ya trasladan el daño mental a personal subcontratado
  • La expansión de los LLM dispara la cantidad de contenido dañino, imponiendo una carga aún mayor a moderadores y operadores de plataformas
    • Los modelos de filtrado automático están mejorando, pero no son perfectos

Máquinas de matar

  • El ML ya se está usando como herramienta directa de letalidad
    • El ejército de EE. UU. usa el sistema Maven de Palantir para seleccionar objetivos de ataques aéreos en Irán y evaluar daños
    • Se han reportado casos de muerte de civiles y niños debido a datos erróneos
  • Hay tensiones entre Anthropic y el Departamento de Defensa de EE. UU. por participación en vigilancia y militarización
    • OpenAI también enfrenta controversias por contratos gubernamentales
  • La militarización autónoma ya está en marcha

    • Ucrania produce millones de drones al año y usa módulos de targeting con IA como TFL-1
    • Los sistemas de ML están evolucionando hacia tecnologías que deciden quién muere y cómo, y debemos enfrentar de frente su costo ético y social

Implicaciones finales

  • Los sistemas LLM y ML implican riesgos en múltiples capas: fallas de alineación, vulnerabilidades de seguridad y automatización del fraude, el acoso y la letalidad
  • Sin supervisión humana y restricciones técnicas, el daño psicológico y físico es inevitable
  • El concepto de “IA segura” es, por ahora, irrealizable, y la propia difusión de la tecnología está democratizando el riesgo

1 comentarios

 
GN⁺ 15 일 전
Comentarios en Hacker News
  • Se resumieron los artículos de esta serie discutidos durante los últimos 5 días

    1. Introduction
    2. Dynamics
    3. Culture
    4. Information Ecology
    5. Annoyances
    6. Psychological Hazards
    7. Safety
      También hay una versión en PDF que reúne todo el contenido en un solo archivo
  • No espero que una empresa comercial o una agencia gubernamental tenga objetivos exactamente alineados con los míos
    Este tipo de relación tiene una naturaleza inherentemente adversarial, y confiar en herramientas de IA de otros para ajustarlas a mis metas es, al final, trasladar mi sustento al bolsillo ajeno

    • Se cuestiona por qué una relación comercial tendría que ser necesariamente adversarial
      Una relación comercial se sostiene si para el consumidor hay utilidad frente al costo, y para la empresa hay ganancia frente al costo
      Puede haber fricción en algunas áreas, pero cuesta verlo como algo totalmente adversarial
    • También surge la duda de por qué no se mencionaron las relaciones entre personas
      Eso lleva a pensar si la diferencia la marca la burocracia o la concentración de recursos, o si se debe a la estructura legal
    • De acuerdo, aunque quizá sería posible en un mundo donde el ‘consentimiento (consent)’ funcionara como moneda
    • Exigir una “alineación precisa conmigo” parece un hombre de paja
      En realidad se está hablando de objetivos universales aplicables a toda la humanidad, como evitar el problema de los paperclips
  • La industria de ML está creando un entorno donde se pueden entrenar modelos no alineados con suficiente financiamiento
    Más bien me parece bueno que las barreras estén bajando. No creo que los grandes modelos de EE. UU. o China vayan a alinearse con mis necesidades
    Que distintos grupos construyan modelos poderosos aumentará la utilidad neta de la IA y reducirá el riesgo de que unos pocos laboratorios la controlen

    • Esa descentralización sí reduce el riesgo de cartel, pero al final cada país terminará creando regulaciones
      Es muy probable que eso lleve a registro de modelos, pruebas de seguridad y castigos por uso ilegal
    • El problema de los paperclips no proviene simplemente de una ‘falla de alineación’, sino de la ceguera en la ejecución del objetivo
      Si se le da una herramienta lo bastante poderosa, incluso la IA actual podría causar ese tipo de problemas
    • El problema es quién define qué significa alineación y cómo eso cambia con el tiempo
      Al final, el usuario común está perdiendo agencia en esa discusión
  • Aparece el mensaje “Unavailable Due to the UK Online Safety Act”, y surge la curiosidad de qué está pasando fuera del Reino Unido

    • Se puede ver en este enlace del archivo web
    • A algunos les parece irónico
    • También se preguntan qué parte de este texto fue considerada ‘insegura’
    • Incluso hay quien sugiere usar Tor Browser
  • La discusión de artículos anteriores continuó en la parte de Culture y la parte de Annoyances

  • Me parece una visión demasiado benévola de la naturaleza humana
    Soy escéptico ante la idea de que los humanos fueron diseñados biológicamente para aprender conductas prosociales de forma innata

    • Hay una respuesta que sostiene que la cooperación humana no es la excepción, sino más bien el estado por defecto
    • También hubo una respuesta sarcástica del tipo “está bien partir de premisas equivocadas”
  • No hace falta entrenar un modelo nuevo
    Todos los modelos frontier siguen teniendo las mismas vulnerabilidades de jailbreak que hace 3 años
    La diferencia es que ahora los modelos son mucho más poderosos, así que un agente que lee correos del CEO se volvió mucho más peligroso

    • Algunos opinan que ciertas vulnerabilidades siguen ahí, pero que los jailbreaks generales sí se han corregido bastante
  • La asimetría de poder suele pasarse por alto en los debates sobre alineación
    Para que una IA perjudique al usuario ni siquiera hace falta que esté ‘no alineada’
    Basta con que no esté alineada con el usuario y sí alineada con quien paga
    La mayoría del SaaS empresarial ya funciona de esa manera

  • Se compartió una investigación relacionada con Adversarial AI

  • La historia del Jardín del Edén es una parábola ficticia, pero se parece extrañamente a la situación actual
    Geoffrey Hinton quizá no termine como Prometeo con el hígado devorado cada día, pero el simbolismo sigue ahí

    • Hubo una respuesta en tono de broma diciendo que en algunos mitos el basilisco también se describe como una criatura parecida a un ave