1 puntos por GN⁺ 2023-12-08 | 1 comentarios | Compartir por WhatsApp

Anuncio del proyecto Purple Llama

  • Purple Llama es un proyecto que ofrece herramientas y evaluaciones abiertas de confianza y seguridad para ayudar a los desarrolladores a implementar modelos de IA generativa de forma responsable.
  • CyberSec Eval es un conjunto de benchmarks de evaluación de seguridad cibernética para LLM, y Llama Guard es un clasificador de seguridad para el filtrado de entrada/salida fácil de desplegar.
  • Planean ofrecer estas herramientas a la comunidad de código abierto en colaboración con AI Alliance, AMD, AWS, Google Cloud, Hugging Face, IBM, Intel, Lightning AI, Microsoft, MLCommons, NVIDIA, Scale AI y otros.

Nuevas innovaciones en la IA generativa

  • La IA generativa es una tecnología innovadora que hace posible la IA conversacional, la generación de imágenes realistas y el resumen de documentos a gran escala.
  • Los modelos Llama se han descargado más de 100 millones de veces, y estas innovaciones han sido impulsadas por modelos abiertos.
  • La colaboración en seguridad es importante para que los desarrolladores puedan generar confianza y realizar investigación y contribuciones responsables en IA.

Primeros pasos del proyecto Purple Llama

  • La ciberseguridad y la seguridad de prompts en LLM son áreas importantes hoy en la seguridad de la IA generativa.
  • El benchmark de evaluación de ciberseguridad está basado en lineamientos y estándares de la industria como CWE y MITRE ATT&CK, y fue construido en colaboración con expertos en seguridad.
  • Llama Guard ofrece un modelo disponible públicamente para ayudar a los desarrolladores a defenderse de salidas peligrosas.

La importancia del equipo Purple

  • Solo adoptando tanto una postura de ataque (red team) como de defensa (blue team) se pueden mitigar los desafíos de la IA generativa.
  • El equipo Purple es un enfoque colaborativo que incluye tanto las responsabilidades del red team como del blue team, y ese mismo espíritu se aplica también a la IA generativa.

Esfuerzos hacia un ecosistema abierto

  • Meta toma la investigación exploratoria, la ciencia abierta y la colaboración transversal como base de sus esfuerzos en IA, y existe una oportunidad importante para construir un ecosistema abierto.
  • Planea impulsar la confianza y la seguridad abiertas en colaboración con muchos socios como AI Alliance, AMD, Anyscale y AWS.

Camino a seguir

  • Planean organizar un workshop en NeurIPS 2023 para compartir estas herramientas y ofrecer un análisis técnico en profundidad.
  • Los lineamientos de seguridad y las mejores prácticas requieren una conversación continua, y esperan la opinión de la comunidad.

Opinión de GN⁺

  • Lo más importante de este artículo es que Meta anunció el proyecto Purple Llama para apoyar un uso seguro y responsable de las nuevas tecnologías de IA generativa.
  • El proyecto busca ayudar a los desarrolladores a implementar IA generativa de forma segura, incluyendo herramientas de evaluación de ciberseguridad y un modelo de filtrado de entrada/salida.
  • Se espera que estos esfuerzos contribuyan a impulsar el avance de la tecnología de IA, generar confianza en la comunidad de desarrolladores y fortalecer el ecosistema de código abierto.

1 comentarios

 
GN⁺ 2023-12-08
Opiniones de Hacker News
  • No se entiende la falta de conciencia sobre la amenaza de la inyección de prompts en la nueva iniciativa de "despliegue responsable de modelos y experiencias de IA".
    • En la guía de uso responsable de 27 páginas, solo se encontró una única mención que describe erróneamente la inyección de prompts como un "intento de eludir restricciones de contenido".
    • "CyberSecEval" parece ser un benchmark para evaluar los riesgos de ciberseguridad de los modelos de lenguaje grandes, pero solo aborda el riesgo de que los modelos de generación de código produzcan código inseguro y el riesgo de que atacantes usen LLM para crear nuevos ataques.
    • "Llama Guard" solo se interesa en detectar contenido dañino en inglés en varias categorías, y se agradece que no haya intentado lanzar un modelo para detectar inyección de prompts.
    • La inyección de prompts es el mayor desafío que debe superarse para desplegar responsablemente aplicaciones basadas en LLM, como asistentes personales de IA, ya que hay riesgo de que las cosas salgan mal cuando el LLM tiene acceso tanto a datos personales como a entradas no confiables (como correos electrónicos que debe resumir).
  • Como investigador de seguridad, generar código "malicioso" usando LLM es un propósito legítimo, ya sea para practicar o para mostrarle un problema a las partes responsables, así que al mismo tiempo me alegra y me decepciona el anuncio de que los LLM no ayudarán con solicitudes relacionadas con ciberseguridad.
  • Sin importar lo que hagan los investigadores originales, la gente va a entrenar o ajustar modelos con datos sin censura, y los modelos sin censura ya están fácilmente disponibles para Llama, además de rendir mejor que los modelos censurados de tamaño similar.
  • La definición de victoria de Microsoft es convertirse en el host de productos/servicios de inferencia de IA: las startups crean productos de IA útiles, MSFT les cobra impuestos y construye más centros de datos.
    • Todavía no he pensado a fondo en la estrategia de Meta, pero ahora quiero intentarlo.
    • El lanzamiento/filtración de Llama a principios de este año cambió el campo de batalla, y los entusiastas del código abierto lo tomaron y empezaron optimizaciones que los investigadores de IA no habían intentado.
    • Este impulso de optimización puede verse como una forma de esquivar que un competidor de Meta se convierta en la autoridad fiscal definitiva.
    • Me pregunto si Meta espera que la comunidad de código abierto libre una especie de guerra por delegación contra sus competidores de FAANG.
    • No parece probable que la comunidad de código abierto confíe en Meta, y los grupos FOSS saben guardar rencor, además de que Meta es vista como contraria a su ideología central.
    • No veo una ruta clara de cómo la estrategia de IA de Meta le hará ganar dinero ni de cómo llevará a desarrolladores/clientes hacia el metaverso.
  • No es un modelo nuevo, solo más palabrería sobre "seguridad".
  • Dejé de usar Facebook después de que un comentario en broma sobre arañas y prenderle fuego a la casa fuera marcado rápidamente por IA, seguido por un rechazo igual de rápido de una apelación humana.
    • Recomiendo recordar que todas las grandes tecnológicas/redes sociales reciclan el término "confianza y seguridad".
  • Ocurrió un caso curioso en el que Meta parece seguir el estilo de Microsoft de crear experiencias de inicio de sesión complicadas.
    • Intenté iniciar sesión en ai.meta.com, pero descubrí que necesitaba una cuenta de Meta.
    • Creé la cuenta, pero luego descubrí que no estaba disponible en mi región.
  • Si se puede acceder al modelo, me pregunto qué tan difícil sería reentrenar o ajustar finamente este LLM para quitarle la "lobotomización" o la "seguridad".
  • El modelo está disponible en Hugging Face y puede ejecutarse gratis en Google Colab.
  • Usé ChatGPT dos veces y ambas veces me dio respuestas incorrectas a preguntas básicas sobre tareas de administración de Linux.