Purple Llama: Meta publica herramientas abiertas de confianza y seguridad para IA generativa

(ai.meta.com)

1 puntos por GN⁺ 2023-12-08 | 1 comentarios | Compartir por WhatsApp

A medida que el uso de modelos abiertos de IA generativa crece rápidamente, Meta presentó Purple Llama como un proyecto paraguas que reúne herramientas y evaluaciones de confianza y seguridad para que los desarrolladores puedan desplegarlos de forma responsable
La primera versión se enfoca en CyberSec Eval, para evaluar riesgos de ciberseguridad en LLM, y en Llama Guard, un modelo de protección de entradas y salidas
CyberSec Eval revisa la posibilidad de sugerencias de código inseguro y la respuesta ante solicitudes maliciosas con base en criterios como CWE y MITRE ATT&CK
Llama Guard es un modelo público preentrenado para desarrolladores que quieren inspeccionar y filtrar entradas y salidas según lineamientos de contenido específicos de cada aplicación
Purple Llama se ofrece con una licencia permisiva, y Meta busca ampliar una base abierta de confianza y seguridad en colaboración con AI Alliance y socios clave del ecosistema de nube, chips e IA

El problema que busca resolver Purple Llama

Purple Llama es un proyecto paraguas de herramientas y evaluaciones de confianza y seguridad para ayudar a construir modelos abiertos de IA generativa de forma responsable
La IA generativa ha hecho posible la IA conversacional, la generación de imágenes realistas y el resumen de grandes volúmenes de documentos con prompts simples, y los modelos Llama ya superan las 100 millones de descargas
Como es difícil que cada desarrollador resuelva por su cuenta los problemas de seguridad, Purple Llama busca ofrecer una base común para el trabajo abierto de confianza y seguridad
El alcance inicial incluye ciberseguridad y protecciones de entrada/salida, y se planea agregar más herramientas en el futuro
Sus componentes se ofrecen bajo una licencia permisiva que permite uso de investigación y comercial

Primera versión: CyberSec Eval y Llama Guard

En esta primera etapa se publican dos componentes
- CyberSec Eval: un conjunto de benchmarks para evaluar la seguridad de ciberseguridad de los LLM
- Llama Guard: un clasificador de seguridad para filtrar entradas y salidas
La ciberseguridad y la seguridad de prompts en LLM son actualmente áreas de alta prioridad en la seguridad de la IA generativa, y también se tratan como buenas prácticas en la Responsible Use Guide de Llama 2

CyberSec Eval: medir los riesgos de ciberseguridad de los LLM

CyberSec Eval se presenta como el primer conjunto de evaluaciones de seguridad de ciberseguridad para LLM que puede usarse en toda la industria
Los benchmarks se basan en lineamientos y estándares de la industria como CWE y MITRE ATT&CK, y fueron construidos en colaboración con expertos en seguridad
La versión inicial se enfoca en abordar parte de los riesgos incluidos en los White House commitments sobre desarrollo responsable de IA
- Métricas para cuantificar los riesgos de ciberseguridad de los LLM
- Herramientas para evaluar la frecuencia de sugerencias de código inseguro
- Herramientas de evaluación de LLM para dificultar más la generación de malware o la asistencia en ciberataques
Los resultados iniciales muestran que los LLM presentan riesgos de ciberseguridad significativos en aspectos como recomendar código inseguro o responder a solicitudes maliciosas
Más información técnica está disponible en el paper de Cybersec Eval

Llama Guard: un modelo de protección que filtra entradas y salidas

La Responsible Use Guide de Llama 2 recomienda inspeccionar y filtrar todas las entradas y salidas de un LLM según lineamientos de contenido adecuados para la aplicación
Llama Guard es un modelo preentrenado que los desarrolladores pueden usar para defenderse de salidas potencialmente riesgosas
Muestra un rendimiento competitivo en benchmarks públicos generales y está optimizado para facilitar el despliegue
La metodología y la discusión de rendimiento están publicadas en el paper de Llama Guard
Fue entrenado con una mezcla de datasets públicos para detectar tipos generales de contenido riesgoso o infractor que pueden ser relevantes para múltiples casos de uso de desarrolladores
El objetivo final es facilitar que los desarrolladores personalicen el modelo para casos de uso relevantes y adopten buenas prácticas mientras mejora el ecosistema abierto

Por qué “Purple”

Para reducir los riesgos de la IA generativa, es necesario usar tanto el red team desde la perspectiva de ataque como el blue team desde la perspectiva defensiva
El purple teaming es una forma de colaboración que combina los roles de red team y blue team para evaluar y mitigar riesgos potenciales
El nombre Purple Llama refleja la intención de aplicar este enfoque también al trabajo de confianza y seguridad en IA generativa

Ecosistema abierto y colaboración

La investigación exploratoria, la ciencia abierta y la colaboración cruzada forman la base de las actividades de IA de Meta
Llama 2 se lanzó en julio junto con más de 100 socios, y muchos de ellos también colaboran en el área abierta de confianza y seguridad
Entre los colaboradores están AI Alliance, AMD, Anyscale, AWS, Bain, Cloudflare, Databricks, Dell Technologies, Dropbox, Google Cloud, Hugging Face, IBM, Intel, Microsoft, MLCommons, Nvidia, Oracle, Orange, Scale AI y Together.AI
Meta también colabora con socios de Papers With Code y HELM para incluir estas evaluaciones en benchmarks
También trabaja con el MLCommons AI Safety Working Group

Planes después de la publicación

Meta planea realizar un workshop en NeurIPS 2023 y apoyar a la gente para que pueda comenzar mediante sesiones de intercambio de herramientas y profundización técnica
Los lineamientos de seguridad y las buenas prácticas seguirán siendo un tema de discusión continua en toda la industria
Los materiales relacionados con Llama 2 están disponibles en el sitio web de Llama, donde también hay documentación de inicio rápido y preguntas frecuentes
También se ofrecen por separado best practices and considerations para construir productos basados en LLM
Together.AI y Anyscale ofrecerán demos alojadas en NeurIPS durante las próximas semanas

1 comentarios

GN⁺ 2023-12-08

Opiniones de Hacker News

No entiendo que en una nueva iniciativa que busca ayudar a la gente a “implementar modelos y experiencias de IA generativa de forma responsable” no se reconozca adecuadamente la amenaza de la inyección de prompts
La vi una sola vez en la Responsible Use Guide de 27 páginas, y aun ahí la describen erróneamente como un “intento de eludir restricciones de contenido”
“CyberSecEval: A benchmark for evaluating the cybersecurity risks of large language models” parecía prometedor, pero en realidad solo trata el riesgo de que los modelos de generación de código produzcan código vulnerable y el riesgo de que atacantes usen LLM para crear nuevos ataques
“Llama Guard: LLM-based Input-Output Safeguard for Human-AI Conversations” también se centra únicamente en detectar varias categorías de contenido dañino en inglés. Aunque es una suerte que no hayan lanzado un modelo de detección de inyección de prompts, sigo siendo muy escéptico ante ese enfoque
Estoy convencido de que, para desplegar de forma responsable las distintas aplicaciones construidas sobre LLM, la inyección de prompts es el mayor desafío. Un “asistente personal de IA” es el ejemplo típico: en cuanto el LLM tiene acceso al mismo tiempo a datos personales y a entradas no confiables, por ejemplo correos que debe resumir, existe el riesgo de que surjan problemas: https://simonwillison.net/2023/May/2/prompt-injection-explai...
Entiendo que es difícil incluir en un anuncio sobre seguridad de IA una frase como “si esperaban una solución para la inyección de prompts, todavía no la tenemos, lo sentimos”, pero siento que Meta AI por ahora está barriendo bajo la alfombra la mayor amenaza de seguridad para los sistemas LLM
- En muchas aplicaciones LLM reales, la inyección de prompts no solía ser la principal preocupación
  Lo que más se despliega en la práctica son chatbots con generación aumentada por recuperación (RAG), que por lo general son muy limitados. No pueden usar internet, no pueden ejecutar herramientas y, en la práctica, solo funcionan como una interfaz para una base de conocimiento no confidencial
  Es posible abusar de ellos mediante inyección de prompts, pero el impacto es limitado. La filtración de prompts no es muy interesante, y puede existir el problema de secuestrar el sistema para usar el LLM gratis, pero eso se puede mitigar fácilmente con técnicas relativamente simples, como límites de velocidad
  Para muchas empresas, es mucho más riesgoso que el chatbot dé respuestas dañinas, incorrectas o inapropiadas. Piensen en un chatbot de e-commerce que informa mal las condiciones de reembolso, o en un bot educativo que expone a niños a contenido violento: los problemas legales y de reputación son mucho mayores
  Que algún excéntrico use prompts sofisticados para provocar deliberadamente respuestas raras del LLM suele ser secundario frente a esos problemas
  Aun así, la crítica es válida. Una de las razones por las que el uso de LLM se queda en este nivel tan tonto es precisamente que no hemos resuelto la inyección de prompts, y desplegar sistemas basados en LLM más potentes implica demasiado riesgo. Si se resolviera este problema, se abriría mucho potencial que hoy no se está aprovechando
- He desplegado LLM para varios usos comerciales y, al menos en esos casos, había que diseñar algo realmente absurdo para que representaran una amenaza real para los usuarios. Por ejemplo, no aislar las sesiones de usuario, permitir que el modelo ejecute código arbitrario o que realice acciones privilegiadas sin confirmación del usuario
  Además, si el propio usuario hace “inyección de prompts”, yo lo llamaría simplemente uso avanzado. Estos servicios son herramientas para los clientes, así que si el usuario quiere hacer roleplay erótico en vez de resumir correos entrantes, es su elección
  Si quien envía un correo intenta hacer que el usuario haga eso sin su consentimiento, en el mejor de los casos es un problema organizacional y, en el peor, un problema técnico aparte. Se puede manejar con filtrado tradicional de correo electrónico, y se puede implementar sin culpar al LLM
  Los problemas de ciberseguridad alrededor de los LLM suelen surgir cuando se los trata como agentes expertos antropomorfos confiables, y no como motores probabilísticos de predicción de información
  Conectar un LLM a una API que puede manipular directamente datos privilegiados de usuarios y compartir esos datos por la red es una ignorancia de seguridad casi cómica. Me recuerda al ejemplo de Bard que compartieron más abajo
  Si no le darías acceso a cierta API a cualquier persona que te encuentres en la calle, tampoco se lo deberías dar a un LLM. Si no puedes imponer cierto grado de determinismo con programación tradicional y heurísticas, el LLM debería quedar limitado a una API que muestre la solicitud al usuario y la bloquee hasta que este la confirme
- La razón por la que da cautela proponer algún método para prevenir la inyección de prompts probablemente sea que, por lo general, fracasaría en poco tiempo y arrastraría consigo la reputación profesional de quien lo proponga
  La misma propiedad que hace que los LLM sean buenos en tareas basadas en lenguaje es la razón por la que la ingeniería social contra humanos es el talón de Aquiles de la seguridad
  Para superar esto, habría que adoptar el enfoque de OpenAI, que parece abierto pero en realidad es cerrado, con una lista secreta de “palabras malas”, o bien entrenar al LLM para que sea tan paranoico y calculador que uno se tope con otros tipos de problemas de alineación
  Personalmente, prefiero un modelo débilmente alineado que corra en hardware de mi propiedad, es decir, on-premises y no en la nube. No porque quiera que me dé recetas para fabricar TNT o que justifique prejuicios, sino porque quiero un modelo con el que pueda debatir hipótesis
  La actitud aduladora que muestran la mayoría de los modelos de chat comerciales me resulta realmente molesta. No se siente como estar con un socio cibernético, sino como estar en un hotel con un empleado excesivamente arreglado
- ¿Alguien ha explicado con palabras qué es exactamente el “miedo”? Si la preocupación es que los usuarios puedan acceder a la información que se introdujo en el LLM, eso es todo lo que realmente puede pasar
  He leído decenas de miles de palabras sobre el “pánico” en torno a la seguridad de los LLM, pero todavía no he escuchado una preocupación legítima. Suena parecido al “miedo” de que un usuario de Google, además de obtener resultados de búsqueda, pueda hacer clic en un enlace y salir de la zona segura de Google
- Totalmente de acuerdo. Aunque no haya una solución, los métodos de mitigación deberían difundirse ampliamente
  Hay una gran diferencia entre “técnicamente sigue siendo vulnerable a la inyección de prompts” y “alguien extrae fácilmente datos privados y destruye la empresa”, y la gente debería saber cómo acercarse desde la segunda categoría hacia la primera
Al ver la frase “herramienta de evaluación que dificulta que los LLM generen código malicioso o ayuden a llevar a cabo ciberataques”, como investigador de seguridad me alegra y a la vez me decepciona.
La investigación en ciberseguridad es un propósito legítimo para usar LLM, y en ese proceso también se incluye generar código “malicioso” para practicar o para mostrarle un problema a la parte responsable.
Por otro lado, también me alegra saber que, mientras todos los LLM no ayuden con solicitudes relacionadas con ciberseguridad, mi estabilidad laboral está garantizada.
- La herramienta de evaluación puede invertirse fácilmente para crear un modelo ajustado con fine-tuning que sea excelente en la generación de malware.
  La postura de Meta sobre los LLM parece apuntar a permitir que los desarrolladores de modelos creen modelos para diversos usos. A diferencia del lenguaje centrado en seguridad de esta página, el LLM base no fue censurado de ninguna manera, y estas herramientas Purple solo permiten controlar el fine-tuning para hacerlo más “seguro” o menos “seguro”.
- Un problema de seguridad más interesante es la versión para LLM de los ataques de cross-site scripting, sobre la que Simon Willison ha escrito mucho.
  Si tienes una herramienta LLM que puede procesar texto de origen desconocido y enviar correos de resumen, eso significa que la entrada puede estar contaminada y que puede enviar emails.
  Alguien podría insertar dentro del texto algo que el LLM interprete como una instrucción, sobrescribir la intención del usuario y hacer que envíe información confidencial a otra persona. No hay una defensa equivalente a las comillas, y solo existe un flujo de tokens.
- Todo lo de aquí parece opcional, y son herramientas que se colocan entre el LLM y el usuario.
- No entiendo por qué una herramienta de evaluación no sería una ganancia neta. Cada modelo tiene usos distintos.
No termino de entender. Hagan lo que hagan los investigadores originales, la gente al final entrenará o ajustará modelos con datos sin censura.
Para Llama ya hay modelos sin censura fáciles de conseguir, y además rinden mucho mejor que modelos censurados de tamaño similar.
Dicho eso, la depuración de la salida sí tiene sentido.
- Si usas un LLM para extraer datos de un PDF y meterlos en una base de datos, puedes usar el modelo que quieras.
  Pero si el gobierno de EE. UU. quiere un chatbot que ayude a inscribirse en el Health Insurance Marketplace, necesita guardrails y garantías, aunque sea a costa de la calidad de las respuestas.
- Ellos también lo saben. No es una herramienta para impedir que se creen estas IA, sino una herramienta de protección corporativa para evitar que una IA lanzada públicamente provoque rechazo del mercado y eso derive en pérdidas.
  Al final siempre se trata de dinero.
- Las empresas pueden querer vender este tipo de IA a la gente, y algunas personas se van a sentir ofendidas. Si una IA le dice algo malo a un niño, en EE. UU. probablemente se arma un problema grande.
  Otro tema es la seguridad ante prompt injection. Por ejemplo, supongamos que quieres un asistente de IA que lea y organice correos, y redacte emails dictados. ¿Cómo puedes estar 100% seguro de que, por culpa de una prompt injection en un correo malicioso, el asistente no reenviará todos tus emails a una mala persona?
  Ojalá se descubran arquitecturas de IA nuevas y más inteligentes que permitan a la comunidad open source entrenar modelos más fácilmente, sin censura corporativa.
- Lo que hay aquí no impide elegir crear modelos con funciones específicas, incluidos modelos sin censura. Hay herramientas de evaluación de modelos y herramientas de evaluación de contenido; estas últimas se buscan usar para clasificar entradas, salidas o ambas, según el escenario de uso del LLM.
  Si los modelos sin censura son en general más capaces, entonces se necesitan aún más medios distintos de la censura interna del modelo para garantizar que el modelo desplegado no entregue al usuario final tipos de contenido no deseados.
  Claro que habrá casos de uso en los que se quiera dejar todo completamente abierto, pero en aplicaciones empresariales comerciales, gubernamentales y sin fines de lucro eso se acerca más a la excepción que a la norma. Incluso si no se usa un modelo censurado, la clasificación de entradas para hacer cumplir políticas de uso es útil.
- Parte de mi trabajo es observar cómo se comporta la tecnología cuando llega a manos de usuarios reales.
  Por diversión, tenía que asignar aleatoriamente a 27 personas en 12 equipos, y como seguramente la gente ya está haciendo cosas así con varios chatbots, probé pedírselo a algunos modelos de chat en vez de usar una hoja de cálculo. La lista de nombres estaba separada por comas y solo había que dividirla en equipos.
  El modelo 1 dijo que asignaría la lista que le di “al azar”, pero en realidad la tomó exactamente en el orden de entrada. Resulta que estaba ordenada alfabéticamente por nombre. Los nombres estaban bien y técnicamente no era incorrecto, pero no era lo esperado.
  El modelo 2 asignó los nombres al azar, pero en medio inventó 2 personas falsas. El resultado tenía 27 personas, y si no lo hubiera revisado, algunos equipos habrían quedado con personas ficticias. Da miedo pensar en un conjunto de datos mucho más grande.
  El modelo 3 dio una respuesta válida, pero un detector de odio y abuso incluido en el flujo de salida marcó mi nombre y algunos otros nombres como contenido potencialmente dañino.
  Me pareció interesante que los modelos se comportaran así, y un enfoque de “purple team” podría encontrar este tipo de problemas. En particular, quiero saber por qué mi nombre aparece como contenido potencialmente dañino en un modelo.
  Al final lo hice con una hoja de cálculo y seguí adelante ;-)
La definición de victoria de Microsoft parece ser convertirse en el host de productos y servicios de inferencia de IA. La estructura sería que las startups creen productos de IA útiles y MSFT cobre impuestos para construir más centros de datos.
Todavía no he pensado a fondo la estrategia de Meta, pero si la analizamos, la publicación/filtración de Llama a principios de este año cambió el campo de batalla. Los entusiastas del open source lo tomaron, lo optimizaron y lo llevaron a un nivel que los investigadores de IA creían imposible o no tenían incentivos para intentar.
Ese flujo de optimización puede verse como un movimiento para esquivar que un competidor de Meta se convierta en el recaudador final. Así como alguien hace correr DOOM en una calculadora, alguien hará lo mismo con la inferencia de LLM.
¿Lo que Meta espera es que la comunidad open source pelee contra sus competidores FAANG como una especie de guerra por encargo?
No parece que la comunidad open source vaya a confiar en Meta. El mundo FOSS guarda rencores durante mucho tiempo, y Meta es lo opuesto a sus ideales centrales. Aun así, usarán lo que Meta publique.
No veo un camino claro sobre cómo la estrategia de IA de Meta le genera dinero, ni cómo atrae a desarrolladores y clientes al Meta-verse.
- Meta tiene un excelente historial de contribuciones a FOSS. No me gustan sus productos de consumo, pero sus contribuciones open source son grandes y numerosas.
- Suena al clásico caso de comoditización de complementos. Meta se beneficia de las capacidades de IA, pero no necesita tener el monopolio de la tecnología.
  Como se beneficia del propio avance, puede colaborar con la comunidad open source para lograrlo.
  https://gwern.net/complement
- Las acciones tecnológicas se negocian con ratios precio-beneficio absurdos en comparación con otras empresas, porque los inversionistas imaginan un futuro en el que los ingresos de la compañía siguen subiendo.
  Una de las varias tareas de un CEO es mantener a los inversionistas fantaseando. No hace falta que haya ingresos hoy mismo; basta con demostrar que se está en la vanguardia de la próxima gran ola.
  Así que la estrategia parece ser, más o menos: publicar el modelo → a diferencia de lo de Google, la gente puede usarlo de verdad y se vuelve un gran tema en el mundo tech → los inversionistas ven a Facebook en la vanguardia de la tendencia más caliente del momento → sube la acción.
  Al mismo tiempo, también podrían obtener un buen modelo para moderación de contenido, ayudar a reclutar a los mejores especialistas en machine learning y poner al 60% de ellos a maximizar ingresos publicitarios.
  De todos modos, FB ya estaba entrenando el modelo, y si no planeaba convertirse en un proveedor de servicios cloud que vende ese modelo, publicarlo sin más no aumenta los costos de forma enorme.
  El metaverso fracasó en entusiasmar a los inversionistas y murió. Pero, por suerte para Zuck, apareció algo mucho mejor justo en el momento adecuado: resultados de machine learning de punta.
- Hay que recordar que Meta lanzó un chatbot para resumir papers académicos, incluida investigación médica, unas dos semanas antes de ChatGPT.
  Dejaron muy claro que era un experimento, pero los críticos lo atacaron con demasiada dureza y Meta lo retiró en cuestión de días.
  Parece que se dieron cuenta de que convertirse en competidor directo de ChatGPT tenía muy pocas probabilidades de éxito, pero que había muchos campos adyacentes que valía la pena perseguir. Sea lo que sea que uno piense de la empresa —mi cuenta también lleva años abandonada—, todavía trabaja allí mucha gente inteligente y motivada.
- ¿El objetivo de este intento concreto necesariamente tiene que ser ganar dinero o atraer desarrolladores directamente al Meta-verse?
  Meta ya gana muchísimo dinero y parece estar impulsando varios proyectos moonshot.
  Como se dijo, el mundo FOSS guarda rencores durante mucho tiempo. ¿No podría ser este un intento de reconquistar a ese grupo y cambiar la percepción pública sobre Meta?
  La posibilidad de que Llama sea, en esencia, una campaña de reconstrucción de marca no es cero.
  El elemento de guerra por encargo podría ser un bono adicional encima de eso.
Así que no era un modelo nuevo, sino otra tontería de “seguridad”.
- La seguridad no es más que el caballo de Troya más reciente que usa Big Tech para controlar cómo la gente usa sus computadoras.
  Creo claramente en el uso responsable de la IA, pero no creo que estas empresas tengan en mente mis mejores intereses, ni que debamos permitirles decidir qué puedo hacer con mi computadora.
  Es esa idea de que quien cambia libertad por seguridad no obtiene ninguna de las dos.
- Dejando de lado si la “seguridad” es intrínsecamente una tontería o no, esto es ambas cosas. Llama Guard es un modelo que cumple una función similar a la moderation API de OpenAI, y es un modelo cuyos pesos se pueden usar.
  La “seguridad en IA” a menudo —y el movimiento que popularizó el término, por completo— se acerca bastante a ser una tontería y una distracción que oscurece los daños sociales reales y actuales que produce la IA.
  En cambio, unas herramientas relativamente abiertas que ayuden a quienes crean y despliegan LLM a entender las capacidades del modelo y sus entradas y salidas reales en áreas sensibles deberían gustarles a quienes quieren que el desarrollo se centre en modelos más abiertos y sin censura, en lugar de modelos de censura centralizados y de caja negra.
  Se necesitan esas herramientas para que las instituciones puedan desplegar esos modelos en aplicaciones reales e importantes.
- La seguridad aquí no significa simplemente “no hables de temas que podrían ser polémicos”.
  Aquí, seguridad también puede significar que un LLM se comporte dentro de rangos aceptables para un caso de uso específico.
  Por ejemplo, supongamos que existe un LLM médico que ayuda a los pacientes a acudir a una institución de salud, ofrece educación al paciente y ayuda a los hospitales con tareas administrativas cotidianas.
  Si un paciente pregunta por consejos sobre una receta, no querrías un bot que recomiende cambiar la dosis sin revisión de personal médico, o que sugiera medicamentos de venta libre que interactúen con una receta existente.
  Muchos LLM actuales pueden dar respuestas plausibles pero absurdas, o ser inducidos a devolver la respuesta que el usuario quiere oír. En varios entornos, esto se convierte en un problema real de seguridad.
- Sí es un modelo nuevo. Solo que es un “modelo de tonterías de seguridad”.
  Aun así, el dataset en sí podría ser útil. Estoy pensando en probar la parte de codesec como datos adicionales de entrenamiento para un LLM exclusivo de código, porque si va a generar código, mejor que se le haga pensar en las posibles implicaciones de seguridad.
Quienes llevan mucho tiempo viendo memes en internet sabrán que existe el meme de que, cuando aparece una araña, hay que prenderle fuego al lugar o a la casa.
Hace un año vi en Facebook un video de una niña sosteniendo una araña mucho más grande que su mano, y recuerdo literalmente el comentario por lo que pasó después: “¡Niña, aléjate de eso, tenemos que prenderle fuego a la casa!”
Publiqué el comentario, pero no apareció, y un segundo después Facebook me avisó que mi comentario había sido reportado. Fue demasiado rápido para que lo hubiera reportado alguien, así que pensé que era IA; apelé esperando que llegara a una persona, pero me la rechazaron bastante rápido, en unos 15 minutos.
Solo puedo pensar que alguien lo leyó, pero parece que ni vio el video ni entendió que era una broma.
Así que dejé de usar Facebook por completo. En ese momento tenía apps con permisos de administrador por trabajo, y el riesgo de que me suspendieran la cuenta no era una conversación agradable para tener con mi jefe.
Probablemente también le generaba ingresos a Facebook. Hice clic en sus anuncios increíblemente segmentados y de hecho compré cosas. Pero ahora, como una máquina de IA quiere castigarme por publicar un comentario de meme, simplemente no lo uso.
De paso, conviene recordar el término Trust and Safety. Es una expresión que reciclan todas las grandes tecnológicas y empresas de redes sociales, y es la forma en que deciden unilateralmente qué está permitido en muchísimos sitios web a la vez.
Enlace de Trust and Safety: https://dtspartnership.org/
- ¿Te imaginas que Facebook contrate suficiente personal como para que una persona investigue cada reporte durante 15 minutos antes de decidir?
  Para que eso fuera posible, casi todos los que conozco tendrían que trabajar en Facebook.
- Simplemente no uses Facebook.
  La gente se queja y, claro, se podría regular, pero la aplicación de esas reglas suele ser difícil y manejar contextos sutiles también lo es.
  Estas plataformas no son la única forma de estar en contacto y comunicarse.
  Pero tienen que adoptar formas de moderación que hagan que su base de usuarios siga volviendo y participando, que no generen problemas de PR, y que sigan atrayendo anunciantes o apelando a grupos ruidosos capaces de causarles problemas.
  De ahí salen estos comités teatrales de “ética” y lemas de “responsabilidad”.
  Al final, es simplemente un negocio.
- “Tenemos que prenderle fuego a la casa” es difícil de dejar en la plataforma sin importar el contexto, porque podría interpretarse en otro contexto.
  Considerando la escala, que lo marquen tiene sentido. Claro que yo tampoco los uso, pero eso es otro tema.
- Al mismo tiempo, estoy leyendo artículos sobre cómo FB no logra controlar la propagación de grupos de pedófilos dentro del servicio y cómo, más bien, su sistema de recomendaciones los promueve.
  [1] https://www.wsj.com/tech/meta-facebook-instagram-pedophiles-...
- Curiosamente, hace más o menos un mes me pasó algo muy parecido en Facebook.
  El titular de un artículo estaba escrito como si hubiera “una persona” que causaba todos los embotellamientos, y la gente estaba bromeando en los comentarios.
  Yo también bromeé: “habría que encontrar a ese tipo y darle su merecido”.
  Casi de inmediato recibí una notificación por “incitación a la violencia”; apelé, pero me la rechazaron en menos de 15 minutos.
  Una persona que lo hubiera mirado medio segundo habría entendido el contexto, y también habría sabido que esa persona no existe realmente, así que no era incitación a la violencia.
Es una secuencia un poco graciosa, pero parece que Meta aprendió de Microsoft a crear una experiencia de inicio de sesión laberíntica.
Entré a ai.meta.com e intenté iniciar sesión con mi confiable cuenta de Facebook.
Hice lo que me indicaron y me avisaron que todavía no tenía una cuenta de Meta en mi arsenal digital. Así que creé una y, obviamente, me quedé pensando “¿qué?”.
Pero el giro es que no está disponible en mi región.
Felicitaciones a Microsoft por haber puesto tan alto el estándar de UX. Su legado vive en lugares inesperados.
- Lo intenté en Android y me preguntó si quería usar FB, Instagram o correo electrónico. Elegí Instagram y, de todos modos, me redirigió a Facebook.
  Luego Facebook me dijo que tenía que usar el inicio de sesión de mi visor de VR, algo que no he usado desde la primera semana después de comprarlo. Le di aceptar por el momento.
  Después me preguntó si quería continuar vinculándolo con Facebook o sin vincularlo, y cancelé.
- Si tu región es la UE, hay que culpar a los reguladores. Sus regulaciones de IA se están volviendo rápidamente más pesadas.
- Lo que más recuerdo de Microsoft es que hace uno o dos años tenía algo así como un límite de 63 caracteres para la contraseña de inicio de sesión.
  Por supuesto, no te lo decía, y también te permitía establecer una contraseña de esa longitud sin quejarse.
  A mi parecer, simplemente la truncaba sin avisar. Cuando la puse por debajo de 60 caracteres, funcionó sin problemas.
- Es la ley de Conway.
Si se tiene acceso al modelo, ¿qué tan difícil sería reentrenar o afinar estos LLM para eliminarles el ajuste de seguridad o la “lobotomía”?
- También hay Llamas inseguras.
  https://www.reddit.com/r/LocalLLaMA/comments/18c2cs4/what_is...
  Esos modelos tienen un carácter un poco incendiario.
  Además, el problema de los LLM lobotomizados se conoce como el “problema de la mayonesa picante”.
  Un julio, un desarrollador llamado Teknium le preguntó a un chatbot de IA cómo hacer mayonesa. No quería una mayonesa cualquiera, sino una receta “peligrosamente picante”. Pero el chatbot se negó cortésmente. Respondió: “Como asistente útil y honesto, no es apropiado que proporcione recetas o instrucciones que puedan causar daño a las personas, por lo que no puedo cumplir con la solicitud de ‘mayonesa peligrosamente picante’”. “La comida picante puede ser deliciosa, pero también puede ser peligrosa si no se prepara o consume correctamente”.
  https://www.theatlantic.com/ideas/archive/2023/11/ai-safety-...
- Si tienes acceso directo al modelo, incluso sin afinamiento puedes avanzar a medias poniendo en el prompt que la respuesta empiece con algo como “Sure, ...”.
  Incluso Llama 2 Chat, el modelo con el ajuste de seguridad más fuerte que conozco, puede empezar a dar instrucciones para fabricar una bomba nuclear si se lo guía de una forma específica parecida a la de arriba.
El modelo está en https://huggingface.co/meta-llama/LlamaGuard-7b
Se puede ejecutar en Google Colab gratis: https://colab.research.google.com/drive/16s0tlCSEDtczjPzdIK3...
¿A alguien más se le rompe el historial de volver atrás al visitar esta página? Después de entrar, no puedo hacer clic en volver atrás. Uso Firefox / MacOS
- También pasa en Firefox. Hice clic en el enlace y luego quise volver a HN, pero el botón de volver estaba desactivado
- ¿De casualidad lo estás abriendo en un contenedor (Facebook)?
- En Safari móvil de iOS funciona bien
- En Edge en Windows, el historial funciona correctamente

Purple Llama: Meta publica herramientas abiertas de confianza y seguridad para IA generativa

El problema que busca resolver Purple Llama

Primera versión: CyberSec Eval y Llama Guard

CyberSec Eval: medir los riesgos de ciberseguridad de los LLM

Llama Guard: un modelo de protección que filtra entradas y salidas

Por qué “Purple”

Ecosistema abierto y colaboración

Planes después de la publicación

Lecturas relacionadas

1 comentarios

Opiniones de Hacker News