Atlassian cambia el valor predeterminado para usar datos de clientes en el entrenamiento de IA
(letsdatascience.com)- Los metadatos de clientes y el contenido dentro de la app de productos de Atlassian Cloud como Jira y Confluence se usarán por defecto para el entrenamiento de Rovo y Rovo Dev a partir del 17 de agosto de 2026
- Los valores predeterminados variarán según el plan: en Free, Standard y Premium la contribución de metadatos estará siempre activada, mientras que solo Enterprise mantendrá desactivados por defecto los metadatos y los datos dentro de la app, además del control sobre ellos
- Entre los datos recopilados se incluyen metadatos como puntaje de legibilidad, story points y valores de SLA, así como datos dentro de la app como el cuerpo de páginas, descripciones de issues, comentarios y nombres de flujos de trabajo
- Se aplicarán medidas de protección como la eliminación de identificadores directos y la agregación, pero los datos aportados podrán conservarse hasta 7 años; tras una eliminación u opt-out, los datos dentro de la app se eliminarán en un plazo de 30 días y los modelos se reentrenarán en un plazo de 90 días
- Es un cambio de política respecto de la postura anterior de no uso, que modifica el origen de los datos en herramientas de trabajo y el nivel de control según el precio, con mayor impacto en decisiones de privacidad, gobernanza y cumplimiento
Resumen del cambio
- Atlassian planea usar por defecto, desde el 17 de agosto de 2026, los metadatos de clientes y el contenido dentro de la app de Jira, Confluence y otros productos de Atlassian Cloud para el entrenamiento de IA
- Se mencionan específicamente Rovo y Rovo Dev como funciones de IA afectadas
- El cambio impactaría a alrededor de 300 mil clientes
- Con el cambio de política de contribución de datos, los valores predeterminados se aplicarán de forma distinta según el plan
- En los planes inferiores no es posible hacer opt-out de la recolección de metadatos
- El plan Enterprise mantiene el control sobre la recolección de metadatos y datos dentro de la app
- Los datos de contribución recopilados podrán conservarse hasta 7 años
- Tras una eliminación u opt-out, los datos dentro de la app se eliminarán dentro de 30 días
- Los modelos entrenados con esos datos se reentrenarán dentro de 90 días para eliminar esa contribución
Detalles técnicos
- Atlassian divide los datos recopilados en dos categorías: metadatos y datos dentro de la app
- Los metadatos incluyen señales desidentificadas
- Los datos dentro de la app incluyen contenido generado por usuarios
- Se detallan los elementos incluidos en la categoría de metadatos
- Puntajes de legibilidad y complejidad
- Clasificación de tareas
- Métricas de similitud semántica
- Story points
- Fecha de cierre del sprint
- Valores de SLA en Jira Service Management
- Se detallan los elementos incluidos en la categoría de datos dentro de la app
- Títulos y cuerpo de páginas en Confluence
- Títulos, descripciones y comentarios de issues en Jira
- Nombres de emojis personalizados
- Nombres de estados personalizados
- Nombres de flujos de trabajo
- Se especifica que, antes del entrenamiento, se aplicarán eliminación de identificadores directos, agregación de datos y otras medidas de protección
Configuración predeterminada por plan y exclusiones
- La configuración predeterminada se determina según el plan activo más alto de la organización
- Clientes Free y Standard
-
La contribución de metadatos siempre está activada
- No es posible hacer opt-out de la recolección de metadatos
- La contribución de datos dentro de la app está activada por defecto, pero puede cambiarse en la configuración
- Clientes Premium
- La contribución de metadatos siempre está activada
- La contribución de datos dentro de la app está desactivada por defecto
- Clientes Enterprise
- Tanto los metadatos como los datos dentro de la app están desactivados por defecto
- Es posible hacer opt-out de los metadatos
- Se especifican los grupos de clientes excluidos de toda la recolección
- Clientes que usan customer-managed encryption keys
- Clientes que usan Atlassian Government Cloud
- Clientes que usan Atlassian Isolated Cloud
- Clientes con obligaciones de HIPAA
-
Contexto e importancia
- Esta política cambia en dirección opuesta a la postura anterior
- Antes, la empresa había dicho que no usaría datos de clientes para entrenar o mejorar servicios de IA
- La tendencia de la industria presentada como contexto
- Los proveedores SaaS recopilan señales de uso interno y contenido para bootstrap de modelos, ajuste fino y evaluación
- Al mismo tiempo, prometen análisis basados en desidentificación y agregación
- Beneficios prácticos mencionados por Atlassian
- Mejora de la relevancia de búsqueda
- Mejores resúmenes
- Sugerencias de plantillas
- Optimización de flujos de trabajo tipo agente
- Impacto desde la perspectiva de equipos operativos
- Cambia el origen de los datos usados por los modelos en herramientas de trabajo
- Cambian los niveles de control de datos según el precio y los criterios de cumplimiento y compras
Riesgos y trade-offs
- La recolección obligatoria de metadatos para clientes que no son Enterprise genera preocupaciones de privacidad y gobernanza, independientemente de la eliminación de identificadores
- Telemetría como story points y métricas de SLA puede revelar la estructura de proyectos y patrones de desempeño
- La retención de 7 años de datos desidentificados amplía la superficie de exposición con el paso del tiempo
- Esto agrega carga para clientes que exigen auditorías de retención de datos a largo plazo
- Existe una vía de exclusión para clientes de alta seguridad y para quienes usan customer-managed keys
- Pero podría requerir migrar a planes más caros o a modalidades de despliegue especiales
Puntos a observar
- Cada organización debería revisar su tenant de Atlassian
- Es necesario confirmar cuál es el plan activo más alto por tenant
- Hace falta identificar la configuración predeterminada de contribución de datos
- Será necesario actualizar la configuración administrativa durante el período de despliegue
- Si se necesita un opt-out completo, conviene evaluar migrar a Enterprise o a un despliegue aislado
- Puntos clave a seguir desde el lado del producto
- Hace falta ver cómo operará Atlassian en la práctica el proceso de reentrenamiento en 90 días
- Hay que confirmar si los proveedores de LLM downstream usados en Rovo aseguran que no retienen las entradas
- Si este patrón se extiende al SaaS empresarial en general, se menciona la posibilidad de reacción de clientes y mayor escrutinio regulatorio
Base de la evaluación
- Este cambio tiene un impacto real para miles de usuarios empresariales y para quienes gestionan gobernanza de datos y procedencia de modelos
- No se presenta como un modelo de frontera ni como un hito regulatorio
- Se evalúa como un cambio de política de producto que modifica de forma concreta los pipelines de datos del equipo y las opciones de cumplimiento
1 comentarios
Opiniones en Hacker News
Siento que Atlassian no hace más que encadenar errores. Sigo usando sus productos con frecuencia, pero me topo con bugs de nivel P0 demasiado seguido. Los workers self-hosted de Bitbucket, sobre todo en la parte de Docker, están tan desactualizados que tuve que meter un montón de parches improvisados. En JIRA, para cambiar el orden de tickets nuevos, desde hace años sigue haciendo falta refrescar. Las funciones nuevas que agregaron a JIRA y Bitbucket en los últimos años tampoco han funcionado bien. Probé las funciones de IA con la prueba gratuita y no funcionaron en absoluto, y además no se podía cancelar en línea, así que tuve que abrir varios tickets de soporte; en medio de eso, el formulario de soporte también se rompió varias veces. Me pregunto por qué la falla funcional se ha vuelto tan grave: si es deuda técnica, fuga de talento, o ambas. Si uno mira la comunidad, aparecen cientos o miles de bugs con soluciones de emergencia
Me gustaría poner una fuente mejor, pero para mí el punto clave es que hoy tanto clientes gratuitos como de pago quedan en opt-in por defecto para aportar datos al entrenamiento de IA. Esto incluye todo el contenido, como páginas de Confluence y tickets de Jira. La documentación de soporte de Atlassian explica cómo desactivarlo, pero en nuestras instancias esa configuración ni siquiera aparece
Vi el rumor de que Anthropic está discutiendo la adquisición de Atlassian, supuestamente por los datos de entrenamiento. Incluso anda circulando una publicación en Reddit que habla ya de movimientos de data poisoning
Siento que en el SaaS empresarial se está normalizando cada vez más el patrón de recolección por defecto en vez de opt-out por defecto. Pero esta vez es especialmente grave porque no se trata solo de metadatos, sino de todo el contenido dentro de la app, y encima la opción de opt-out ni siquiera se renderiza. La decisión de política puede debatirse, pero juntas esas dos cosas hacen que parezca fricción intencional. También hay que separar el tema de data residency: muchos compradores creen que fijar la región equivale a una garantía total de privacidad, cuando en realidad solo indica dónde se almacena, no quién puede acceder ni con qué fines
Creo que muchas otras empresas como GitHub, Figma, Adobe y Vercel también activan esto por defecto. Así que me parece más realista asumir que, si le confías datos a cualquier empresa, por defecto podrían usarlos para entrenar modelos
Si el rumor de compra por parte de Anthropic fuera cierto, creo que Atlassian se vería como una oportunidad para comprar de golpe un dataset de alta señal alrededor del trabajo empresarial
Me pregunto si Atlassian incluye también el código y el contenido de repositorios privados de Bitbucket dentro de lo que recolecta. La redacción de la política y del FAQ es ambigua, así que me gustaría una respuesta clara de sí o no
Antes se decía que, si no pagabas, tú eras el producto; ahora hasta las empresas pagan y aun así ellas mismas son el producto, y eso lo hace todavía más absurdo
Quiero subrayar que la opción de data residency de Atlassian no evita este problema. Aunque amarres los datos a una región específica, igual pueden usarse para entrenamiento
Por eso siento que ahora se entiende mejor por qué Atlassian quería reducir el soporte de Data Center on-prem