- GitHub planea usar el código y los datos de repositorios privados para entrenar modelos de IA
- Los usuarios deben rechazarlo explícitamente (opt-out) antes del 24 de abril para bloquear el uso de sus datos
- Si no lo rechazan, la información de proyectos privados podría incluirse en los datos de entrenamiento
- Esta política está relacionada con la recopilación de datos para mejorar funciones de IA como GitHub Copilot
- Los desarrolladores deben revisar su configuración para proteger la privacidad y la seguridad del código
Cambio en la política de datos de entrenamiento de IA de GitHub
- GitHub cambió su política para poder incluir datos de repositorios privados en el entrenamiento con el objetivo de mejorar modelos de IA
- Si el usuario no lo rechaza por separado, los datos se usarán automáticamente
- El rechazo puede hacerse directamente desde la página de configuración de GitHub
- Entre los datos de entrenamiento podrían incluirse código privado, metadatos del proyecto e historial de commits
- Se explica que esta medida busca mejorar la calidad de Copilot y otras funciones de IA
Impacto para los desarrolladores
- Si los repositorios privados se usan para entrenamiento, existe riesgo de exposición de código sensible o lógica interna
- Empresas y desarrolladores individuales deben revisar sus políticas de seguridad y completar el proceso de opt-out
- Este cambio de GitHub podría reactivar el debate sobre la transparencia de los datos de entrenamiento de IA y el control del usuario
3 comentarios
Desde hace unos días me sigue apareciendo en GitHub,
Important update
On April 24 we'll start using GitHub Copilot interaction data for AI model training unless you opt out. Review this update and manage your preferences in your GitHub account settings.
Hice opt out, pero me da la impresión de que ya lo venían usando para IA desde antes.
Es una noticia falsa demasiado descarada.
Opiniones de Hacker News
Lo vengo diciendo desde 2023. Si la información almacenada en una base de datos está en una forma a la que la empresa puede acceder libremente, al final esa empresa cambiará los términos para poder usarla como datos de entrenamiento para IA. El incentivo es tan fuerte que me parece inevitable
Compartieron el enlace del blog oficial de GitHub diciendo que “no es así”. Los usuarios de Free, Pro y Pro+ Copilot tendrán sus datos de uso usados para entrenar modelos si no hacen opt-out. Los suscriptores Business o Pro no se incluyen en el entrenamiento. Si no usas Copilot, no te afecta. Si haces opt-out desde ahora, la configuración se mantendrá después
El título de esta noticia es engañoso. GitHub no entrena con el repositorio privado en sí, sino con los datos de interacción generados al usar Copilot. Si no usas Copilot, no te afecta. Igual conviene desactivarlo
Para ser precisos, el opt-out es una configuración de entrenamiento de Copilot. Hasta ahora solo los repos públicos eran opt-in, pero desde el 24 de abril los repos privados también quedan incluidos por defecto. Si usas Copilot en repos privados, conviene hacer opt-out en github.com/settings/copilot. Toma 30 segundos
Me pregunto si basta con que una sola persona del equipo no haga opt-out para que Copilot pueda acceder a todo el repo. También quiero saber si hay alguna forma de verificar la configuración de los demás miembros del equipo
Actualmente la configuración solo puede hacerse a nivel de usuario. Me pregunto si hay alguna forma de desactivarlo en toda la organización de una vez. Me preocupa que, si una sola persona deja activada la opción, el código de la organización pase a considerarse datos de entrenamiento
Reconozco que GitHub ha mostrado avisos en banner de forma constante. Pero yo tampoco los había leído hasta ver este post en HN
Mi repositorio privado tiene código hecho un desastre, así que no hay de qué preocuparse. Más bien, si un LLM entrena con mi código, sale perdiendo
Dan pena los que llevan mucho tiempo pagando GitHub y no vieron el aviso