6 puntos por GN⁺ 2026-03-28 | 3 comentarios | Compartir por WhatsApp
  • GitHub planea usar el código y los datos de repositorios privados para entrenar modelos de IA
  • Los usuarios deben rechazarlo explícitamente (opt-out) antes del 24 de abril para bloquear el uso de sus datos
  • Si no lo rechazan, la información de proyectos privados podría incluirse en los datos de entrenamiento
  • Esta política está relacionada con la recopilación de datos para mejorar funciones de IA como GitHub Copilot
  • Los desarrolladores deben revisar su configuración para proteger la privacidad y la seguridad del código

Cambio en la política de datos de entrenamiento de IA de GitHub

  • GitHub cambió su política para poder incluir datos de repositorios privados en el entrenamiento con el objetivo de mejorar modelos de IA
    • Si el usuario no lo rechaza por separado, los datos se usarán automáticamente
    • El rechazo puede hacerse directamente desde la página de configuración de GitHub
  • Entre los datos de entrenamiento podrían incluirse código privado, metadatos del proyecto e historial de commits
  • Se explica que esta medida busca mejorar la calidad de Copilot y otras funciones de IA

Impacto para los desarrolladores

  • Si los repositorios privados se usan para entrenamiento, existe riesgo de exposición de código sensible o lógica interna
  • Empresas y desarrolladores individuales deben revisar sus políticas de seguridad y completar el proceso de opt-out
  • Este cambio de GitHub podría reactivar el debate sobre la transparencia de los datos de entrenamiento de IA y el control del usuario

3 comentarios

 
runableapp 2026-03-30

Desde hace unos días me sigue apareciendo en GitHub,

Important update
On April 24 we'll start using GitHub Copilot interaction data for AI model training unless you opt out. Review this update and manage your preferences in your GitHub account settings.

Hice opt out, pero me da la impresión de que ya lo venían usando para IA desde antes.

 
github88 2026-03-29

Es una noticia falsa demasiado descarada.

 
GN⁺ 2026-03-28
Opiniones de Hacker News
  • Lo vengo diciendo desde 2023. Si la información almacenada en una base de datos está en una forma a la que la empresa puede acceder libremente, al final esa empresa cambiará los términos para poder usarla como datos de entrenamiento para IA. El incentivo es tan fuerte que me parece inevitable

    • Es cierto. Por más ética que sea una empresa, si la compran la situación puede cambiar. Trabajo en una empresa del SP500 y hoy el acceso a producción está estrictamente controlado. Pero no sé qué pasaría si alguien como Larry, Zuck o Bezos comprara la empresa
    • “Primero hacerlo y luego pedir perdón” probablemente se volverá la regla general. Incluso sin cambiar los ToS, en la práctica podrían hacerlo. Amazon ya tiene un enorme dataset interno para entrenamiento
    • Me preocupa que MS use para entrenar IA el código que escribo en mi laptop. La desconfianza de los usuarios de Linux que antes sonaba a teoría conspirativa cada vez me parece más comprensible
    • Tienes razón. Me frustra que la gente no lo vea como algo tan obvio. Stallman siempre tuvo razón
    • Si no posees tú mismo las llaves, eso no es cifrado de extremo a extremo. Hay que dejar de decir tonterías
  • Compartieron el enlace del blog oficial de GitHub diciendo que “no es así”. Los usuarios de Free, Pro y Pro+ Copilot tendrán sus datos de uso usados para entrenar modelos si no hacen opt-out. Los suscriptores Business o Pro no se incluyen en el entrenamiento. Si no usas Copilot, no te afecta. Si haces opt-out desde ahora, la configuración se mantendrá después

    • Según el blog, los datos recopilados incluyen entradas, salidas, contexto de código, comentarios, estructura de archivos, feedback, etc. Pero no dice “si quieres participar”, sino “si no participas”. O sea, es una estructura donde tienes que rechazarlo explícitamente, y eso me molesta. Es injusto que yo tenga que hacer el esfuerzo para proteger mi privacidad
    • La redacción detallada está dividida de forma demasiado ambigua. Si Copilot usa para entrenar las entradas, salidas y el contexto de código, al final eso significa que parte del código de repos privados se usa como datos de entrenamiento
    • Tanto el título como la respuesta son demasiado amplios. Desde el 24 de abril, los repos privados de usuarios que no sean Business/Pro quedarán incluidos por defecto en el entrenamiento. No aplica a todos los repos, pero hay que elegir bien el lenguaje. Más que “No we won’t”, habría sido mejor decir “no es del todo exacto”
    • Aun así sigue siendo un problema grave. Si el código entra al entrenamiento de un LLM, ya no es privado. Poner “private repo” y luego en letra chica decir “puede hacerse público” es mentir
    • Bajo la ley de la UE, el esquema de opt-out no se reconoce como consentimiento válido. Me pregunto cómo piensan manejar eso
  • El título de esta noticia es engañoso. GitHub no entrena con el repositorio privado en sí, sino con los datos de interacción generados al usar Copilot. Si no usas Copilot, no te afecta. Igual conviene desactivarlo

    • Pero me pregunto qué pasa si uno de mis contribuidores usa Copilot
    • Yo también lo entendí así, pero si entrenan con la entrada, no pueden garantizar que no estén entrenando con el código mismo. En un juicio incluso podrían alegar que “solo entrenaron con la entrada”
    • Este tipo de distinciones minuciosas al final no significan nada. Aunque hoy sea así, mañana podrían cambiarlo a escondidas. Los desarrolladores creen que entendieron el sistema, pero al final los siguen engañando
  • Para ser precisos, el opt-out es una configuración de entrenamiento de Copilot. Hasta ahora solo los repos públicos eran opt-in, pero desde el 24 de abril los repos privados también quedan incluidos por defecto. Si usas Copilot en repos privados, conviene hacer opt-out en github.com/settings/copilot. Toma 30 segundos

    • No deberían ser 30 segundos sino 0 segundos. Mi tiempo es mío, y no hay razón para que tenga que gastarlo en proteger mi privacidad
    • Decir “toma 30 segundos” es no entender la realidad. Para enterarte de esto tienes que revisar HN todos los días. Al final tienes que gastar 240 horas para enterarte de que existe el interruptor
    • Antes no era opt-in. En ese entonces no usaban los datos de uso para entrenamiento. Solo habían entrenado internamente, y según dijeron eso ayudó a una mejora de rendimiento. Hay más sobre eso en esta entrada del blog
    • La configuración no aparece para todos los usuarios. Si Copilot se administra a nivel de organización, esa opción desaparece. Y al salir de la organización, podrías volver automáticamente a quedar en opt-in
  • Me pregunto si basta con que una sola persona del equipo no haga opt-out para que Copilot pueda acceder a todo el repo. También quiero saber si hay alguna forma de verificar la configuración de los demás miembros del equipo

    • Igual que no puedes impedir que un compañero copie el código y lo pegue en un prompt, esta configuración tampoco se puede controlar. Desde la perspectiva de MS, tener opt-in por defecto es muchísimo más conveniente
  • Actualmente la configuración solo puede hacerse a nivel de usuario. Me pregunto si hay alguna forma de desactivarlo en toda la organización de una vez. Me preocupa que, si una sola persona deja activada la opción, el código de la organización pase a considerarse datos de entrenamiento

  • Reconozco que GitHub ha mostrado avisos en banner de forma constante. Pero yo tampoco los había leído hasta ver este post en HN

    • Pero la gente que solo usa git por CLI no verá ese banner
    • Aunque leas el banner o el correo, no dice exactamente qué configuración hay que cambiar para hacer opt-out. Al final el usuario tiene que buscarlo por su cuenta y solo más tarde descubre si lo configuró bien
    • Yo nunca he visto ese banner. Me pregunto dónde aparece
    • Es la primera vez que veo que una app resetea o pierde una configuración
  • Mi repositorio privado tiene código hecho un desastre, así que no hay de qué preocuparse. Más bien, si un LLM entrena con mi código, sale perdiendo

    • Yo también me sumo. Voy a arruinar la IA de M$ con mi código basura
    • Contaminar un LLM es una forma de resistencia que me parece interesante
  • Dan pena los que llevan mucho tiempo pagando GitHub y no vieron el aviso

    • A mí tampoco me gusta el esquema de opt-out, pero ahora mismo en todas las páginas de GitHub aparece un banner de aviso, y también enviaron correos