1 puntos por GN⁺ 2026-03-28 | 1 comentarios | Compartir por WhatsApp
  • A partir del 24 de abril de 2026, los datos de usuarios de Copilot Free, Pro y Pro+ se utilizarán para el entrenamiento y la mejora de modelos de IA, y los usuarios podrán rechazarlo mediante una configuración de exclusión voluntaria (opt-out)
  • Los usuarios de Business y Enterprise no se verán afectados por este cambio, y si anteriormente configuraron el rechazo, se mantendrá su elección actual
  • Los datos de entrenamiento incluyen información de interacciones reales de desarrollo, como código de entrada, resultados de salida, contexto alrededor del cursor y evaluaciones de feedback
  • Los repositorios empresariales, el contenido privado y los datos de usuarios con opt-out no se utilizarán para el entrenamiento, y los datos solo se compartirán con afiliadas de GitHub, como Microsoft
  • GitHub afirma que los datos de interacción reales de desarrolladores son clave para mejorar la precisión, la seguridad y la capacidad de detección de bugs, y destaca la participación voluntaria de los desarrolladores

Actualización de la política de uso de datos de interacción de GitHub Copilot

  • A partir del 24 de abril de 2026, los datos de interacción de los usuarios de Copilot Free, Pro y Pro+ (entradas, salidas, fragmentos de código y contexto relacionado) se usarán para entrenar y mejorar modelos de IA
    • Sin embargo, si el usuario hace opt-out, sus datos no se usarán para entrenamiento
    • Los usuarios de Copilot Business y Enterprise no se verán afectados por este cambio
  • Los usuarios que previamente configuraron el rechazo de recopilación de datos mantendrán su elección actual, y sus datos no se incluirán en el entrenamiento salvo que den su consentimiento explícito
  • GitHub señala que este cambio está alineado con las prácticas estándar de la industria y que contribuye a mejorar la precisión, la seguridad y la capacidad de detección de bugs del modelo
  • Los usuarios pueden cambiar su participación en cualquier momento desde la sección Privacy en la página de configuración

Necesidad del entrenamiento basado en datos reales

  • Los primeros modelos de Copilot se construyeron con base en datos públicos y muestras de código elaboradas manualmente
  • Después, el entrenamiento incluyó datos de interacción de empleados de Microsoft, y se confirmaron mejoras significativas, como un aumento en la tasa de aceptación (acceptance rate) en varios lenguajes de programación
  • Con base en esos resultados, GitHub decidió incluir datos de interacción de desarrolladores reales en el entrenamiento para reflejar diversos casos de uso del mundo real

Datos que se recopilan y utilizan

  • Los datos que pueden utilizarse para el entrenamiento del modelo incluyen lo siguiente
    • Resultados de salida que el usuario aceptó o modificó
    • Fragmentos de código y contenido de solicitudes ingresados en Copilot
    • Contexto de código alrededor del cursor

      • Comentarios y contenido de documentación escritos por el usuario
    • Nombres de archivos, estructura del repositorio y patrones de navegación

      • Interacciones con las funciones de Copilot (chat, sugerencias inline, etc.)
      • Feedback sobre las sugerencias (evaluaciones de me gusta/no me gusta)

Datos que no se incluyen en el entrenamiento

  • Los siguientes datos no se utilizarán para el entrenamiento del modelo
    • Datos de interacción de Copilot Business, Enterprise y repositorios propiedad de empresas
    • Datos de usuarios que hicieron opt-out
    • Contenido de issues, discussions y repositorios inactivos (private at rest)
      • Sin embargo, durante el uso de Copilot, el código de repositorios privados puede procesarse para ejecutar el servicio y, si no se hizo opt-out, puede incluirse en el entrenamiento

Alcance del intercambio de datos y la seguridad

  • Los datos recopilados pueden compartirse con afiliadas de GitHub (por ejemplo, Microsoft)
  • Sin embargo, no se comparten con proveedores externos de modelos de IA ni con prestadores de servicios externos
  • GitHub enfatiza que el avance del desarrollo asistido por IA depende de los datos de interacción de desarrolladores reales, y que ya utiliza datos de empleados de Microsoft y GitHub para entrenar modelos

Elección del usuario e impacto

  • Si el usuario acepta proporcionar sus datos, el modelo podrá mejorar en aspectos como comprensión del flujo de trabajo de desarrollo, sugerencias de código más precisas y seguras y mayor capacidad para detectar bugs de forma anticipada
  • Aunque no participe, podrá seguir usando sin cambios las funciones actuales de IA de Copilot
  • GitHub da la bienvenida a la participación voluntaria para mejorar la calidad de toda la comunidad de desarrolladores, y se puede consultar más información en la página de FAQ y discusiones de la comunidad

1 comentarios

 
GN⁺ 2026-03-28
Comentarios en Hacker News
  • Si miras la opción “Allow GitHub to use my data for AI model training” en la configuración de GitHub, se puede activar o desactivar
    Pero da risa que lo presenten como si fuera “acceso a funciones”
    Es un poco irónico que hablen de regalar tus datos gratis como si fuera un beneficio

    • Al menos el texto en sí no es confuso
      No es tan enredado como la casilla de “public access prevention” al crear un bucket de GCS
    • Aunque tengo desactivadas todas las funciones relacionadas con Copilot, me aparece Copilot Chat usage en 2%, y eso me desconcierta
      No lo uso a propósito en mi cuenta personal, así que no entiendo por qué queda registrado
    • La expresión “acceso a funciones” se siente demasiado manipuladora
      En realidad están tomando mis datos, pero lo hacen sonar como si yo estuviera perdiendo algo
    • Tal vez el “beneficio” sea que el modelo se vuelva a entrenar con mis datos y eso luego me ayude un poco a mí también
    • Al final, esa “función” no es más que hacer que mi estilo de programación quede reflejado en el siguiente modelo
  • Anunciaron que, a partir del 24 de abril, los datos de interacción de GitHub Copilot se usarán para entrenamiento de IA
    El valor predeterminado está activado, así que hay que desactivarlo manualmente
    Enlace a la página de configuración
    Me pregunto si en las cuentas empresariales también viene activado por defecto. Si es así, es una política bastante sospechosa

    • No puedo creer que venga activado por defecto
      También es poco considerado que en la entrada del blog no hayan puesto el enlace para desactivarlo
      Para apagarlo manualmente hay que ir a esta ruta → Privacy → “Allow GitHub to use my data for AI model training” → Disabled
    • Según la respuesta oficial en la comunidad,
      los datos de clientes empresariales no se usan para entrenamiento por contrato, y solo los usuarios individuales pueden controlarlo
    • Si para usuarios de negocios también fuera opt-in por defecto, eso sería una violación de políticas de seguridad y privacidad
      Hay políticas internas para evitar que el código de clientes se use en entrenamiento
    • Confirmaron que los datos de clientes de Copilot Business o Enterprise no se usan para entrenamiento
    • En el blog también se indica explícitamente que “los usuarios de Business y Enterprise no se ven afectados por este cambio”
  • Copilot no tiene forma de ignorar archivos sensibles como claves API o contraseñas
    En cuanto abres el IDE, esa información puede enviarse a Microsoft
    Enlace a la discusión relacionada

    • Gemini CLI bloquea variables de entorno que contienen cadenas como ‘AUTH’
      Pero tiene dos configuraciones de excepción y ninguna funciona
      Aunque envíes un PR, solo responde un bot y ningún humano lo revisa
      Además, Gemini 3, al refactorizar código open source, se niega a generar código si considera que eso va en contra de la intención del desarrollador original
    • En realidad, el problema también es guardar archivos sensibles en el repositorio
    • Este problema no se repite solo en Copilot, también aparece en issues de OpenAI Codex
    • Recuerdo que en entornos enterprise u organizacionales se podía configurar un ignore path
  • Si eres usuario de pago, creo que el valor predeterminado debería ser opt-in y no opt-out
    No entiendo cómo Mario Rodriguez (@mariorod) de GitHub tomó una decisión así

    • Si ves su README, sus intereses principales son el narrative shaping y los cambios en “How we Work”, así que este enfoque parece una extensión de eso
  • Desde GitHub y la era de la IA, moví todo mi código a repositorios git privados en mis propios servidores
    Ya no tiene sentido ponerse a pensar en licencias open source
    No pienso dejar que mi código se use para entrenamiento comercial de IA
    Si de verdad quieres hacer open source en serio, ya es hora de mudarte a Codeberg

    • Yo también tomé la misma decisión
      Solo doy mantenimiento a los proyectos open source existentes, y los nuevos los distribuyo únicamente como SaaS o binarios
      En cambio, sigo contribuyendo a proyectos de lenguajes y sistemas operativos, y estoy sintiendo la necesidad de volver a entrenar modelos
    • Probablemente en los TOS de GitHub haya una cláusula de excepción de licencia para operar el servicio
    • Ahora tengo Forgejo autoalojado, con runners en mi propio hardware, y estoy bastante satisfecho
  • En la UE me pregunto cuál es la base legal de esta política
    Los datos recopilados podrían incluir información personal identificable (PII), y bajo el GDPR
    se requiere un “consentimiento voluntario y explícito”

    • El GDPR prohíbe que opt-out sea el valor predeterminado
      Si pongo mi número de teléfono en una línea de código para hacer una prueba y eso se envía a Copilot, hasta podría iniciar acciones legales
    • En mi configuración de GitHub ni siquiera aparece esta opción, así que me pregunto si quizá solo aplica a usuarios de EE. UU.
  • Decir que “este enfoque coincide con el estándar de la industria” al final es la lógica de “está bien porque otros también lo hacen”

    • Pero Anthropic usa un esquema opt-in y hasta da descuentos si lo activas
  • Al final, GitHub parece querer conservar la base de código completa de todos los usuarios
    Hay una redacción que dice que los datos que usa Copilot podrían compartirse con todas las afiliadas de Microsoft

  • No encuentro la opción para cancelar la suscripción de Copilot
    Incluso viendo la configuración de facturación móvil no aparece
    Según la documentación oficial,
    si recibiste acceso gratuito como estudiante, docente o mantenedor de open source, no puedes cancelarlo

  • Aun así, no parece que GitHub haya intentado ocultar este cambio, y sí explicó públicamente el proceso de opt-out

    • Pero en el correo no hay enlace directo y tampoco mencionan el nombre exacto de la opción
      Se siente como un típico dark pattern
    • En la práctica, hacer opt-out no es tan sencillo
      En la app de Android es difícil incluso encontrar la página de configuración, y la página ni siquiera funciona bien