Los proveedores de LLM suelen recopilar y usar para entrenar y mejorar sus modelos los datos de los "servicios para consumidores" que los usuarios comunes usan gratis o mediante suscripción. En cambio, los datos de las API o de los servicios empresariales que usan empresas o desarrolladores pagando normalmente quedan protegidos por contrato para que no se utilicen en el entrenamiento.
Aquí hay un punto importante que debemos señalar. Es la pregunta de fondo: "¿De verdad un producto de pago no usa mis datos para entrenar en absoluto?"
En los servicios empresariales de OpenAI se indica por contrato que los datos no se usan para entrenamiento, pero ¿cómo se puede verificar técnicamente esa "promesa" y cómo se puede garantizar legal o institucionalmente? Por ahora, como no podemos vigilar directamente el pipeline de entrenamiento de OpenAI, este es un terreno que inevitablemente depende por completo de la ética del proveedor y del contrato.
La misma pregunta, "¿No existe el riesgo de que mis datos se integren al conocimiento del modelo?", no es un problema exclusivo de DeepSeek, y seguimos teniendo como tarea pendiente que no existe una solución perfecta salvo "comprar" condiciones contractuales más seguras según el presupuesto y la necesidad (por ejemplo: API, plan empresarial), o alojar el modelo por cuenta propia para lograr mayor integridad técnica.
Decir que "como es un LLM chino automáticamente roba datos personales" es una expresión exagerada, y el riesgo estructural sobre el uso de datos no es muy distinto en los LLM de Estados Unidos. Lo importante es revisar con cuidado el tipo de servicio y las condiciones del contrato, y elegir pagar para proteger nuestros datos o bien optar por una alternativa técnica (como el self-hosting).
6 comentarios
Los proveedores de LLM suelen recopilar y usar para entrenar y mejorar sus modelos los datos de los "servicios para consumidores" que los usuarios comunes usan gratis o mediante suscripción. En cambio, los datos de las API o de los servicios empresariales que usan empresas o desarrolladores pagando normalmente quedan protegidos por contrato para que no se utilicen en el entrenamiento.
Aquí hay un punto importante que debemos señalar. Es la pregunta de fondo: "¿De verdad un producto de pago no usa mis datos para entrenar en absoluto?"
En los servicios empresariales de OpenAI se indica por contrato que los datos no se usan para entrenamiento, pero ¿cómo se puede verificar técnicamente esa "promesa" y cómo se puede garantizar legal o institucionalmente? Por ahora, como no podemos vigilar directamente el pipeline de entrenamiento de OpenAI, este es un terreno que inevitablemente depende por completo de la ética del proveedor y del contrato.
La misma pregunta, "¿No existe el riesgo de que mis datos se integren al conocimiento del modelo?", no es un problema exclusivo de DeepSeek, y seguimos teniendo como tarea pendiente que no existe una solución perfecta salvo "comprar" condiciones contractuales más seguras según el presupuesto y la necesidad (por ejemplo: API, plan empresarial), o alojar el modelo por cuenta propia para lograr mayor integridad técnica.
Decir que "como es un LLM chino automáticamente roba datos personales" es una expresión exagerada, y el riesgo estructural sobre el uso de datos no es muy distinto en los LLM de Estados Unidos. Lo importante es revisar con cuidado el tipo de servicio y las condiciones del contrato, y elegir pagar para proteger nuestros datos o bien optar por una alternativa técnica (como el self-hosting).
Parece que no hay algo como un plan de suscripción aparte.
¿Tiene sentido?
Es un descuento del 75% en la información personal.
Uf... no tiene sentido esa lógica de que un LLM me roba mis datos personales...
¿Qué parte le parece tan absurda?