NVIDIA Nemotron-Personas-Korea - conjunto de datos sintético de 1 millón de personas basado en la di

Primer conjunto de datos de personas en coreano a gran escala que refleja distribuciones demográficas, geográficas y de personalidad reales, basado en datos públicos de Statistics Korea, la Suprema Corte de Corea y el Servicio Nacional de Seguro de Salud, entre otros
Incluye 7 millones de personas en 1 millón de registros y está compuesto por 26 campos como nombre, sexo, edad, estado civil, nivel educativo, ocupación y región de residencia
Fue creado con NeMo Data Designer, un sistema de generación de datos sintéticos de nivel empresarial, y el modelo google/gemma-4-31B-it
En comparación con conjuntos de datos de personas existentes, refleja con mayor fidelidad a la población mayor, las zonas rurales y distribuciones diversas de educación y ocupación, lo que ayuda a reducir sesgos en modelos de IA soberana
Se puede usar libremente tanto con fines comerciales como no comerciales bajo la licencia CC BY 4.0

Problemas de las personas coreanas generadas por LLM existentes

Una persona es una descripción de las características, intereses, personalidad y ocupación propias de un individuo, y un conjunto de datos compuesto por personas debe reflejar correctamente las características culturales y de distribución de ese grupo
Incluso si se le da a un LLM extranjero un prompt como “genera perfiles de personas realistas y diversas de la sociedad coreana”, los resultados quedan gravemente distorsionados
- El 40% de las personas generadas elige la ensalada como su comida favorita, o aparecen resultados poco realistas como “administro un huerto de manzanas en Andong, Gyeongsangbuk-do”
Al muestrear aleatoriamente 2,000 personas coreanas con Claude Opus 4.7, se observó un sesgo extremo en la distribución ocupacional: 77.6% fueron generadas como “agricultores de yuzu”
En el caso de GPT-5.4, 90.1% fueron generadas como “cuidadores geriátricos”
Existen sesgos que no corresponden a la realidad coreana en todos los aspectos, como distribución urbana, tipos de familia, forma de tenencia de vivienda y preferencias alimentarias

Resumen y objetivo del conjunto de datos

Conjunto de datos abierto de personas sintéticas diseñado para reflejar ampliamente la diversidad y características de la población de Corea del Sur
Escrito en coreano para que cualquiera pueda leerlo fácilmente
El objetivo principal es mitigar datos faltantes y posibles sesgos en los datos de entrenamiento al construir sistemas de IA soberana
Se enfoca en corregir sesgos en conjuntos de datos de personas existentes usados para generar datos sintéticos, especialmente en los ejes de edad, región, nivel educativo y ocupación

Fuentes de datos y método de creación

Uso de datos censales de KOSIS (Portal Nacional de Estadísticas de Statistics Korea) sobre sexo, región, industria, ocupación, viajes y actividades de ocio
Uso de datos de la Suprema Corte sobre año de nacimiento, sexo y nombres; información de chequeos médicos del Servicio Nacional de Seguro de Salud; y resultados de la encuesta de consumo de alimentos del Korea Rural Economic Institute
NAVER Cloud aportó datos iniciales y conocimiento especializado del dominio en la etapa de diseño
Se utilizaron un modelo gráfico probabilístico (PGM) propio, el modelo google/gemma-4-31B-it con licencia Apache-2.0, y los métodos de validación y evaluación de NeMo Data Designer
Abarca nombre, edad, sexo, región, estado civil, familia, vivienda, educación, campo de especialidad, actividad económica, ingresos, sector industrial, grupo ocupacional, presión arterial, glucosa, circunferencia de cintura, BMI, viajes, ocio, tipo de restaurante preferido y frecuencia de delivery y comida fuera de casa, entre otros
Todos los datos reflejan distribuciones reales, pero fueron sintetizados de forma completamente artificial, y cualquier similitud con personas reales es coincidencia

Escala y composición del conjunto de datos

1 millón de registros compuestos por un total de 1.7 mil millones de tokens (1 mil millones de tokens de personas)
26 campos: 7 campos de persona, 6 campos de atributos de persona, 12 campos de contexto demográfico y geográfico, y 1 identificador único
Cobertura integral de 17 ciudades y provincias y 252 ciudades, condados y distritos administrativos
Más de 209 mil combinaciones únicas de nombres completos (118 apellidos y 21,400 nombres)
7 tipos de persona: ocupación, deportes, arte, viajes, comida, familia y resumen
Atributos adicionales de persona: trasfondo cultural, tecnología y especialización, metas y aspiraciones profesionales, pasatiempos e intereses

Distribución de nombres

Los datos de nombres actualmente disponibles públicamente en Corea del Sur están limitados solo a partir de 2008
Nemotron-Personas-Korea es el primer conjunto de datos público basado en datos completos de nombres de Corea del Sur desde 1940
Resuelve problemas de asignación de nombres incompatibles con su época, como “¿Kim Hayul de 82 años?” o “¿Kim Sunja de 21 años?”
En la distribución de apellidos, los cinco más comunes —Kim (21.5%), Lee (14.7%), Park (8.5%), Jeong (4.8%) y Choi (4.7%)— representan alrededor del 54% del total
Los nombres reflejan tendencias generacionales de nombramiento según sexo y año de nacimiento
- Mujeres: coexisten nombres de generaciones mayores como Yeongsuk, Jeongsuk y Sunja, y nombres de generaciones jóvenes como Jiyoung, Yujin y Jihyeon
- Hombres: nombres modernos como Jihoon, Hyunwoo y Junho figuran entre los más comunes
El nombre completo más frecuente es Kim Youngsuk, en línea con resultados de encuestas reales

Distribución por edad

Tiene una estructura tipo vasija, más ancha en el centro, que refleja fielmente la estructura poblacional actual marcada a la vez por baja natalidad y envejecimiento
El tramo con mayor peso es 50 a 64 años (proporción aproximada de 0.09), correspondiente a la generación del baby boom de los años 60 y 70
En la población mayor de 70 años, la proporción de mujeres es claramente superior a la de hombres
- En el rango de 80 a 89 años, la proporción de mujeres es aproximadamente 1.52 veces la de hombres

Distribución del estado civil

La proporción de solteros supera el 95% entre los 19 y 24 años, y cae de 55% a 31% en los 30, en línea con la tendencia al matrimonio tardío y una edad promedio del primer matrimonio de 31 a 33 años
La proporción de personas con cónyuge sube al 64% a partir de los 35 años y alcanza su pico en el 78% a finales de los 50
La viudez aumenta bruscamente a partir de los 60 y llega al 66% a finales de los 80 y a 74%–81% en los 90
El divorcio es más alto entre los 50 y principios de los 60, con alrededor de 12%, en línea con la tendencia del “divorcio gris”

Distribución de tipos de hogar

En todos los grupos de edad, los hogares de pareja + hijos solteros tienen la mayor proporción, con un máximo de 63.6% a los 19 años
Después de los 50, los hogares de pareja aumentan rápidamente y alcanzan un pico de 45.7% entre los 65 y 69 años
Los hogares unipersonales muestran un patrón bimodal: a inicios de los 20 (15%–22%) y después de los 75 años (21%–32%)
Los hogares de madre + hijos solteros (5%–14%) superan a los de padre + hijos solteros (2%–5%), lo que confirma una asimetría de género en los hogares monoparentales

Distribución del nivel educativo

En la generación joven de 20 a 34 años, la proporción de graduados de universidad de 4 años supera el 50%, y si se incluyen los institutos técnicos, cerca del 75% tiene estudios superiores
Entre las personas de 80 años o más, quienes no tienen escolaridad (36%) y quienes solo cursaron primaria (37%) representan en conjunto el 73%
Por región, Sejong (49.0%), Seúl (45.1%) y Daejeon (39.7%) tienen las proporciones más altas de licenciatura o superior
- En Sejong influye la llegada de funcionarios y personal de investigación con alta formación tras el traslado del complejo gubernamental

Distribución ocupacional

Profesionales y trabajadores de oficina representan la mayor proporción, lo que refleja una estructura económica basada en servicios y conocimiento
Dentro de ventas, los vendedores de comercio en línea ocupan el primer lugar con 19.8%, lo que confirma el alto peso del comercio electrónico
En trabajo manual no calificado, hay concentración en guardias de edificios (21.3%) y personal de limpieza de edificios (16.0%)
Los militares representan alrededor de 1% del total de ocupados, y más de dos tercios pertenecen al ejército

Restricciones y limitaciones técnicas

Debido a restricciones realistas de disponibilidad y actualidad de los datos públicos y del modelo PGM, se aplicaron supuestos de independencia entre ciertas variables
- Por ejemplo, al asignar ocupaciones detalladas se asume que sexo, ingresos, educación y especialidad influyen de manera independiente, sin reflejar interacciones
No se incluyó género (gender) porque no existen estadísticas públicas integrales sobre ello en Corea del Sur
Solo incluye personas adultas de 19 años o más
Se excluyeron personas relacionadas con clientes empresariales de sectores como finanzas y salud

Mejoras frente al enfoque dependiente de LLM

Cuando se depende solo de LLM, la distribución urbana tendía a concentrarse en ciudades como Suncheon y Changwon, pero Nemotron-Personas-Korea refleja distribuciones proporcionales a la población real en lugares como Hwaseong en Gyeonggi, Namyangju y Songpa-gu en Seúl
Las formas familiares pasaron de limitarse casi exclusivamente a hogares unipersonales a incluir diversas configuraciones, como convivencia con cónyuge, cónyuge + hijos o padres
La tenencia de vivienda también pasó de 100% vivienda propia a reflejar las proporciones reales entre propiedad y alquiler
La distribución de comida dejó de estar dominada por ensaladas para reflejar la cultura alimentaria real, con bibimbap, comida japonesa, pollo, galbi, samgyeopsal, tteokbokki, snacks coreanos, pan, doenjang-jjigae y jajangmyeon, entre otros

Ejemplos de reflejo cultural

“Jeong Jun, de 33 años, miembro de la generación canguro, que al salir del trabajo se relaja del cansancio del día comiendo samgyeopsal con soju junto a sus colegas” — residente de Songpa-gu, Seúl; universidad de 4 años; soltero; vive con sus padres; refleja el fenómeno de la generación canguro en la sociedad coreana
“Kim Chunhui, de 73 años, de Ulsan, a quien le gusta la música de Sim Soo-bong y subir fotos al chat grupal de la familia” — mujer, sin escolaridad, con cónyuge, sin empleo; refleja a la población femenina de edad avanzada

Por qué un conjunto de datos de personas ayuda a los LLM

Cada persona posee conocimientos propios, y una persona es un fenotipo que condensa ese conocimiento particular
- Ejemplo: una persona de electricista puede servir como medio para extraer conocimientos relacionados con electricidad desde el LLM
En los datos sintéticos, la diversidad es un indicador muy importante, y las personas son precisamente la mejor fuente de diversidad
Es posible generar diversos datos sintéticos de entrenamiento por persona con formatos como “crea un problema de razonamiento lógico relacionado con {la persona dada}”

Casos de uso reales

Mejora del rendimiento general en uso de herramientas: se entrega al user-LLM un conjunto de herramientas y una persona para sintetizar datos y entrenar. Nemotron-Nano-9B-v2-Japanese adoptó esta metodología y logró el primer lugar en el leaderboard de Nejumi. También se introdujo un método similar en Nemotron Nano v3 y Super v3
Mejora de la seguridad del modelo: se usa como dato semilla para el conjunto de datos Sensitive-safety-category-refusals (SSCR). El conjunto SSCR está incluido en nemotron-safety-blend

Cómo usarlo y licencia

Se puede cargar con la librería datasets de Python llamando a load_dataset("nvidia/Nemotron-Personas-Korea")
Bajo licencia CC BY 4.0, se puede usar libremente tanto con fines comerciales como no comerciales
También se ofrece por separado una versión extendida que puede usarse directamente en NeMo Data Designer

NVIDIA Nemotron-Personas-Korea - conjunto de datos sintético de 1 millón de personas basado en la distribución real de la población de Corea del Sur

Problemas de las personas coreanas generadas por LLM existentes

Resumen y objetivo del conjunto de datos

Fuentes de datos y método de creación

Escala y composición del conjunto de datos

Distribución de nombres

Distribución por edad

Distribución del estado civil

Distribución de tipos de hogar

Distribución del nivel educativo

Distribución ocupacional

Restricciones y limitaciones técnicas

Mejoras frente al enfoque dependiente de LLM

Ejemplos de reflejo cultural

Por qué un conjunto de datos de personas ayuda a los LLM

Casos de uso reales

Cómo usarlo y licencia

10 comentarios

NVIDIA Nemotron-Personas-Korea - conjunto de datos sintético de 1 millón de personas basado en la distribución real de la población de Corea del Sur

Problemas de las personas coreanas generadas por LLM existentes

Resumen y objetivo del conjunto de datos

Fuentes de datos y método de creación

Escala y composición del conjunto de datos

Distribución de nombres

Distribución por edad

Distribución del estado civil

Distribución de tipos de hogar

Distribución del nivel educativo

Distribución ocupacional

Restricciones y limitaciones técnicas

Mejoras frente al enfoque dependiente de LLM

Ejemplos de reflejo cultural

Por qué un conjunto de datos de personas ayuda a los LLM

Casos de uso reales

Cómo usarlo y licencia

Lecturas relacionadas

10 comentarios