75 puntos por GN⁺ 22 일 전 | 10 comentarios | Compartir por WhatsApp
  • Primer conjunto de datos de personas en coreano a gran escala que refleja distribuciones demográficas, geográficas y de personalidad reales, basado en datos públicos de Statistics Korea, la Suprema Corte de Corea y el Servicio Nacional de Seguro de Salud, entre otros
  • Incluye 7 millones de personas en 1 millón de registros y está compuesto por 26 campos como nombre, sexo, edad, estado civil, nivel educativo, ocupación y región de residencia
  • Fue creado con NeMo Data Designer, un sistema de generación de datos sintéticos de nivel empresarial, y el modelo google/gemma-4-31B-it
  • En comparación con conjuntos de datos de personas existentes, refleja con mayor fidelidad a la población mayor, las zonas rurales y distribuciones diversas de educación y ocupación, lo que ayuda a reducir sesgos en modelos de IA soberana
  • Se puede usar libremente tanto con fines comerciales como no comerciales bajo la licencia CC BY 4.0

Problemas de las personas coreanas generadas por LLM existentes

  • Una persona es una descripción de las características, intereses, personalidad y ocupación propias de un individuo, y un conjunto de datos compuesto por personas debe reflejar correctamente las características culturales y de distribución de ese grupo
  • Incluso si se le da a un LLM extranjero un prompt como “genera perfiles de personas realistas y diversas de la sociedad coreana”, los resultados quedan gravemente distorsionados
    • El 40% de las personas generadas elige la ensalada como su comida favorita, o aparecen resultados poco realistas como “administro un huerto de manzanas en Andong, Gyeongsangbuk-do”
  • Al muestrear aleatoriamente 2,000 personas coreanas con Claude Opus 4.7, se observó un sesgo extremo en la distribución ocupacional: 77.6% fueron generadas como “agricultores de yuzu”
  • En el caso de GPT-5.4, 90.1% fueron generadas como “cuidadores geriátricos”
  • Existen sesgos que no corresponden a la realidad coreana en todos los aspectos, como distribución urbana, tipos de familia, forma de tenencia de vivienda y preferencias alimentarias

Resumen y objetivo del conjunto de datos

  • Conjunto de datos abierto de personas sintéticas diseñado para reflejar ampliamente la diversidad y características de la población de Corea del Sur
  • Escrito en coreano para que cualquiera pueda leerlo fácilmente
  • El objetivo principal es mitigar datos faltantes y posibles sesgos en los datos de entrenamiento al construir sistemas de IA soberana
  • Se enfoca en corregir sesgos en conjuntos de datos de personas existentes usados para generar datos sintéticos, especialmente en los ejes de edad, región, nivel educativo y ocupación

Fuentes de datos y método de creación

  • Uso de datos censales de KOSIS (Portal Nacional de Estadísticas de Statistics Korea) sobre sexo, región, industria, ocupación, viajes y actividades de ocio
  • Uso de datos de la Suprema Corte sobre año de nacimiento, sexo y nombres; información de chequeos médicos del Servicio Nacional de Seguro de Salud; y resultados de la encuesta de consumo de alimentos del Korea Rural Economic Institute
  • NAVER Cloud aportó datos iniciales y conocimiento especializado del dominio en la etapa de diseño
  • Se utilizaron un modelo gráfico probabilístico (PGM) propio, el modelo google/gemma-4-31B-it con licencia Apache-2.0, y los métodos de validación y evaluación de NeMo Data Designer
  • Abarca nombre, edad, sexo, región, estado civil, familia, vivienda, educación, campo de especialidad, actividad económica, ingresos, sector industrial, grupo ocupacional, presión arterial, glucosa, circunferencia de cintura, BMI, viajes, ocio, tipo de restaurante preferido y frecuencia de delivery y comida fuera de casa, entre otros
  • Todos los datos reflejan distribuciones reales, pero fueron sintetizados de forma completamente artificial, y cualquier similitud con personas reales es coincidencia

Escala y composición del conjunto de datos

  • 1 millón de registros compuestos por un total de 1.7 mil millones de tokens (1 mil millones de tokens de personas)
  • 26 campos: 7 campos de persona, 6 campos de atributos de persona, 12 campos de contexto demográfico y geográfico, y 1 identificador único
  • Cobertura integral de 17 ciudades y provincias y 252 ciudades, condados y distritos administrativos
  • Más de 209 mil combinaciones únicas de nombres completos (118 apellidos y 21,400 nombres)
  • 7 tipos de persona: ocupación, deportes, arte, viajes, comida, familia y resumen
  • Atributos adicionales de persona: trasfondo cultural, tecnología y especialización, metas y aspiraciones profesionales, pasatiempos e intereses

Distribución de nombres

  • Los datos de nombres actualmente disponibles públicamente en Corea del Sur están limitados solo a partir de 2008
  • Nemotron-Personas-Korea es el primer conjunto de datos público basado en datos completos de nombres de Corea del Sur desde 1940
  • Resuelve problemas de asignación de nombres incompatibles con su época, como “¿Kim Hayul de 82 años?” o “¿Kim Sunja de 21 años?”
  • En la distribución de apellidos, los cinco más comunes —Kim (21.5%), Lee (14.7%), Park (8.5%), Jeong (4.8%) y Choi (4.7%)— representan alrededor del 54% del total
  • Los nombres reflejan tendencias generacionales de nombramiento según sexo y año de nacimiento
    • Mujeres: coexisten nombres de generaciones mayores como Yeongsuk, Jeongsuk y Sunja, y nombres de generaciones jóvenes como Jiyoung, Yujin y Jihyeon
    • Hombres: nombres modernos como Jihoon, Hyunwoo y Junho figuran entre los más comunes
  • El nombre completo más frecuente es Kim Youngsuk, en línea con resultados de encuestas reales

Distribución por edad

  • Tiene una estructura tipo vasija, más ancha en el centro, que refleja fielmente la estructura poblacional actual marcada a la vez por baja natalidad y envejecimiento
  • El tramo con mayor peso es 50 a 64 años (proporción aproximada de 0.09), correspondiente a la generación del baby boom de los años 60 y 70
  • En la población mayor de 70 años, la proporción de mujeres es claramente superior a la de hombres
    • En el rango de 80 a 89 años, la proporción de mujeres es aproximadamente 1.52 veces la de hombres

Distribución del estado civil

  • La proporción de solteros supera el 95% entre los 19 y 24 años, y cae de 55% a 31% en los 30, en línea con la tendencia al matrimonio tardío y una edad promedio del primer matrimonio de 31 a 33 años
  • La proporción de personas con cónyuge sube al 64% a partir de los 35 años y alcanza su pico en el 78% a finales de los 50
  • La viudez aumenta bruscamente a partir de los 60 y llega al 66% a finales de los 80 y a 74%–81% en los 90
  • El divorcio es más alto entre los 50 y principios de los 60, con alrededor de 12%, en línea con la tendencia del “divorcio gris”

Distribución de tipos de hogar

  • En todos los grupos de edad, los hogares de pareja + hijos solteros tienen la mayor proporción, con un máximo de 63.6% a los 19 años
  • Después de los 50, los hogares de pareja aumentan rápidamente y alcanzan un pico de 45.7% entre los 65 y 69 años
  • Los hogares unipersonales muestran un patrón bimodal: a inicios de los 20 (15%–22%) y después de los 75 años (21%–32%)
  • Los hogares de madre + hijos solteros (5%–14%) superan a los de padre + hijos solteros (2%–5%), lo que confirma una asimetría de género en los hogares monoparentales

Distribución del nivel educativo

  • En la generación joven de 20 a 34 años, la proporción de graduados de universidad de 4 años supera el 50%, y si se incluyen los institutos técnicos, cerca del 75% tiene estudios superiores
  • Entre las personas de 80 años o más, quienes no tienen escolaridad (36%) y quienes solo cursaron primaria (37%) representan en conjunto el 73%
  • Por región, Sejong (49.0%), Seúl (45.1%) y Daejeon (39.7%) tienen las proporciones más altas de licenciatura o superior
    • En Sejong influye la llegada de funcionarios y personal de investigación con alta formación tras el traslado del complejo gubernamental

Distribución ocupacional

  • Profesionales y trabajadores de oficina representan la mayor proporción, lo que refleja una estructura económica basada en servicios y conocimiento
  • Dentro de ventas, los vendedores de comercio en línea ocupan el primer lugar con 19.8%, lo que confirma el alto peso del comercio electrónico
  • En trabajo manual no calificado, hay concentración en guardias de edificios (21.3%) y personal de limpieza de edificios (16.0%)
  • Los militares representan alrededor de 1% del total de ocupados, y más de dos tercios pertenecen al ejército

Restricciones y limitaciones técnicas

  • Debido a restricciones realistas de disponibilidad y actualidad de los datos públicos y del modelo PGM, se aplicaron supuestos de independencia entre ciertas variables
    • Por ejemplo, al asignar ocupaciones detalladas se asume que sexo, ingresos, educación y especialidad influyen de manera independiente, sin reflejar interacciones
  • No se incluyó género (gender) porque no existen estadísticas públicas integrales sobre ello en Corea del Sur
  • Solo incluye personas adultas de 19 años o más
  • Se excluyeron personas relacionadas con clientes empresariales de sectores como finanzas y salud

Mejoras frente al enfoque dependiente de LLM

  • Cuando se depende solo de LLM, la distribución urbana tendía a concentrarse en ciudades como Suncheon y Changwon, pero Nemotron-Personas-Korea refleja distribuciones proporcionales a la población real en lugares como Hwaseong en Gyeonggi, Namyangju y Songpa-gu en Seúl
  • Las formas familiares pasaron de limitarse casi exclusivamente a hogares unipersonales a incluir diversas configuraciones, como convivencia con cónyuge, cónyuge + hijos o padres
  • La tenencia de vivienda también pasó de 100% vivienda propia a reflejar las proporciones reales entre propiedad y alquiler
  • La distribución de comida dejó de estar dominada por ensaladas para reflejar la cultura alimentaria real, con bibimbap, comida japonesa, pollo, galbi, samgyeopsal, tteokbokki, snacks coreanos, pan, doenjang-jjigae y jajangmyeon, entre otros

Ejemplos de reflejo cultural

  • “Jeong Jun, de 33 años, miembro de la generación canguro, que al salir del trabajo se relaja del cansancio del día comiendo samgyeopsal con soju junto a sus colegas” — residente de Songpa-gu, Seúl; universidad de 4 años; soltero; vive con sus padres; refleja el fenómeno de la generación canguro en la sociedad coreana
  • “Kim Chunhui, de 73 años, de Ulsan, a quien le gusta la música de Sim Soo-bong y subir fotos al chat grupal de la familia” — mujer, sin escolaridad, con cónyuge, sin empleo; refleja a la población femenina de edad avanzada

Por qué un conjunto de datos de personas ayuda a los LLM

  • Cada persona posee conocimientos propios, y una persona es un fenotipo que condensa ese conocimiento particular
    • Ejemplo: una persona de electricista puede servir como medio para extraer conocimientos relacionados con electricidad desde el LLM
  • En los datos sintéticos, la diversidad es un indicador muy importante, y las personas son precisamente la mejor fuente de diversidad
  • Es posible generar diversos datos sintéticos de entrenamiento por persona con formatos como “crea un problema de razonamiento lógico relacionado con {la persona dada}”

Casos de uso reales

  • Mejora del rendimiento general en uso de herramientas: se entrega al user-LLM un conjunto de herramientas y una persona para sintetizar datos y entrenar. Nemotron-Nano-9B-v2-Japanese adoptó esta metodología y logró el primer lugar en el leaderboard de Nejumi. También se introdujo un método similar en Nemotron Nano v3 y Super v3
  • Mejora de la seguridad del modelo: se usa como dato semilla para el conjunto de datos Sensitive-safety-category-refusals (SSCR). El conjunto SSCR está incluido en nemotron-safety-blend

Cómo usarlo y licencia

  • Se puede cargar con la librería datasets de Python llamando a load_dataset("nvidia/Nemotron-Personas-Korea")
  • Bajo licencia CC BY 4.0, se puede usar libremente tanto con fines comerciales como no comerciales
  • También se ofrece por separado una versión extendida que puede usarse directamente en NeMo Data Designer

10 comentarios

 
calmlake79 22 일 전

De hecho, ya estaba pensando en publicarlo una vez en GeekNews..

https://manyperson.com/

Estoy creando un servicio de personas relacionado. Igualmente, usé datos de MDIS y yo utilicé Gemini.

 
recast7838 22 일 전

Gracias por el material.

 
rlaaudgjs5638 22 일 전

Gracias por el buen material. Así es como se construyen estas personas.

 
dongho42 22 일 전

¡Es útil!

 
civilian 22 일 전

https://github.com/civilian7/korean-people-persona

Por necesidad personal,
subí un programa en Python que puede convertir los datos publicados a sqlite3,
y un ejemplo de servidor MCP.

 
nvkzrx 22 일 전

Me parece que hasta hace bastante poco la tasa de ingreso a universidades de 4 años entre las personas de veintitantos no llegaba al 50%, pero ahora parece que ya la superó.

 
nvkzrx 22 일 전

Hay muchas estadísticas interesantes.

 
xguru 22 일 전

Comparadas con las que crean los LLM extranjeros, estas personas se sienten demasiado realistas.

"El señor Park Ho-cheol es un veterano asesor del centro de seguros de Wonju que, con unos audífonos puestos, soporta en silencio decenas de reclamos airados al día y explica cláusulas complejas de seguros de forma sencilla, como si te las explicara el señor de al lado.

"Ha pasado décadas entre los tranquilos paisajes a la orilla del río Imjin en Paju, y tras graduarse de la preparatoria se metió de lleno al trabajo de plomería, acumulando una profunda sabiduría de vida aprendida con el cuerpo. Últimamente también se mantiene al tanto de nuevas ideas viendo en su smartphone reseñas de los últimos electrodomésticos y videos sobre lo que pasa en el mundo."