60 puntos por GN⁺ 3 일 전 | 10 comentarios | Compartir por WhatsApp
  • Primer dataset masivo de personas en coreano que refleja distribuciones demográficas, geográficas y de personalidad reales, basado en datos públicos de Statistics Korea, la Corte Suprema de Corea y el Servicio Nacional de Seguro de Salud, entre otros
  • Incluye 7 millones de personas en 1 millón de registros, organizados en 26 campos como nombre, género, edad, estado civil, nivel educativo, ocupación y región de residencia
  • Fue creado con NeMo Data Designer, un sistema de generación de datos sintéticos de nivel empresarial, y el modelo google/gemma-4-31B-it
  • En comparación con datasets de personas previos, refleja con mayor fidelidad a adultos mayores, zonas rurales y una distribución más diversa de educación y ocupaciones, contribuyendo a reducir sesgos en modelos de IA soberana
  • Disponible bajo licencia CC BY 4.0, por lo que puede usarse libremente tanto con fines comerciales como no comerciales

Problemas de las personas coreanas generadas por los LLM actuales

  • Una persona es una descripción de las características, intereses, personalidad y profesión propias de un individuo, y un dataset de personas debe reflejar correctamente las características culturales y distributivas del grupo al que representa
  • Incluso si se le da a un LLM extranjero un prompt como “genera perfiles de personas realistas y diversas de la sociedad coreana”, los resultados quedan gravemente distorsionados
    • El 40% de las personas generadas eligieron la ensalada como su comida favorita, o aparecieron resultados poco realistas como “administro un huerto de manzanas en Andong, Gyeongsang del Norte”
  • En una muestra aleatoria de 2,000 personas coreanas generadas con Claude Opus 4.7, se observó un sesgo extremo: 77.6% fueron generadas con la ocupación de “agricultor de cultivo de yuzu”
  • En el caso de GPT-5.4, 90.1% fueron generadas como “cuidador geriátrico”
  • Existen sesgos que no coinciden con la realidad del país en todos los aspectos, incluidos distribución urbana, estructura familiar, forma de tenencia de la vivienda y preferencias alimentarias

Resumen y objetivo del dataset

  • Dataset open source de personas sintéticas diseñado para reflejar ampliamente la diversidad y características de la población de Corea del Sur
  • Escrito en coreano para que cualquiera pueda leerlo con facilidad
  • Su objetivo principal es mitigar datos faltantes y sesgos potenciales en los datos de entrenamiento al construir sistemas de IA soberana
  • Se enfoca en resolver los sesgos de los datasets de personas usados para generar datos sintéticos, especialmente en edad, región, nivel educativo y ocupación

Fuentes de datos y método de creación

  • Usa datos censales de KOSIS (Portal Nacional de Estadística de Statistics Korea) relacionados con género, región, industria, ocupación, viajes y ocio
  • También usa datos de la Corte Suprema sobre año de nacimiento, género y nombres; información de chequeos médicos del Servicio Nacional de Seguro de Salud; y resultados de la encuesta de consumo alimentario del Instituto Coreano de Economía Rural
  • NAVER Cloud aportó datos iniciales y conocimiento especializado del dominio en la etapa de diseño
  • Se emplearon un modelo gráfico probabilístico (PGM) propio, el modelo google/gemma-4-31B-it con licencia Apache-2.0 y los métodos de validación y evaluación de NeMo Data Designer
  • Abarca nombre, edad, género, región, estado civil, familia, vivienda, educación, área de especialización, actividad económica, ingresos, sector industrial, grupo ocupacional, presión arterial, glucosa en sangre, circunferencia de cintura, BMI, viajes, ocio, tipo de restaurante preferido y frecuencia de delivery y comidas fuera de casa, entre otros
  • Todos los datos reflejan distribuciones reales, pero fueron sintetizados de forma completamente artificial, y cualquier similitud con personas reales es coincidencia

Escala y composición del dataset

  • Consta de 1 millón de registros con un total de 1.7 mil millones de tokens (1 mil millones de tokens solo en personas)
  • 26 campos: 7 campos de persona, 6 campos de atributos de persona, 12 campos de contexto demográfico y geográfico, y 1 identificador único
  • Cobertura administrativa completa de 17 ciudades/provincias y 252 ciudades, condados y distritos
  • Más de 209 mil combinaciones únicas de nombre completo (118 apellidos, 21,400 nombres)
  • 7 tipos de persona: ocupación, deportes, arte, viajes, comida, familia y resumen
  • Atributos adicionales de persona: trasfondo cultural, habilidades y especialidad, metas y aspiraciones profesionales, hobbies e intereses

Distribución de nombres

  • Los datos de nombres actualmente publicados en Corea del Sur están limitados a 2008 en adelante
  • Nemotron-Personas-Korea es el primer dataset público basado en datos completos de nombres del país desde 1940
  • Resuelve problemas de asignación de nombres fuera de época, como “¿Kim Hayul, de 82 años?” o “¿Kim Sunja, de 21 años?”
  • En la distribución de apellidos, los 5 principales —Kim (21.5%), Lee (14.7%), Park (8.5%), Jeong (4.8%) y Choi (4.7%)— representan alrededor del 54% del total
  • Los nombres reflejan tendencias generacionales de asignación según género y año de nacimiento
    • Mujeres: conviven nombres de generaciones mayores como Yeongsuk, Jeongsuk y Sunja, con nombres de generaciones jóvenes como Jiyeong, Yujin y Jihyeon
    • Hombres: nombres modernos como Jihoon, Hyeonwoo y Junho ocupan los primeros lugares
  • El nombre completo más frecuente es Kim Yeongsuk, en línea con investigaciones reales

Distribución por edad

  • Tiene una estructura en forma de tinaja, con una parte media más ancha, que refleja fielmente la estructura demográfica actual marcada por baja natalidad y envejecimiento
  • El tramo más grueso es el de 50 a 64 años (proporción aproximada de 0.09), correspondiente a la generación del baby boom de las décadas de 1960 y 1970
  • Entre la población de 70 años o más, la proporción de mujeres es claramente mayor que la de hombres
    • En el rango de 80 a 89 años, la proporción femenina es aproximadamente 1.52 veces la masculina

Distribución del estado civil

  • La proporción de solteros supera el 95% entre los 19 y 24 años, y en la década de los 30 cae de 55% a 31%, en línea con la tendencia de matrimonios tardíos y una edad promedio al primer matrimonio de 31 a 33 años
  • La proporción de personas casadas sube a 64% desde los 35 años y alcanza su pico de 78% a fines de los 50
  • La viudez aumenta bruscamente desde los 60 años y llega a 66% a finales de los 80, y a 74–81% en los 90
  • El divorcio alcanza su nivel más alto, cerca de 12%, entre los 50 y principios de los 60, en línea con la tendencia de divorcios tardíos

Distribución de tipos de hogar

  • En todos los grupos de edad, el hogar de pareja + hijos solteros tiene la mayor proporción, con un máximo de 63.6% a los 19 años
  • Después de los 50, los hogares de pareja sola aumentan rápidamente y alcanzan un pico de 45.7% entre los 65 y 69 años
  • Los hogares unipersonales muestran un patrón de doble pico: a inicios de los 20 (15–22%) y después de los 75 años (21–32%)
  • Los hogares de madre + hijos solteros (5–14%) superan a los de padre + hijos solteros (2–5%), lo que confirma una asimetría de género en los hogares monoparentales

Distribución del nivel educativo

  • En la generación joven de 20 a 34 años, la proporción de graduados de universidad de 4 años supera el 50%, y al incluir institutos técnicos, alrededor del 75% tiene estudios superiores
  • Entre los mayores de 80 años, sin escolaridad (36%) y primaria (37%) representan el 73% del total
  • Por región, la proporción de personas con licenciatura o más es mayor en Sejong (49.0%), Seúl (45.1%) y Daejeon (39.7%)
    • En Sejong influye la llegada de funcionarios públicos y personal de investigación con alta formación tras el traslado del complejo gubernamental de la ciudad

Distribución ocupacional

  • Profesionales y empleados de oficina representan la mayor proporción, reflejando una estructura económica basada en servicios y conocimiento
  • Dentro de ventas, el primer lugar lo ocupan los vendedores de comercio en línea (19.8%), lo que confirma la alta participación del comercio electrónico
  • En trabajo manual no calificado, hay concentración en guardias de edificio (21.3%) y personal de limpieza de edificios (16.0%)
  • Los militares representan cerca del 1% del total de trabajadores, y más de dos tercios pertenecen al ejército de tierra

Restricciones técnicas y limitaciones

  • Debido a limitaciones reales de disponibilidad y actualidad de datos públicos, así como del modelo PGM, se aplicaron suposiciones de independencia entre ciertas variables
    • Por ejemplo, al asignar ocupaciones detalladas, se asume que género, ingresos, educación y especialidad influyen de forma independiente, sin modelar interacciones
  • No se incorporó gender porque no existen estadísticas públicas nacionales integrales sobre ello
  • Solo incluye personas adultas de 19 años o más
  • Se excluyeron personas relacionadas con clientes empresariales en áreas como finanzas y salud

Mejoras frente al enfoque dependiente de LLM

  • Cuando se depende solo del LLM, la distribución urbana se sesgaba hacia ciudades como Suncheon y Changwon, pero Nemotron-Personas-Korea refleja la distribución real proporcional a la población en lugares como Hwaseong de Gyeonggi, Namyangju y Songpa-gu en Seúl
  • La estructura familiar se amplía desde un sesgo hacia hogares unipersonales a formas diversas como convivencia con cónyuge, con cónyuge e hijos, o con padres
  • La forma de tenencia de la vivienda deja de ser 100% propiedad propia y pasa a reflejar la proporción real entre propiedad y arriendo
  • La distribución de comida también deja de estar centrada solo en ensaladas y pasa a reflejar la cultura alimentaria real, con bibimbap, comida japonesa, pollo, galbi, samgyeopsal, tteokbokki, bunsik, pan, doenjang-jjigae y jajangmyeon, entre otros

Ejemplos de reflejo cultural

  • “Jeong Jun, de 33 años, parte de la generación canguro, que al salir del trabajo se relaja del cansancio del día con samgyeopsal y soju junto a sus compañeros” — Vive en Songpa-gu, Seúl; graduado de universidad de 4 años; soltero; vive con sus padres; y refleja el fenómeno de la generación canguro en la sociedad coreana
  • “Kim Chunhui, de 73 años, de Ulsan, a quien le gustan las canciones de Sim Soo-bong y subir fotos al chat grupal familiar” — mujer, sin escolaridad, casada, sin empleo; y refleja a la población femenina de edad avanzada

Por qué un dataset de personas ayuda a los LLM

  • Cada persona posee conocimiento propio, y una persona funciona como un fenotipo que condensa ese conocimiento particular
    • Ejemplo: una persona con perfil de técnico electricista puede servir como medio para extraer del LLM conocimiento relacionado con electricidad
  • En los datos sintéticos, la diversidad es un indicador muy importante, y las personas son la mejor fuente de diversidad
  • Es posible generar diversos datos sintéticos de entrenamiento por persona con formatos como “crea un problema de razonamiento lógico relacionado con {la persona dada}”

Casos de uso reales

  • Mejora del rendimiento general en uso de herramientas: se entregan juntos al user-LLM el conjunto de herramientas y la persona para síntesis de datos y entrenamiento. Nemotron-Nano-9B-v2-Japanese adoptó esta metodología y logró el primer lugar en el leaderboard Nejumi. Métodos similares también se incorporaron en Nemotron Nano v3 y Super v3
  • Mejora de la seguridad del modelo: se utilizó como datos semilla del dataset Sensitive-safety-category-refusals (SSCR). El dataset SSCR está incluido en nemotron-safety-blend

Cómo usarlo y licencia

  • Puede cargarse con la librería Python datasets llamando a load_dataset("nvidia/Nemotron-Personas-Korea")
  • Bajo licencia CC BY 4.0, puede usarse libremente tanto con fines comerciales como no comerciales
  • También se ofrece por separado una versión extendida para uso directo en NeMo Data Designer

10 comentarios

 
calmlake79 2 일 전

De hecho, ya estaba pensando en publicarlo una vez en GeekNews..

https://manyperson.com/

Estoy creando un servicio de personas relacionado. Igualmente, usé datos de MDIS y yo utilicé Gemini.

 
recast7838 2 일 전

Gracias por el material.

 
rlaaudgjs5638 2 일 전

Gracias por el buen material. Así es como se construyen estas personas.

 
dongho42 2 일 전

¡Es útil!

 
civilian 2 일 전

https://github.com/civilian7/korean-people-persona

Por necesidad personal,
subí un programa en Python que puede convertir los datos publicados a sqlite3,
y un ejemplo de servidor MCP.

 
nvkzrx 3 일 전

Me parece que hasta hace bastante poco la tasa de ingreso a universidades de 4 años entre las personas de veintitantos no llegaba al 50%, pero ahora parece que ya la superó.

 
nvkzrx 3 일 전

Hay muchas estadísticas interesantes.

 
xguru 3 일 전

Comparadas con las que crean los LLM extranjeros, estas personas se sienten demasiado realistas.

"El señor Park Ho-cheol es un veterano asesor del centro de seguros de Wonju que, con unos audífonos puestos, soporta en silencio decenas de reclamos airados al día y explica cláusulas complejas de seguros de forma sencilla, como si te las explicara el señor de al lado.

"Ha pasado décadas entre los tranquilos paisajes a la orilla del río Imjin en Paju, y tras graduarse de la preparatoria se metió de lleno al trabajo de plomería, acumulando una profunda sabiduría de vida aprendida con el cuerpo. Últimamente también se mantiene al tanto de nuevas ideas viendo en su smartphone reseñas de los últimos electrodomésticos y videos sobre lo que pasa en el mundo."