4 puntos por GN⁺ 2023-10-05 | 2 comentarios | Compartir por WhatsApp
  • Creación de un modelo de aprendizaje automático generativo (ML) para generar fuentes llamado FontoGen
  • El modelo recibe como entrada una descripción de la fuente y entrega como salida un archivo de fuente
  • El autor se inspiró en el auge de la IA en 2023 para explorar la generación de SVG a partir de texto, y de ahí surgió la idea de generar fuentes
  • Construyó el modelo tomando como referencia el paper de IconShop2, y descubrió que era posible generar fuentes de forma similar a la generación de SVG
  • El modelo es de secuencia a secuencia, entrenado con una secuencia donde después de los embeddings de texto vienen los embeddings de fuente
  • Los embeddings de texto se generaron usando un modelo codificador BERT preentrenado, y los embeddings de fuente se generaron convirtiendo las fuentes en secuencias de tokens
  • El modelo es un transformer autoregresivo solo de codificador, compuesto por 16 capas y 8 bloques, con un total de 73.7 millones de parámetros
  • El autor usó atención BigBird3 para enfocarse en el prompt inicial y observar N tokens anteriores, capturando así el estilo de varios glifos previos
  • El modelo fue entrenado con un dataset único de 71k fuentes, cuyas descripciones de distintos tipos fueron resumidas en algunas palabras clave usando GPT-3.5
  • El proceso de entrenamiento tomó 127 horas y se detuvo cuando la pérdida de validación casi dejó de mejorar
  • El autor logró triplicar el rendimiento trasladando la mayor cantidad posible de trabajo a la etapa de preprocesamiento del dataset
  • El autor propone posibles aplicaciones futuras, como integrar el modelo en editores de fuentes existentes para generar todos los demás glifos a partir de un solo glifo creado por un diseñador

2 comentarios

 
dbgus2028 2023-10-06

Hazme una fuente adorable

 
GN⁺ 2023-10-05
Opinión de Hacker News
  • El intérprete de código de GPT-4 puede convertir PNG en blanco y negro de glifos a SVG, lo que podría usarse para generar fuentes al combinarse con modelos de generación de imágenes.
  • Douglas Hofstadter, autor de Gödel, Escher, Bach, creía que generar fuentes no era posible sin una IA general.
  • El proyecto Letter Spirit busca modelar la creatividad artística diseñando tipografías con un estilo unificado llamadas "gridfonts", limitadas a una cuadrícula.
  • Hay preocupaciones sobre la precisión de las fuentes generadas por modelos de ML, con problemas como líneas que no son perfectamente paralelas y esquinas que no forman exactamente 90 grados.
  • Se considera que el enfoque de representar píxeles como 150x150 bins únicos no es ideal; en su lugar, se propone usar una convnet y rastrear la salida.
  • Con este enfoque, podría volverse más viable la creación de nuevas fuentes, especialmente las muy estilizadas.
  • El modelo es ckpt y no safetensor, lo que podría influir en si algunos usuarios deciden probarlo.
  • Aunque los modelos de difusión tienen dificultades para dibujar texto, este método funciona bien para esta aplicación.