Charcuterie – explorador de Unicode basado en similitud visual
(charcuterie.elastiq.ch)- Herramienta para explorar visualmente el conjunto de caracteres Unicode y ver el glifo, escritura, símbolo y forma de cada carácter
- Utiliza embeddings de SigLIP 2 para analizar la similitud visual entre caracteres comparando glifos en un espacio vectorial
- Los usuarios pueden comprender de forma intuitiva las relaciones morfológicas entre caracteres y explorar la estructura de Unicode
- La interfaz ofrece una experiencia de exploración centrada en lo visual, diseñada para facilitar la comprensión de sistemas de caracteres complejos
- El proyecto está en desarrollo continuo y recibe comentarios y apoyo mediante donaciones de los usuarios
Descripción general de Charcuterie
- Un explorador visual de Unicode, una herramienta para recorrer conjuntos de caracteres y ver los glifos, escrituras, símbolos y formas relacionados
- Para analizar la similitud visual de cada carácter, utiliza un método que incrusta glifos renderizados con SigLIP 2 y los compara en un espacio vectorial
- Los usuarios pueden explorar de forma intuitiva las relaciones morfológicas entre caracteres y comprender la estructura del estándar Unicode
- El proyecto está en desarrollo continuo y recibe retroalimentación de los usuarios y apoyo mediante donaciones
1 comentarios
Comentarios en Hacker News
Entiendo que recortar automáticamente el campo de entrada suele ser una opción predeterminada útil, pero en este caso es incómodo porque impide buscar espacios en blanco
Así que creo que estaría bien agregar un manejo de excepción como
if (trim(str)=="") return strNo me di cuenta al principio, pero si haces clic en el ícono del lápiz puedes dibujar directamente una forma para buscar en lugar de texto
Es un concepto e implementación realmente geniales
Pero la idea de la UI de “spotlight” me resulta un poco confusa. Si haces clic en un carácter, se resalta el área alrededor y se vuelve a cargar el terreno de caracteres similares alrededor de ese carácter. Así puedes explorar este terreno de similitud, pero siento que me estoy perdiendo parte de la metáfora visual
Está tan genial que lo agregué a marcadores de inmediato. Antes usaba EmojiDB para buscar emojis basados en vectores, y ahora pienso usar también esto
Mi sitio es unicode-atlas.vercel.app
Me dio risa ver cuántos caracteres ‘X’ hay
Si ves el enlace charcuterie.elastiq.ch/#1100B, no queda claro si se referían a “Aegean Check Mark” o a “Old North Arabian letter Teh”
Es realmente excelente. Siempre que puedo prefiero usar caracteres Unicode en lugar de imágenes. Por ejemplo con las flechas, pero siempre ha sido difícil encontrar el carácter exacto
Pero aquí puedes incluso dibujar ‼ directamente para ir acotando lo que quieres. Perfecto. La UX también es intuitiva, así que lo agregué a marcadores de inmediato
Ni siquiera sabía que existía este carácter: jamo coreano araea
Mi sitio es unicode-atlas.vercel.app
Parece considerar algo más que la simple similitud visual. Si no fuera así, no habría razón para que “@” y “U+1F582 (BACK OF ENVELOPE)” estuvieran tan cerca
Y llevo años, o más bien décadas, deseando que Word tuviera algo así. Puedo describir un símbolo con palabras, pero la UI es tan incómoda que cuesta encontrarlo directamente. Todavía no puedo creer que la ventana de “Insertar símbolo” siga sin tener función de búsqueda
Mi sitio es unicode-atlas.vercel.app
La búsqueda de kanji japonés no funciona
https://unicodeplus.com/U+2F8F sí funciona, pero
https://unicodeplus.com/U+884C no funciona
Me impresionó que en la parte superior izquierda puedas dibujar directamente un carácter para encontrar caracteres parecidos. Eso muestra que hace algo más que una simple tabla de consulta
Mi sitio es unicode-atlas.vercel.app
El estándar Unicode no define la forma visual de los code points (salvo algunos ejemplos de tipo emoji)
Así que esta herramienta no es más que una visualización de similitud de glifos de una fuente específica —ni siquiera se menciona cuál es y no se puede cambiar—, y eso es distinto de una “exploración visual” de los code points de Unicode