- Hace 20 años, Joel enfatizó que no existe tal cosa como "texto plano" y que es indispensable entender la codificación
- Unicode es el estándar que unifica todos los idiomas humanos para que puedan usarse en computadoras
- Es un sistema de puntos de código que asigna un número único a cada carácter
- El punto de código más grande es
0x10FFFF, lo que ofrece un espacio de alrededor de 1.1 millones de puntos de código
- UTF-8 es la codificación más común y se usa con una probabilidad del 98%
- UTF-8 es una codificación de longitud variable, por lo que un punto de código puede codificarse como una secuencia de 1 a 4 bytes
- UTF-8 es compatible a nivel de bytes con ASCII y es eficiente en espacio para el latín básico
- UTF-8 tiene funciones integradas de detección y recuperación de errores, por lo que puede identificar secuencias de bytes UTF-8 completas y válidas
- Los clústeres de grafemas extendidos, o grafemas, son la unidad sobre la que se debe iterar, no los puntos de código
- Unicode se actualiza cada año, y las reglas que definen los clústeres de grafemas cambian anualmente
- Unicode puede renderizarse de forma distinta según la configuración regional
- Los pares sustitutos de Unicode son dos unidades de UTF-16 usadas para codificar un solo punto de código Unicode
- UTF-16 todavía se usa en algunos sistemas como representación en memoria
- Las cadenas Unicode deben normalizarse antes de compararse
- El artículo enfatiza la importancia de usar bibliotecas Unicode incluso para operaciones básicas como
strlen, indexOf y substring
3 comentarios
En el caso de
"♂️".length, en Python 3.11 devuelve 1.Parece que los emojis salen rotos en los comentarios.
Opiniones de Hacker News