Entonces, este es un ejemplo de un punto de código donde tenemos U más 0041, una unidad atómica de información. Entonces, en un punto de código, tenemos 0041, que es un número hexadecimal, y luego tenemos el prefijo de U más, donde U significa Unicode, porque cada número de punto de código tiene un significado según el estándar Unicode, y los conjuntos de caracteres Unicode asignan a cada carácter abstracto en el mundo un número único.
Entonces, U más 0041, lo buscamos en Unicode, obtenemos la letra A mayúscula latina. Actualmente, el estándar Unicode define más de un millón de puntos de código. Y todos tienen una asignación uno a uno, lo que asegura que no haya colisión entre alfabetos de diferentes idiomas. El tercer punto a tener en cuenta es un plano. Básicamente, en pocas palabras, Unicode divide más de un millón de puntos de código en 17 planos o grupos. Estos planos se representan aquí.
Entonces, el primer plano, plano 0, es el plano multilingüe básico, también conocido como BMP. Y eso es la unificación de todos los conjuntos de caracteres anteriores. Incluye ASCII, caracteres chinos, japoneses y coreanos. Y esto es cómo se ve el BMP. Y creo que es fascinante ver la descomposición de los diferentes scripts incluidos. Puedes ver scripts del este asiático y los caracteres chinos, japoneses, coreanos incluyen muchos puntos de código adicionales. Entonces, el BMP consta de cuatro dígitos hexadecimales. Y luego, fuera del BMP, el plano 1 del BMP consta de cinco dígitos hexadecimales. Y el plano 16 consta de seis dígitos hexadecimales. Y fuera del BMP se encuentra el plano astral o los planos suplementarios.
Entonces, ¿cómo se relaciona esto con nuestra etiqueta de encabezado con UTF-8? Que todos, ya sabes, estamos acostumbrados a ver. Sabemos acerca de los puntos de código. Caracteres abstractos, como U más 0041 es A. Y sabemos acerca de las unidades de código o bits físicos, porque, ya sabes, las computadoras, a nivel de memoria, no usan puntos de código o caracteres abstractos. Necesitan una forma física de representar los puntos de código Unicode. Entonces, las computadoras traducen los puntos de código Unicode en bits físicos utilizando una traducción de codificación de caracteres, que realiza la transformación del punto de código en bits físicos. Y Unicode tiene este popular algoritmo de traducción de codificación de caracteres llamado Unicode Transformation Format o UTF, que hace este trabajo por nosotros. Y las codificaciones populares de UTF son UTF-8, UTF-16 y UTF-32. Entonces, UTF es realmente genial. Es reversible, por lo que las conversiones entre todas ellas se basan en algoritmos. Eso es difícil de decir.
Comments