Escolar Documentos
Profissional Documentos
Cultura Documentos
Unicode es un estndar de codificacin de caracteres diseado para facilitar el tratamiento informtico, transmisin y visualizacin de textos de mltipleslenguajes y disciplinas tcnicas, adems de textos clsicos de lenguas muertas. El trmino Unicode proviene de los tres objetivos perseguidos: universalidad, uniformidad y unicidad.1 Unicode especifica un nombre e identificador numrico nico para cada carcter o smbolo, el code point o punto de cdigo, adems de otras informaciones necesarias para su uso correcto: direccionalidad, capitalizacin y otros atributos. Unicode trata los caracteres alfabticos, ideogrficos y smbolos de forma equivalente, lo que significa que se pueden mezclar en un mismo texto sin la introduccin de marcas o caracteres de control.2 Este estndar es mantenido por el Unicode Technical Committee (UTC), integrado en el Unicode Consortium, del que forman parte con distinto grado de implicacin empresas
como: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo, instituciones como la Universidad de Berkeley, y profesionales y acadmicos a ttulo individual.3 El Unicode Consortium mantiene estrecha relacin con ISO/IEC, con la que mantiene desde 1991 el acuerdo de sincronizar sus estndares que contienen los mismos caracteres y puntos de cdigo.4 El establecimiento de Unicode ha sido un ambicioso proyecto para reemplazar los esquemas de codificacin de caracteres existentes, muchos de los cuales estn muy limitados en tamao y son incompatibles con entornos plurilinges. Unicode se ha vuelto el ms extenso y completo esquema de codificacin de caracteres, siendo el dominante en la internacionalizacin y adaptacin local del software informtico. El estndar ha sido implementado en un nmero considerable de tecnologas recientes, que incluyen XML, Java y sistemas operativos modernos. La descripcin completa del estndar y las tablas de caracteres estn disponibles en la pgina web oficial de Unicode [1]. La referencia completa se publica, adems, en forma de libro impreso cada vez que se libera una nueva versin principal. La versin digital de este libro est disponible de forma gratuita. Las revisiones y adiciones se publican de forma independiente.
ndice
[ocultar]
2 Repertorio de caracteres
o o o
2.1 Tipos de caracteres 2.2 Composicin de caracteres y secuencias 2.3 Repertorio unificado chino, coreano y japons
o o
4 Tratamiento de la informacin
o o
5 Historia
Se considera que son diferentes los caracteres de alfabetos distintos, aunque compartan forma y significacin. Los caracteres se identifican mediante un nmero o punto de cdigo y su nombre o descripcin. Cuando se ha asignado un cdigo a un carcter, se dice que dicho carcter est codificado. El espacio para cdigos tiene 1 114 112 posiciones posibles (0x10FFFF). Los puntos de cdigo se representan utilizando notacin hexadecimal agregando el prefijo U+. El valor hexadecimal se completa con ceros hasta 4 dgitos hexadecimales cuando es necesario; si es de longitud mayor que 4 dgitos no se agregan ceros.
Distintas versiones del carcter angstrom, como carcter (versin preferida), como carcter con signo diacrtico y como smbolo con forma de letra.
Los bloques del espacio de cdigos contienen puntos con la siguiente informacin:7
Caracteres grficos: Letras, signos diacrticos, cifras, caracteres de puntuacin, smbolos y espacios.
Caracteres de formato: Caracteres invisibles que afectan al proceso del texto prximo. Ejemplos: U+2028 salto de lnea, U+2029 salto de prrafo, U+00A0 espacio duro, etc.
Cdigos de control: 65 cdigos definidos por compatibilidad con ISO/IEC 2022. Son los caracteres entre en los rangos [U+0000,U+001F], U+007F y [U+0080..U+009F]. Interpretarlos es responsabilidad de protocolos superiores.
Caracteres privados: Reservados para el uso fuera del estndar por fabricantes de software. Caracteres reservados: Cdigos reservados para su uso por Unicode. Son posiciones no asignadas.
Puntos de cdigo subrogados: Unicode reserva los puntos de cdigo de U+D800 a U+DFFF para su uso como cdigos subrogados en UTF-16, en la representacin de caracteres suplementarios.
No-caracteres: Son cdigos reservados permanentemente para uso interno por Unicode. Los dos ltimos puntos de cada plano U+FFFE y U+FFFF.
Caracteres descartados: Son caracteres que se retienen por compatibilidad con versiones anteriores, pero se debe evitar su uso.
Composicin del carcter "". La primera es un carcter independiente, la segunda una n ms una tilde (virgulilla) combinable.
Unicode incluye un mecanismo para formar caracteres y as extender el repertorio de compatibilidad con los smbolos existentes. Un carcter base se complementa con marcas: signos diacrticos, de puntuacin o marcos. El tipo de cada carcter y sus atributos definen el papel que pueden jugar en una combinacin. Por este motivo, puede haber varias opciones que representen el mismo carcter. Para facilitar la compatibilidad con codificaciones anteriores, se proporcionan caracteres precompuestos; en la definicin de dichos caracteres se hace constar qu caracteres intervienen en la composicin. Un grupo de caracteres consecutivos, independientemente de su tipo, forma una secuencia. En caso de que varias secuencias representen el mismo conjunto de caracteres esenciales, el estndar no define una de ellas como 'correcta', sino que las considera equivalentes. Para poder identificar dichas equivalencias, Unicode define los mecanismos de equivalencia cannica y de equivalencia de compatibilidad basados en la obtencin de formas normalizadas de las cadenas a comparar.
El organismo encargado de desarrollar el repertorio de caracteres es el Ideographic Rapporteur Group (IRG). IRG es un grupo de trabajo integrado en ISO/IEC JTC1/SC2/WG2, incluyendo aChina, Hong Kong, Macao, Taipei Computer Association, Singapur, Japn, Corea del Sur, Corea del Norte, Vietnam y Estados Unidos de Amrica.8 La base de datos de caracteres CJK se denomina Unihan y contiene, adems, informacin auxiliar sobre significado, conversiones, datos necesarios para utilizarlos en los diferentes lenguajes que los utilizan. A continuacin se muestran los bloques que describen este repertorio. IRG define los caracteres de los tres grupos unificados, los siguientes dos grupos contienen caracteres para compatibilidad con estndares anteriores.
Bloque
Rango de cdigos
Comentarios
4E00-9FFF
3400-4DFF
Ideogramas de compatibilidad
F900-FAFF
la descomposicin cannica de ideogramas ni algoritmos de equivalencia por lo que las operaciones sobre el texto, como bsqueda u ordenacin, pueden fallar. Unicode define 12 caracteres diferentes para la descripcin de ideogramas representando distintas posibilidades de combinacin espacial de otros caracteres Han.
Universalidad: Un repertorio suficientemente amplio que albergue a todos los caracteres probables en el intercambio de texto multlinge.
Eficiencia: Las secuencias generadas deben ser fciles de tratar. No ambigedad: Un cdigo dado siempre representa el mismo carcter.
Planos [editar]
Por conveniencia se ha dividido el espacio de cdigos en grandes grupos denominados planos. Cada plano contiene un mximo de 65 535 caracteres. Dado un punto de cdigo expresado en hexadecimal, los 4 ltimos dgitos determinan la posicin del carcter en el plano.
Plano bsico multilinge: BMP o plano 0. Contiene la mayor parte de los alfabetos modernos, incluyendo los caracteres ms comunes del sistema CJK, otros caracteres histricos o poco habituales y 64reservadas para uso privado.
Plano suplementario multilinge: SMP o plano 1. Alfabetos histricos de menor uso y sistemas de uso tcnico u otros usos.
Plano suplementario ideogrfico: SIP o plano 2. Contiene los caracteres del sistema CJK que no se incluyen en el plano 0. La mayora son caracteres muy raros o de inters histrico.
Plano de propsito especial: SSP o plano 14. rea para caracteres de control que no se han introducido en el plano 0.
Planos de uso privado: Planos 15 y 16. Reservados para uso privado por fabricantes de software.
UTF-8 codificacin orientada a byte con smbolos de longitud variable. UTF-16 codificacin de 16 bits de longitud variable optimizada para la representacin del plano bsico multilinge (BMP).
Las formas de codificacin se limitan a describir el modo en que se representan los puntos de cdigo en formato inteligible por la mquina. A partir de las 3 formas identificadas se definen 7 esquemas de codificacin.
informacin recibida. A partir de las 3 formas de codificacin se definen 7 esquemas. A pesar de que comparten nombres, no debe confundirse esquemas y formas de codificacin.
Admite BOM
UTF-8
No aplicable
UTF-16
Big-endian o Little-endian S
UTF-16BE
Big-endian
No
UTF-16LE
Little-endian
No
UTF-32
Big-endian o Little-endian S
UTF-32BE
Big-endian
No
UTF-32LE
Little-endian
No
Unicode define una marca especial, la marca de orden de bytes (BOM, Byte Order Mark), al inicio de un fichero o una comunicacin para hacer explcita la ordenacin de bytes. Cuando un protocolo superior especifica el orden de bytes, la marca no es necesaria y puede omitirse dando lugar a los esquemas de la lista anterior con sufijo BE o LE. En los esquemas UTF-16 y UTF-32, que admiten BOM, si este no se especifica se asume que la ordenacin de bytes es big-endian. La unidad de codificacin en UTF-8 es el byte por lo que no necesita una indicacin de orden de byte. El estndar ni requiere ni recomienda la utilizacin de BOM, pero lo admite como marca de que el texto es Unicode o como resultado de la conversin de otros esquemas.
Historia [editar]
El proyecto Unicode se inici a finales de 1987, tras conversaciones entre los ingenieros de Apple y Xerox: Joe Becker, Lee Collins y Mark Davis.11 Como resultado de su colaboracin, en agosto de 1988 se public el primer borrador de Unicode bajo el nombre de Unicode88.12 Esta primera versin, con cdigos de 16 bits, se public asumiendo que solo se codificaran los caracteres necesarios para el uso moderno.
Durante el ao 1989 el trabajo continu con la adicin de colaboradores de otras compaas como Microsoft o Sun Microsystems. El Consorcio Unicode se form el 3 de febrero de 1991 y en octubre de 1991 se public la primera versin del estndar. La segunda versin, incluyendo escritura ideogrfica Han se public en junio de 1992. A continuacin se muestra una tabla con las distintas versiones del Estndar Unicode con sus adiciones o modificaciones ms importantes.
Edici n ISO Ve Pub Esc Fec /IEC rsi lica ritu ha 10646 n cin ras asoci # ada
Caracteres
Adiciones notables
24
El repertorio inicial cubre los 71 alfabetos: rabe, armenio, bengali, bopomofo, cirlico, devanagari, georgian 61 o,griego/copto, guyarat, gurmukhi, hangul, hebreo, hiragana, kannada, kata kana, lao, latino, malayalam, oriya,tamil, telug, thai, y tibetano.13
25
Juni 1. o 1 199 3
34 Se agregan 4306 caracteres hangul ms al conjunto original de 2350. Se 2 elimina el alfabeto tibetano.13 33
Eliminado el conjunto original de caracteres hangul; se agrega un nuevo 38 conjunto de 11 172 caracteres Hangul en una nueva ubicacin. Se 9 reincorpora el alfabeto tibetano en una nueva ubicacin y con un juego de 50 caracteres diferente. Se define el sistema de cdigos subrogados y se crean los planos 15 y 16 de caracteres para uso privado.13
Ma 2. yo 1 199 8
ISO/I EC 10646 1:199 3 con enmie ndas 25 5, 6 y 7, y dos caract eres de la enmie nda 18
Ideogramas cheroqui. 49 Escrituras etope, jemer, mongol, Myanmar, ogham, alfabeto 2 rnico, cingals, siraco,thaana, silabario unificado de los indgenas 59 canadienses, y yi adems de los patrones braille.13
Mar zo 3. de 1 200 1
ISO/I EC 10646 1:200 0 ISO/I EC 10646 2:200 1 ISO/I EC 10646 45 1:200 0 con la 41 94 Se agregan los alfabetos deseret, gtico y etrusco, y los smbolos de notacin 2 musical moderna, msica bizantina, y 42.711 ideogramas 05 de CJK unificado.14
Mar 3. zo 2 200 2
enmie nda 1 ISO/I EC 10646 2:200 1 ISB Abr N 04. il 3210 200 185 3 78-1 ISO/I EC 52 10646 :2003 ISO/I EC 10646 :2003 59 con enmie nda 1 ISO/I EC 10646 :2003 con enmie ndas 1 64 y2y cuatro caract eres de la enmie nda 3 ISO/I EC 10646 :2003 ms 75 enmie ndas 1, 2, 3 y4 ISB N 9781936 213ISO/I EC 10646 90 :2003 ms enmie
96 Se agrega el silabario chipriota, limbu, lineal B, osmanya, shaviano, tai le, 4 y ugartico, y los hexagramas I Ching.14 47
Mar 4. zo 1 200 5
97 Agregados bugins, glagoltico, kharoshthi, new tai lue, persa antiguo, syloti 7 nagri, y nifinagh. Se separa el coptodel alfabeto griego. Smbolos griegos 20 antiguos para msica y numeracin.14
Abr 5. il 1 200 8
10 0 71 3
Agregados: Escritura caria, cham, kayah li, escritura lepcha, alfabeto licio, alfabeto lidio, alfabeto Ol Chiki, Rejang,saurashtra, sundans, y el silabario vai. Los jeroglficos del disco de Festos, fichas de mahjong y de domin. Adiciones importantes para el birmano, letras y abreviaturas de amanuense utilizadas en manuscritos medievales y la adicin de la mayscula.15
10 7 36 1
Agregados: Bamm, javans, lisu, meetei mayek, samaritano, tai tham, y tai viet. Se ha ampliado el devanagari con la adicin del alfabeto snscrito. Ampliaciones importantes para abjasio, el Silabario unificado de los indgenas canadienses, copto, Khamti Shan, malayo, myanmar. Tambin se agregan smbolos y caracteres histricos como los jeroglficos egipcios de Gardiner, arameo imperial, avstico, kaithi, antiguo rabe del Sur yturco
00-9 ndas de 1 a 6
antiguo.16
La versin 6.0 es la primera versin principal del estndar publicada Oct ubr 6. e 0 201 0 ISB N 9781936 21301-6 exclusivamente en soporte electrnico. Agregados mandeo, batak y brahmi, ISO/I EC 93 10646 :2011 10 ampliaciones de leguajes africanos como tifinagh, etope y bamm. Otras 9 44 adiciones importantes son: 222 ideogramas CJK, 1.000 smbolos incluyendo 9 los pictogramas emoji, el nuevo smbolo oficial para la rupia y smbolos alqumicos adems de ampliaciones de los atributos de los caracteres y otras modificaciones normativas y algortmicas.17