Você está na página 1de 13

Unicode

Ejemplos de caracteres Unicode

Carcter alfabtico latino "A" (U+0041)

Slaba devanagari "Aum" () (U+0950)

Ideograma chino "yue" ()(U+6708)

Unicode es un estndar de codificacin de caracteres diseado para facilitar el tratamiento informtico, transmisin y visualizacin de textos de mltipleslenguajes y disciplinas tcnicas, adems de textos clsicos de lenguas muertas. El trmino Unicode proviene de los tres objetivos perseguidos: universalidad, uniformidad y unicidad.1 Unicode especifica un nombre e identificador numrico nico para cada carcter o smbolo, el code point o punto de cdigo, adems de otras informaciones necesarias para su uso correcto: direccionalidad, capitalizacin y otros atributos. Unicode trata los caracteres alfabticos, ideogrficos y smbolos de forma equivalente, lo que significa que se pueden mezclar en un mismo texto sin la introduccin de marcas o caracteres de control.2 Este estndar es mantenido por el Unicode Technical Committee (UTC), integrado en el Unicode Consortium, del que forman parte con distinto grado de implicacin empresas

como: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google o Yahoo, instituciones como la Universidad de Berkeley, y profesionales y acadmicos a ttulo individual.3 El Unicode Consortium mantiene estrecha relacin con ISO/IEC, con la que mantiene desde 1991 el acuerdo de sincronizar sus estndares que contienen los mismos caracteres y puntos de cdigo.4 El establecimiento de Unicode ha sido un ambicioso proyecto para reemplazar los esquemas de codificacin de caracteres existentes, muchos de los cuales estn muy limitados en tamao y son incompatibles con entornos plurilinges. Unicode se ha vuelto el ms extenso y completo esquema de codificacin de caracteres, siendo el dominante en la internacionalizacin y adaptacin local del software informtico. El estndar ha sido implementado en un nmero considerable de tecnologas recientes, que incluyen XML, Java y sistemas operativos modernos. La descripcin completa del estndar y las tablas de caracteres estn disponibles en la pgina web oficial de Unicode [1]. La referencia completa se publica, adems, en forma de libro impreso cada vez que se libera una nueva versin principal. La versin digital de este libro est disponible de forma gratuita. Las revisiones y adiciones se publican de forma independiente.
ndice
[ocultar]

1 Alcance del estndar

1.1 Relacin con otros estndares

2 Repertorio de caracteres

o o o

2.1 Tipos de caracteres 2.2 Composicin de caracteres y secuencias 2.3 Repertorio unificado chino, coreano y japons

2.3.1 Secuencias de descripcin ideogrfica

3 Elementos del estndar Unicode

o o

3.1 Principios de diseo 3.2 Base de datos de caracteres

3.2.1 Planos 3.2.2 reas y bloques

4 Tratamiento de la informacin

o o

4.1 Formas de codificacin 4.2 Esquemas de codificacin

5 Historia

6 Vase tambin 7 Referencias 8 Enlaces externos

Alcance del estndar [editar]


Unicode incluye todos los caracteres de uso comn en la actualidad. La versin 5.1 contena 100 713 caracteres provenientes de alfabetos, sistemas ideogrficos y colecciones de smbolos (matemticos, tcnicos, musicales, iconos...). La cifra crece con cada versin. Unicode incluye sistemas de escritura modernos como: rabe, braille, copto, cirlico, griego, sinogramas (hanja coreano, hanzi chino y kanji japons), silabarios japoneses (hiragana y katakana),hebreo y latino; escrituras histricas extintas, para propsitos acadmicos, como por ejemplo: cuneiforme, griego antiguo, lineal B micnico, fenicio y rnico. Entre los caracteres no alfabticos incluidos en Unicode se encuentran smbolos musicales y matemticos, fichas de juegos como el domin, flechas, iconos etc. Adems, Unicode incluye los signos diacrticos como caracteres independientes que pueden ser combinados con otros caracteres y dispone de versiones predefinidas de la mayora de letras con smbolos diacrticos en uso en la actualidad, como las vocales acentuadas del espaol. Unicode es un estndar en constante evolucin y se agregan nuevos caracteres continuamente. Se han descartado ciertos alfabetos, propuestos por distintas razones, como por ejemplo el alfabeto klingon.5

Relacin con otros estndares [editar]


Como ya se ha indicado, Unicode est sincronizado con el estndar ISO/IEC conocido como UCS o juego de caracteres universal. Desde un punto de vista tcnico, incluye o es compatible con codificaciones anteriores como ASCII7 o ISO 8859-1, los estndares nacionales ANSI Z39.64, KS X 1001, JIS X 0208, JIS X 0212, JIS X 0213, GB 2312, GB 18030, HKSCS, y CNS 11643, codificaciones particulares de fabricantes de software como Apple, Adobe, Microsoft, IBM, etc. Adems, Unicode reserva espacio para fabricantes de software que pueden crear extensiones para su propio uso.6

Repertorio de caracteres [editar]


El elemento bsico del estndar Unicode es el carcter. Se considera un carcter al elemento ms pequeo de un sistema de escritura con significado. El estndar Unicode codifica los caracteres esenciales grafemas definindolos de forma abstracta y deja la representacin visual (tamao, dimensin, fuente o estilo) al software que lo trate, como procesadores de texto onavegadores web. Se incluyen letras, signos diacrticos, caracteres de puntuacin, ideogramas, caracteres silbicos, caracteres de control y otros smbolos. Los caracteres se agrupan en alfabetos o sistemas de escritura.

Se considera que son diferentes los caracteres de alfabetos distintos, aunque compartan forma y significacin. Los caracteres se identifican mediante un nmero o punto de cdigo y su nombre o descripcin. Cuando se ha asignado un cdigo a un carcter, se dice que dicho carcter est codificado. El espacio para cdigos tiene 1 114 112 posiciones posibles (0x10FFFF). Los puntos de cdigo se representan utilizando notacin hexadecimal agregando el prefijo U+. El valor hexadecimal se completa con ceros hasta 4 dgitos hexadecimales cuando es necesario; si es de longitud mayor que 4 dgitos no se agregan ceros.

Tipos de caracteres [editar]

Distintas versiones del carcter angstrom, como carcter (versin preferida), como carcter con signo diacrtico y como smbolo con forma de letra.

Los bloques del espacio de cdigos contienen puntos con la siguiente informacin:7

Caracteres grficos: Letras, signos diacrticos, cifras, caracteres de puntuacin, smbolos y espacios.

Caracteres de formato: Caracteres invisibles que afectan al proceso del texto prximo. Ejemplos: U+2028 salto de lnea, U+2029 salto de prrafo, U+00A0 espacio duro, etc.

Cdigos de control: 65 cdigos definidos por compatibilidad con ISO/IEC 2022. Son los caracteres entre en los rangos [U+0000,U+001F], U+007F y [U+0080..U+009F]. Interpretarlos es responsabilidad de protocolos superiores.

Caracteres privados: Reservados para el uso fuera del estndar por fabricantes de software. Caracteres reservados: Cdigos reservados para su uso por Unicode. Son posiciones no asignadas.

Puntos de cdigo subrogados: Unicode reserva los puntos de cdigo de U+D800 a U+DFFF para su uso como cdigos subrogados en UTF-16, en la representacin de caracteres suplementarios.

No-caracteres: Son cdigos reservados permanentemente para uso interno por Unicode. Los dos ltimos puntos de cada plano U+FFFE y U+FFFF.

Caracteres descartados: Son caracteres que se retienen por compatibilidad con versiones anteriores, pero se debe evitar su uso.

Composicin de caracteres y secuencias [editar]

Composicin del carcter "". La primera es un carcter independiente, la segunda una n ms una tilde (virgulilla) combinable.

Unicode incluye un mecanismo para formar caracteres y as extender el repertorio de compatibilidad con los smbolos existentes. Un carcter base se complementa con marcas: signos diacrticos, de puntuacin o marcos. El tipo de cada carcter y sus atributos definen el papel que pueden jugar en una combinacin. Por este motivo, puede haber varias opciones que representen el mismo carcter. Para facilitar la compatibilidad con codificaciones anteriores, se proporcionan caracteres precompuestos; en la definicin de dichos caracteres se hace constar qu caracteres intervienen en la composicin. Un grupo de caracteres consecutivos, independientemente de su tipo, forma una secuencia. En caso de que varias secuencias representen el mismo conjunto de caracteres esenciales, el estndar no define una de ellas como 'correcta', sino que las considera equivalentes. Para poder identificar dichas equivalencias, Unicode define los mecanismos de equivalencia cannica y de equivalencia de compatibilidad basados en la obtencin de formas normalizadas de las cadenas a comparar.

Repertorio unificado chino, coreano y japons [editar]


Los ideogramas de Asia oriental (popularmente llamados caracteres chinos) se denominan ideogramas Han en el Estndar Unicode. Estos ideogramas se desarrollaron en China y fueron adaptados por culturas prximas para su propio uso.8 9 Japn, Corea y Vietnam desarrollaron sus propios sistemas alfabticos o silbicos para usar en combinacin con los smbolos chinos: hiragana y katakana en Japn, hangul en Corea y Yi en Vietnam. La evolucin natural de los sistemas de escritura y los distintos momentos de entrada de los caracteres en las distintas culturas han marcado diferencias en los ideogramas utilizados. Unicode considera las distintas versiones de los ideogramas como variantes de un mismo carcter abstracto, es decir, como resultado de la aplicacin de un tipo de letra diferente en cada caso y considera las variantes nacionales como pertenecientes a un mismo sistema de escritura. La versin original del estndar se desarroll a partir de los estndares industriales existentes en los pases afectados.

El organismo encargado de desarrollar el repertorio de caracteres es el Ideographic Rapporteur Group (IRG). IRG es un grupo de trabajo integrado en ISO/IEC JTC1/SC2/WG2, incluyendo aChina, Hong Kong, Macao, Taipei Computer Association, Singapur, Japn, Corea del Sur, Corea del Norte, Vietnam y Estados Unidos de Amrica.8 La base de datos de caracteres CJK se denomina Unihan y contiene, adems, informacin auxiliar sobre significado, conversiones, datos necesarios para utilizarlos en los diferentes lenguajes que los utilizan. A continuacin se muestran los bloques que describen este repertorio. IRG define los caracteres de los tres grupos unificados, los siguientes dos grupos contienen caracteres para compatibilidad con estndares anteriores.

Bloque

Rango de cdigos

Comentarios

Ideogramas unificados CJK

4E00-9FFF

Ideogramas de uso comn. Tamao de cdigo 2 bytes.

Ideogramas unificados CJK Extensin A

3400-4DFF

Ideogramas de uso poco habitual. Tamao de cdigo 2 bytes.

Ideogramas unificados CJK Extensin B

20000-2A6DF Ideogramas de uso poco habitual e histricos.

Ideogramas de compatibilidad

F900-FAFF

Duplicados, variantes unificables y caracteres corporativos. Tamao de cdigo 2 bytes.

Suplemento de ideogramas de compatibilidad

2F800-2FA1F Variantes unificables.

Secuencias de descripcin ideogrfica [editar]


Se admite que nunca se podr finalizar la tarea de incluir ideogramas en el estndar debido, principalmente, a que la creacin de nuevos ideogramas contina. A fin de suplir eventuales carencias, Unicode ofrece un mecanismo que permite la representacin de los smbolos que faltan denominado secuencias de descripcin ideogrfica. Se basa en que en la prctica, la totalidad de los ideogramas se puede descomponer en piezas ms pequeas que, a su vez, son ideogramas. Aunque sea posible la representacin de un smbolo mediante una secuencia, el estndar especifica que siempre que exista una versin codificada su uso debe ser preferente. No hay un mtodo para

la descomposicin cannica de ideogramas ni algoritmos de equivalencia por lo que las operaciones sobre el texto, como bsqueda u ordenacin, pueden fallar. Unicode define 12 caracteres diferentes para la descripcin de ideogramas representando distintas posibilidades de combinacin espacial de otros caracteres Han.

Elementos del estndar Unicode [editar]


Principios de diseo [editar]
El estndar fue diseado con los siguientes objetivos:

Universalidad: Un repertorio suficientemente amplio que albergue a todos los caracteres probables en el intercambio de texto multlinge.

Eficiencia: Las secuencias generadas deben ser fciles de tratar. No ambigedad: Un cdigo dado siempre representa el mismo carcter.

Base de datos de caracteres [editar]


El conjunto de caracteres codificados por Unicode, es la Base de Datos Unicode o UCD ( Unicode Character Database). Adems de nombre y punto de cdigo, incluye ms informacin: alfabeto al que pertenece, nombre, clasificacin, capitalizacin, orientacin y otras formas de uso, variantes estandarizadas, reglas de combinacin, etc. Formalmente la base de datos se divide en planos y estos a su vez en reas y bloques. Con excepciones, los caracteres codificados se agrupan en el espacio de cdigos siguiendo categoras como alfabeto o sistema de escritura, de forma que caracteres relacionados se encuentren cerca en tablas de codificacin.

Planos [editar]
Por conveniencia se ha dividido el espacio de cdigos en grandes grupos denominados planos. Cada plano contiene un mximo de 65 535 caracteres. Dado un punto de cdigo expresado en hexadecimal, los 4 ltimos dgitos determinan la posicin del carcter en el plano.

Plano bsico multilinge: BMP o plano 0. Contiene la mayor parte de los alfabetos modernos, incluyendo los caracteres ms comunes del sistema CJK, otros caracteres histricos o poco habituales y 64reservadas para uso privado.

Plano suplementario multilinge: SMP o plano 1. Alfabetos histricos de menor uso y sistemas de uso tcnico u otros usos.

Plano suplementario ideogrfico: SIP o plano 2. Contiene los caracteres del sistema CJK que no se incluyen en el plano 0. La mayora son caracteres muy raros o de inters histrico.

Plano de propsito especial: SSP o plano 14. rea para caracteres de control que no se han introducido en el plano 0.

Planos de uso privado: Planos 15 y 16. Reservados para uso privado por fabricantes de software.

reas y bloques [editar]


Los distintos planos se dividen en reas de direccionamiento en funcin de los tipos generales que incluyen. Esta divisin es convencional, no reglada y puede variar con el tiempo. Las reas se dividen, a su vez, en bloques. Los bloques estn definidos normativamente y son rangos consecutivos del espacio de cdigos. Los bloques se utilizan para formar las tablas impresas de caracteres pero no deben tomarse como definiciones de grupos significativos de caracteres.

Tratamiento de la informacin [editar]


Formas de codificacin [editar]
Los puntos de cdigo de Unicode se identifican por un nmero entero. Segn su arquitectura, un ordenador utilizar unidades de 8, 16 o 32 bits para representar dichos enteros. Las formas de codificacin de Unicode reglamentan la forma en que los puntos de cdigo se transformarn en unidades tratables por el computador. Unicode define tres formas de codificacin bajo el nombre UTF o Formato de Transformacin Unicode (Unicode Transformation Format):10

UTF-8 codificacin orientada a byte con smbolos de longitud variable. UTF-16 codificacin de 16 bits de longitud variable optimizada para la representacin del plano bsico multilinge (BMP).

UTF-32 codificacin de 32 bits de longitud fija, y la ms sencilla de las tres.

Las formas de codificacin se limitan a describir el modo en que se representan los puntos de cdigo en formato inteligible por la mquina. A partir de las 3 formas identificadas se definen 7 esquemas de codificacin.

Esquemas de codificacin [editar]


Los esquemas de codificacin tratan de la forma en que se serializa la informacin codificada.10 La seguridad en los intercambios de informacin entre sistemas heterogneos requiere la implementacin de sistemas que permitan determinar el orden correcto de los bits y bytes y garantizar que la reconstruccin de la informacin es correcta. Una diferencia fundamental entreprocesadores es el orden de disposicin de los bytes en palabras de 16 y 32 bits, lo que se denomina endianness. Los esquemas de codificacin deben garantizar que los extremos de una comunicacin saben cmo interpretar la

informacin recibida. A partir de las 3 formas de codificacin se definen 7 esquemas. A pesar de que comparten nombres, no debe confundirse esquemas y formas de codificacin.

Esquema de codificacin Endianness

Admite BOM

UTF-8

No aplicable

UTF-16

Big-endian o Little-endian S

UTF-16BE

Big-endian

No

UTF-16LE

Little-endian

No

UTF-32

Big-endian o Little-endian S

UTF-32BE

Big-endian

No

UTF-32LE

Little-endian

No

Unicode define una marca especial, la marca de orden de bytes (BOM, Byte Order Mark), al inicio de un fichero o una comunicacin para hacer explcita la ordenacin de bytes. Cuando un protocolo superior especifica el orden de bytes, la marca no es necesaria y puede omitirse dando lugar a los esquemas de la lista anterior con sufijo BE o LE. En los esquemas UTF-16 y UTF-32, que admiten BOM, si este no se especifica se asume que la ordenacin de bytes es big-endian. La unidad de codificacin en UTF-8 es el byte por lo que no necesita una indicacin de orden de byte. El estndar ni requiere ni recomienda la utilizacin de BOM, pero lo admite como marca de que el texto es Unicode o como resultado de la conversin de otros esquemas.

Historia [editar]
El proyecto Unicode se inici a finales de 1987, tras conversaciones entre los ingenieros de Apple y Xerox: Joe Becker, Lee Collins y Mark Davis.11 Como resultado de su colaboracin, en agosto de 1988 se public el primer borrador de Unicode bajo el nombre de Unicode88.12 Esta primera versin, con cdigos de 16 bits, se public asumiendo que solo se codificaran los caracteres necesarios para el uso moderno.

Durante el ao 1989 el trabajo continu con la adicin de colaboradores de otras compaas como Microsoft o Sun Microsystems. El Consorcio Unicode se form el 3 de febrero de 1991 y en octubre de 1991 se public la primera versin del estndar. La segunda versin, incluyendo escritura ideogrfica Han se public en junio de 1992. A continuacin se muestra una tabla con las distintas versiones del Estndar Unicode con sus adiciones o modificaciones ms importantes.

Edici n ISO Ve Pub Esc Fec /IEC rsi lica ritu ha 10646 n cin ras asoci # ada

Caracteres

Adiciones notables

Oct 1. ubr 0. e de 0 199 1

ISB N 0201567 881(V ol.1)

24

El repertorio inicial cubre los 71 alfabetos: rabe, armenio, bengali, bopomofo, cirlico, devanagari, georgian 61 o,griego/copto, guyarat, gurmukhi, hangul, hebreo, hiragana, kannada, kata kana, lao, latino, malayalam, oriya,tamil, telug, thai, y tibetano.13

ISB N 0Juni 1. 201o 0. 608 199 1 452 6(V ol.2)

25

28 3 Definido el primer conjunto de 20 902 ideogramas CJK unificados.13 59

Juni 1. o 1 199 3

ISO/I EC 10646 24 1:199 3

34 Se agregan 4306 caracteres hangul ms al conjunto original de 2350. Se 2 elimina el alfabeto tibetano.13 33

ISB Juli N 02. o 2010 199 483 6 45-9

ISO/I EC 10646 25 1:199 3 con enmie ndas 5, 6 y

Eliminado el conjunto original de caracteres hangul; se agrega un nuevo 38 conjunto de 11 172 caracteres Hangul en una nueva ubicacin. Se 9 reincorpora el alfabeto tibetano en una nueva ubicacin y con un juego de 50 caracteres diferente. Se define el sistema de cdigos subrogados y se crean los planos 15 y 16 de caracteres para uso privado.13

Ma 2. yo 1 199 8

ISO/I EC 10646 1:199 3 con enmie ndas 25 5, 6 y 7, y dos caract eres de la enmie nda 18

38 9 Se agrega el smbolo del euro.13 52

Sep tie 3. mbr 0 e 199 9

ISB N 0201616 33-5

ISO/I EC 10646 38 1:200 0

Ideogramas cheroqui. 49 Escrituras etope, jemer, mongol, Myanmar, ogham, alfabeto 2 rnico, cingals, siraco,thaana, silabario unificado de los indgenas 59 canadienses, y yi adems de los patrones braille.13

Mar zo 3. de 1 200 1

ISO/I EC 10646 1:200 0 ISO/I EC 10646 2:200 1 ISO/I EC 10646 45 1:200 0 con la 41 94 Se agregan los alfabetos deseret, gtico y etrusco, y los smbolos de notacin 2 musical moderna, msica bizantina, y 42.711 ideogramas 05 de CJK unificado.14

Mar 3. zo 2 200 2

95 2 Agregadas las escrituras filipinas: buhid, hanun'o, tagalo, y tagbanwa.14 21

enmie nda 1 ISO/I EC 10646 2:200 1 ISB Abr N 04. il 3210 200 185 3 78-1 ISO/I EC 52 10646 :2003 ISO/I EC 10646 :2003 59 con enmie nda 1 ISO/I EC 10646 :2003 con enmie ndas 1 64 y2y cuatro caract eres de la enmie nda 3 ISO/I EC 10646 :2003 ms 75 enmie ndas 1, 2, 3 y4 ISB N 9781936 213ISO/I EC 10646 90 :2003 ms enmie

96 Se agrega el silabario chipriota, limbu, lineal B, osmanya, shaviano, tai le, 4 y ugartico, y los hexagramas I Ching.14 47

Mar 4. zo 1 200 5

97 Agregados bugins, glagoltico, kharoshthi, new tai lue, persa antiguo, syloti 7 nagri, y nifinagh. Se separa el coptodel alfabeto griego. Smbolos griegos 20 antiguos para msica y numeracin.14

ISB Juli N 05. o de 3210 200 480 6 91-0

99 0 Agregados: Balins, cuneiforme, N'Ko, phags-pa, y fenicio.14 89

Abr 5. il 1 200 8

10 0 71 3

Agregados: Escritura caria, cham, kayah li, escritura lepcha, alfabeto licio, alfabeto lidio, alfabeto Ol Chiki, Rejang,saurashtra, sundans, y el silabario vai. Los jeroglficos del disco de Festos, fichas de mahjong y de domin. Adiciones importantes para el birmano, letras y abreviaturas de amanuense utilizadas en manuscritos medievales y la adicin de la mayscula.15

Oct ubr 5. e 2 200 9

10 7 36 1

Agregados: Bamm, javans, lisu, meetei mayek, samaritano, tai tham, y tai viet. Se ha ampliado el devanagari con la adicin del alfabeto snscrito. Ampliaciones importantes para abjasio, el Silabario unificado de los indgenas canadienses, copto, Khamti Shan, malayo, myanmar. Tambin se agregan smbolos y caracteres histricos como los jeroglficos egipcios de Gardiner, arameo imperial, avstico, kaithi, antiguo rabe del Sur yturco

00-9 ndas de 1 a 6

antiguo.16

La versin 6.0 es la primera versin principal del estndar publicada Oct ubr 6. e 0 201 0 ISB N 9781936 21301-6 exclusivamente en soporte electrnico. Agregados mandeo, batak y brahmi, ISO/I EC 93 10646 :2011 10 ampliaciones de leguajes africanos como tifinagh, etope y bamm. Otras 9 44 adiciones importantes son: 222 ideogramas CJK, 1.000 smbolos incluyendo 9 los pictogramas emoji, el nuevo smbolo oficial para la rupia y smbolos alqumicos adems de ampliaciones de los atributos de los caracteres y otras modificaciones normativas y algortmicas.17

Você também pode gostar