Codificacion de Caracteres

CODIFICACION DE CARACTERES
ERNESTO CELIS MARIN

emarin638@misena.edu.co
Qu es la codificacin de caracteres?
Cuando hablamos de codificacin de caracteres en informtica nos referimos al
mtodo que permite convertir un caracter de un lenguaje natural (alfabeto o
silabario) en un smbolo de otro sistema de representacin, por ejemplo en un
nmero, una secuencia de pulsos elctricos en un sistema electrnico, octetos
aplicando normas o reglas de codificacin. Esto con la finalidad de facilitar el
almacenamiento de texto en computadoras o para facilitar la transmisin de texto a
travs de la redes de telecomunicaciones, un ejemplo muy simple puede ser el
del cdigo morse.
Convencionalmente juego de caracteres y codificacin de caracteres eran
considerados sinnimos, por eso se puede defirnir a ambos cmo charset que es
un completo sistema de codificacin de caracteres en una secuencia de octetos.
Tipos principales de codificacin
Tambin son llamadas normas de codificacin y definen la forma en la que se

codifica un carcter dado en un smbolo en otro sistema de representacin, aqu
slo voy a definir los ms utilizados:
El primero y ms Antiguo:
CDIGO MORSE
El cdigo morse o tambin conocido como alfabeto morse es un sistema de

representacin de letras y nmeros mediante seales emitidas de forma
intermitente.
Cdigo Morse, publicacin de 1922.
Fue
desarrollado
por Alfred
Vail mientras
colaboraba
en 1830 con Samuel
Morse en la invencin del telgrafo elctrico. Vail cre un mtodo segn el cual
cada letra o nmero era transmitido de forma individual con un cdigo consistente
en rayas y puntos, es decir, seales telegrficas que se diferencian en el tiempo de
duracin de la seal activa. La duracin del punto es la mnima posible. Una raya
tiene una duracin de aproximadamente tres veces la del punto. Entre cada par
de smbolos de una misma letra existe una ausencia de seal con duracin
aproximada a la de un punto. Entre las letras de una misma palabra, la ausencia
es de aproximadamente tres puntos. Para la separacin de palabras transmitidas
el tiempo es de aproximadamente tres veces el de la raya. Morse reconoci la
idoneidad de este sistema y lo patent junto con el telgrafo elctrico. Fue
conocido como American Morse Code y fue utilizado en la primera transmisin
por telgrafo.
ASCII
De sus siglas en ingls American Standard Code for Information Interchange (Cdigo
Estadounidense Estndar para el Intercambio de Informacin), pronunciado
generalmente [ski], es un cdigo de caracteres basado en el alfabeto latino tal
como se usa en ingls moderno y en otras lenguas occidentales. Fue creado en
1963 por el Comit Estadounidense de Estndares (ASA, conocido desde 1969
como el Instituto Estadounidense de Estndares Nacionales, o ANSI) como una
refundicin o evolucin de los conjuntos de cdigos utilizados entonces en
telegrafa. Ms tarde, en 1967, se incluyeron las minsculas, y se redefinieron
algunos cdigos de control para formar el cdigo conocido como US-ASCII.
Por estar ntimamente ligado al octeto (y por consiguiente a los enteros que van
del 0 al 127), el problema que presenta es que no puede codificar ms que 128
smbolos diferentes (128 es el nmero total de diferentes configuraciones que se

pueden conseguir con 7 dgitos binarios o digitales (0000000, 0000001,...,
1111111), usando el octavo dgito de cada octeto (bit o dgito de paridad) para
detectar algn error de transmisin). Un cupo de 128 es suficiente para incluir
maysculas y minsculas del abecedario ingls, adems de cifras, puntuacin, y
algunos "caracteres de control" (por ejemplo, uno que instruye a una impresora
que pase a la hoja siguiente), pero el ASCII no incluye ni los caracteres
acentuados ni el comienzo de interrogacin que se usa en castellano, ni tantos
otros smbolos (matemticos, letras griegas,...) que son necesarios en muchos
contextos.
ASCII Extendido
Se denomina ASCII extendido a cualquier juego de caracteres de 8 bits en el cual

los cdigos 32 a 126 (0x20 a 0x7E) coinciden con los caracteres imprimibles de
ASCII, as como los caracteres comnmente llamados de espacio, estos son los
cdigos de control de 8 a 13 (0x08 a 0x0D), ambos inclusive.
Las codificaciones de ASCII extendido utilizan adems parte o la totalidad de los
cdigos superiores a 128 para codificar caracteres adicionales a los caracteres
imprimibles ASCII.
Codificaciones ASCII extendido ms comunes:
Pgina de cdigos 437 (usual en las versiones en ingls del IBM PC y MSDOS)
Pgina de cdigos 850 (usual en las versiones de Europa occidental del

IBM PC y MS-DOS)
Latin-1 (ISO-8859-1) (tpico de Unix y, con modificaciones, en Microsoft Windows y

Macintosh)
Unicode
Unicode es un estndar de codificacin de caracteres diseado para facilitar el

tratamiento
informtico,
transmisin
y
visualizacin
de
textos
de
mltiples lenguajes y disciplinas tcnicas, adems de textos clsicos de lenguas
muertas. El trmino Unicode proviene de los tres objetivos perseguidos:
universalidad, uniformidad y unicidad.
1. Unicode especifica un nombre e identificador numrico nico para cada carcter
o smbolo, el code point (punto de cdigo), adems de otras informaciones
necesarias para su uso correcto: direccionalidad, maysculas y otros atributos.
Unicode trata los caracteres alfabticos, ideogrficos y smbolos de forma
equivalente, lo que significa que se pueden mezclar en un mismo texto sin la
introduccin de marcas o caracteres de control.
2. Este estndar es mantenido por el Unicode Technical Committee (UTC),

integrado en el Consorcio Unicode, del que forman parte con distinto grado de
implicacin empresas como: Microsoft, Apple, Adobe, IBM, Oracle, SAP, Google
o Yahoo, instituciones como la Universidad de Berkeley, y profesionales y
acadmicos a ttulo individual.
3. El Unicode Consortium mantiene estrecha relacin con ISO/IEC, con la que
mantiene desde 1991 el acuerdo de sincronizar sus estndares que contienen los
mismos caracteres y puntos de cdigo.
4. El establecimiento de Unicode ha sido un ambicioso proyecto para reemplazar
los esquemas de codificacin de caracteres existentes, muchos de los cuales
estn muy limitados en tamao y son incompatibles con entornos plurilinges.
Unicode se ha vuelto el ms extenso y completo esquema de codificacin de
caracteres, siendo el dominante en la internacionalizacin y adaptacin local del
software informtico. El estndar ha sido implementado en un nmero
considerable de tecnologas recientes, que incluyen XML, Java y sistemas
operativos modernos.
La descripcin completa del estndar y las tablas de caracteres estn disponibles
en la pgina web oficial de Unicode [1]. La referencia completa se publica,
adems, en forma de libro impreso cada vez que se libera una nueva versin
principal. La versin digital de este libro est disponible de forma gratuita. Las
revisiones y adiciones se publican de forma independiente.
Otras codificaciones de caracteres populares
ISO 646
ASCII
EBCDIC
ISO 8859:
ISO 8859-1, ISO 8859-2, ISO 8859-3, ISO 8859-4, ISO 8859-5, ISO
8859-6, ISO 8859-7, ISO 8859-8, ISO 8859-9, ISO 8859-10, ISO 8859-11,
ISO 8859-13, ISO 8859-14, ISO 8859-15, ISO 8859-16
CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860,

CP861, CP863, CP865, CP866, CP869
Juegos de caracteres de MS-Windows:
Windows-1250 para idiomas de europa central que utilizan el

alfabeto latino, (polaco, checo, eslovaco, hngaro, eslovenio, croata,
rumano y albans)
Windows-1251 para alfabetos cirlicos
Windows-1252 para idiomas occidentales
Windows-1253 para griego
Windows-1254 para turco
Windows-1255 para hebreo
Windows-1256 para rabe
Windows-1257 para idomas blticos
Windows-1258 para vietnamita
Mac OS Romano
KOI8-R, KOI8-U, KOI7
MIK
Cork o T1
ISCII
VISCII
Big5 (variante de Microsoft Code pgina 950)
HKSCS
Guobiao
GB2312
GBK (Microsoft Code pgina 936)
GB18030
Shift JIS para japons (Microsoft Code pgina 932)
EUC-KR para coreano (Microsoft Code pgina 949)
ISO-2022 y EUC para juegos de caracteres CJK
Unicode (incluyendo los subjuegos 16-bit)
ANSEL o ISO/IEC 6937
WEBGRAFIA
http://techtastico.com/post/tipos-de-codificacion-de-caracteres/
http://es.wikipedia.org/wiki/C%C3%B3digo_morse
http://es.wikipedia.org/wiki/Codificaci%C3%B3n_de_caracteres
http://es.wikipedia.org/wiki/Unicode
http://es.wikipedia.org/wiki/UTF-8

Codificacion de Caracteres

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Codificacion de Caracteres

Enviado por

Direitos autorais:

Formatos disponíveis

CODIFICACION DE CARACTERES

ERNESTO CELIS MARIN

Tipos principales de codificacin

Tambin son llamadas normas de codificacin y definen la forma en la que se

El cdigo morse o tambin conocido como alfabeto morse es un sistema de

Cdigo Morse, publicacin de 1922.

en 1830 con Samuel

smbolos diferentes (128 es el nmero total de diferentes configuraciones que se

Se denomina ASCII extendido a cualquier juego de caracteres de 8 bits en el cual

Pgina de cdigos 850 (usual en las versiones de Europa occidental del

Latin-1 (ISO-8859-1) (tpico de Unix y, con modificaciones, en Microsoft Windows y

Unicode es un estndar de codificacin de caracteres diseado para facilitar el

2. Este estndar es mantenido por el Unicode Technical Committee (UTC),

Otras codificaciones de caracteres populares

CP437, CP737, CP850, CP852, CP855, CP857, CP858, CP860,

Windows-1250 para idiomas de europa central que utilizan el

Windows-1251 para alfabetos cirlicos

Windows-1252 para idiomas occidentales

Windows-1253 para griego

Windows-1254 para turco

Windows-1255 para hebreo

Windows-1256 para rabe

Windows-1257 para idomas blticos

Windows-1258 para vietnamita

KOI8-R, KOI8-U, KOI7

Big5 (variante de Microsoft Code pgina 950)

GBK (Microsoft Code pgina 936)

Shift JIS para japons (Microsoft Code pgina 932)

EUC-KR para coreano (Microsoft Code pgina 949)

ISO-2022 y EUC para juegos de caracteres CJK

Unicode (incluyendo los subjuegos 16-bit)

ANSEL o ISO/IEC 6937

Você também pode gostar