Unicode
Origem: Wikipédia, a enciclopédia livre.
Série Unicode |
Unicode
|
UCS |
UTF-7 |
UTF-8 |
UTF-16 |
UTF-32 |
SCSU |
Punycode |
O Unicode é o padrão de codificação de caracteres desenvolvido pelo Unicode Consortium. Este vem sendo adotado por muitas grandes empresas no sentido de padronizar a codificação de caracteres. Esta codificação sempre foi problemática devido à existência de diferentes padrões (ASCII pt, en, etc, EBCDIC, etc.) e da incompatibilidade entre eles, o que fazia com que a representação de texto entre diferentes idiomas ficasse confusa devido às diferentes interpretações, por exemplo, dos caracteres especiais e acentuados (ç, Ç, ã, Ã, õ, Õ, ö, Ö, etc.).
O Unicode associa um número para cada caracter, independente do programa, plataforma ou idioma.
O Unicode abrange quase todas as escritas em uso atualmente, além das escritas históricas já extintas e os símbolos, em especial os matemáticos e os musicais.
A primeira versão (1991), baseada na codificação de 16 bit abarcava 65.536 caracteres. Já a última, Unicode 4.1, permite o registro de, aproximadamente, um milhão de caracteres. Em torno de 135.000 caracteres já estão registrados, sendo a maioria, caracteres de origem chinesa.
O conjunto de caracteres Unicode tem várias formas de representação como: UTF-8, UTF-16 e UTF-32.
[editar] Ver também
[editar] Ligações externas
- Unicode.org
- DecodeUnicode - Unicode WIKI 50.000 gifs