ISO 8859
Un article de Wikipédia, l'encyclopédie libre.
ISO 8859, également appelée plus formellement ISO/CEI 8859, est une norme commune de l'ISO et de la CEI de codage de caractères sur 8 bits pour le traitement informatique du texte. Le standard est divisé en parties numérotées publiées séparément, telles que ISO/CEI 8859-1, ISO/CEI 8859-2, etc., chacune pouvant être référencée de façon informelle comme norme en tant que telle. La norme comprend actuellement 15 parties.
Sommaire |
[modifier] Introduction
Alors que les 96 caractères ASCII imprimables suffisent à l'échange d'informations en anglais courant, la plupart des autres langues qui utilisent l'alphabet latin ont besoin de symboles additionnels non couverts par l'ASCII, tels que ß (allemand), å (suédois et d'autres langues nordiques). ISO 8859 a cherché à remédier à ce problème en utilisant le huitième bit de l'octet, pour donner de la place à 128 caractères supplémentaires. (Ce bit était jadis utilisé pour le contrôle de l'intégrité des données (bit de parité), ou était inutilisé.) Cependant, il fallait plus de caractères qu'on n'en pouvait mettre dans un jeu de caractères 8 bits, aussi plusieurs tables de correspondances ont été développées, en incluant au moins 10 tables pour couvrir uniquement l'écriture latine.
La norme ISO 8859-n n'est pas totalement identique aux codages de caractères bien connus ISO-8859-n approuvés par l'IANA pour l'utilisation sur l'Internet. Au-delà du trait d'union ajouté présent dans le nom approuvé par l'IANA, les codages diffèrent de sorte que chaque partie de la norme ISO assigne, au maximum, 191 caractères dans les étendues d'octets 32 à 126 et 160 à 255, alors que le codage de caractère correspondant approuvé par l'IANA fusionne ces tables de correspondances avec le jeu de contrôle C0 (caractères de contrôles positionnés aux octets de 0 à 31) de l'ISO 646 et le jeu de contrôle C1 (caractères de contrôles positionnés aux octets de 127 à 159) de l'ISO 6429, ce qui conduit à des tables de caractères 8 bits complètes, avec la plupart, sinon la totalité, des valeurs d'octets assignées. On utilise généralement ISO-8859-n comme nom MIME pour ces jeux de caractères. Beaucoup de gens emploient les termes ISO 8859-n et ISO-8859-n l'un pour l'autre.
[modifier] Caractères
La norme ISO 8859 est conçue pour l'échange fiable d'informations, et non pour la typographie ; elle omet des symboles nécessaires pour la typographie de haute qualité, tels que les ligatures optionnelles, les guillemets incurvés, les tirets, etc. De ce fait, les systèmes de composition avancés utilisent souvent des extensions propriétaires ou idiosyncratiques au-delà des standards ASCII et ISO 8859, ou utilisent plutôt Unicode.
En général, si un caractère ou le symbole ne faisait pas déjà partie d'un jeu de caractères informatique largement utilisé et n'était pas non plus disponible sur la plupart des claviers de machines à écrire pour une langue nationale, il n'était pas inclus. Par conséquent, les guillemets doubles directionnels («, ») utilisés pour quelques langues européennes ont été inclus, mais pas les guillemets double directionnel (“, ”) utilisés pour l'anglais et quelques autres langues.
Le français n'a pas obtenu ses ligatures « œ » et « Œ » parce que les francophones n'avaient pas eu suffisamment besoin d'elles pour les exiger sur leurs claviers ; ni le Ÿ, parce que ce caractère est seulement utilisé en français en texte majuscule. Cependant, ces caractères ont été inclus plus tard dans l'ISO 8859-15, qui a introduit aussi le nouveau caractère de l'Euro €. De même le néerlandais n'a pas obtenu les lettres ij et IJ parce que les néerlandophones s'étaient habitués à la dactylographie de ces lettres plutôt comme deux caractères.
Au début, le Roumain n'a pas obtenu ses lettres 'Ș/ș' et 'Ț/ț', parce que ces lettres ont d'abord été unifiées avec 'Ş/ş' et 'Ţ/ţ' par le Consortium Unicode qui considérait les formes avec virgule souscrite comme des variantes de glyphe des formes avec cédille.
Cependant, les lettres avec virgule souscrite ont été ajoutées ultérieurement à la norme Unicode et sont aussi dans ISO 8859-16.
La plupart des codes ISO 8859 fournissent des signes diacritiques requis pour diverses langues européennes. D'autres fournissent des alphabets non-romains : grec, cyrillique, hébreu, arabe et thaï. La plupart des codages ne contiennent que des caractères avec chasse, bien que les codages hébreu and arabe contiennent aussi des caractères combinatoires. Cependant, la norme ne fournit rien pour les caractères de langues de l'est asiatique (CJC), car leur système d’écriture idéographique exige de nombreux milliers de points de code.
Bien qu'il utilise à la base des caractères latins, le Vietnamien, lui aussi, n’est pas susceptible d’être représenté en 96 positions (sans utiliser des diacritiques combinatoires). Les syllabaires japonais Kana, quant à eux, le pourraient, mais, comme plusieurs autres alphabets du monde, ne sont pas codés dans le système ISO 8859.
[modifier] Les parties du standard ISO 8859
ISO 8859 est constitué à ce jour des parties suivantes :
- ISO 8859-1 (latin-1 ou européen occidental) — probablement la partie la plus largement utilisée de ISO 8859, couvrant la plupart des langues européennes occidentales : l'allemand, l'anglais, le basque, le catalan, le danois, l'écossais, l'espagnol, le féringien, le finnois (partiellement²), le français (partiellement²), l'islandais, l'irlandais, l'italien, le néerlandais (partiellement¹), le norvégien, le portugais, le rhéto-roman et le suédois, certaines langues européennes sud-orientales (l'albanais), ainsi que des langues africaines (l'afrikaans et le swahili). Le symbole de l'euro et la capitale Ÿ, qui manquaient, sont dans la version révisée ISO 8859-15 (latin-9). Le jeu de caractères correspondant ISO-8859-1, approuvé par l'IANA, est le codage par défaut des anciens documents HTML ou des documents transmis par messages MIME, tels que les réponses HTTP quand le type de média du document est « text » (par exemple les documents « text/html »).
- ISO 8859-2 (latin-2 ou européen central) — prend en charge celles des langues d'Europe centrale ou de l'Est basées sur un alphabet romain. Ceci inclut le bosniaque, le croate, le polonais, le tchèque, le slovaque, le slovène et le hongrois. Le symbole de l'euro manquant est présent dans la version ISO 8859-16.
- ISO 8859-3 (latin-3 ou européen du Sud) — le turc, le maltais, et l'espéranto ; largement supplanté par ISO 8859-9 pour le turc, et par Unicode pour l'espéranto.
- ISO 8859-4 (latin-4 ou européen du Nord) — l'estonien, le letton, le lituanien, le groenlandais, et le sami.
- ISO 8859-5 (cyrillique) — Couvre la plupart des langues slaves utilisant un alphabet cyrillique, y compris le biélorusse, le bulgare, le macédonien, le russe, le serbe et l'ukrainien (partiellement³).
- ISO 8859-6 (arabe) — Couvre les caractères les plus courants de l'arabe. Ne prend pas en charge d'autres langues à alphabet arabe. Nécessite un moteur de rendu qui prend en charge l'affichage bi-directionnel et l'annalyse contextuelle.
- ISO 8859-7 (grec) — Couvre la langue grecque moderne (orthographe monotonique). Peut être utilisé aussi pour le grec ancien écrit sans accents ou dans l'orthographe monotonique, mais il manque les signes diacritiques pour l'orthographe polytonique. Ceux-ci ont été introduits avec Unicode.
- ISO 8859-8 (hébreu) — Couvre l'alphabet hébraïque moderne tel qu'il est utilisé en Israël. En pratique, deux codes différents existent : ordre logique (nécessite un moteur de rendu bi-directionnel pour l'affichage) et ordre visuel (gauche à droite).
- ISO 8859-9 (latin-5 ou turc) — Grosso modo le même que l'ISO 8859-1, où les lettres islandaises peu utilisées sont remplacées par des lettres turques. Il est aussi utilisé pour le kurde.
- ISO 8859-10 (latin-6 ou nordique) — Un réarrangement du latin-4. Considéré plus utile pour les langues nordiques. Les langues baltes utilisent plus souvent le latin-4.
- ISO 8859-11 (thaï) — Contient la plupart des glyphes requis pour la langue thaï.
- ISO 8859-12 — Était supposé couvrir l'alphabet devanāgarī, mais ce projet a été abandonné en 1997. ISCII et Unicode/ISO/CEI 10646 couvrent le devanāgarī.
- ISO 8859-13 (latin-7 ou balte) — Ajoute quelques caractères supplémentaires pour les langues baltes qui manquaient en latin-4 et latin-6.
- ISO 8859-14 (latin-8 ou celtique) — Couvre des langues celtes telles que le gaélique et le breton.
- ISO 8859-15 (latin-9 ou parfois de façon impropre latin-0) — une révision de 8859-1 qui abandonne quelques symboles peu utilisés, les remplaçant avec le symbole de l'euro € et les lettres Š, š, Ž, ž, Œ, œ, et Ÿ, ce qui complète la couverture du français, du finnois et de l'estonien.
- ISO 8859-16 (latin-10 ou européen du Sud-Est) — Prévu pour l’albanais, le croate, le hongrois, l'italien, le polonais, le roumain et le slovène, mais aussi le finlandais, le français, l'allemand et le gaélique irlandais (en nouvelle orthographe). Cette police mise plus sur les lettres que les symboles. Le signe de monnaie est remplacé par le symbole de l'Euro.
¹: seul le IJ/ij (Dutch Y) manque, et peut être représenté comme IJ
²: les caractères manquants sont dans l'ISO 8859-15
³: les caractères manquants Ґ/ґ ont été réintroduits en ukrainien en 1991.
Chaque partie d'ISO 8859 est conçue pour représenter des langues qui emprunte souvent l'une de l'autre, ainsi les caractères nécessaires pour chaque langue sont d'habitude accommodée par une partie seule. Cependant, il y a quelques combinaisons de caractères et langue qui ne sont pas accommodées sans les transcriptions. Les efforts ont été faits pour rendre les conversions le plus facile possible. Par exemple, Allemand a tous ses sept caractères spéciaux aux positions pareilles dans toutes variantes latines (1-4, 9-10, 13-16), et en beaucoup de positions que les caractères diffèrent seulement les signes diacritiques varient entre les séries. En particulier, les variantes 1-4 ont été conçus conjointement et ont la propriété que chaque caractère codé apparaît à une position donnée ou pas du tout.
[modifier] Table
binaire | Oct | Déc | Hex | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 13 | 14 | 15 | 16 | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
10100000 | 240 | 160 | A0 | NBSP | |||||||||||||||
10100001 | 241 | 161 | A1 | ¡ | Ą | Ħ | Ą | Ё | ʽ | ¡ | Ą | ก | " | Ḃ | ¡ | Ą | |||
10100010 | 242 | 162 | A2 | ¢ | ˘ | ˘ | ĸ | Ђ | ʼ | ¢ | ¢ | Ē | ข | ¢ | ḃ | ¢ | ą | ||
10100011 | 243 | 163 | A3 | £ | Ł | £ | Ŗ | Ѓ | £ | £ | £ | Ģ | ฃ | £ | £ | £ | Ł | ||
10100100 | 244 | 164 | A4 | ¤ | ¤ | ¤ | ¤ | Є | ¤ | € | ¤ | ¤ | Ī | ค | ¤ | Ċ | € | € | |
10100101 | 245 | 165 | A5 | ¥ | Ľ | Ĩ | Ѕ | ₯ | ¥ | ¥ | Ĩ | ฅ | " | ċ | ¥ | " | |||
10100110 | 246 | 166 | A6 | ¦ | Ś | Ĥ | Ļ | І | ¦ | ¦ | ¦ | Ķ | ฆ | ¦ | Ḋ | Š | Š | ||
10100111 | 247 | 167 | A7 | § | § | § | § | Ї | § | § | § | § | ง | § | § | § | § | ||
10101000 | 250 | 168 | A8 | ¨ | ¨ | ¨ | ¨ | Ј | ¨ | ¨ | ¨ | Ļ | จ | Ø | Ẁ | š | š | ||
10101001 | 251 | 169 | A9 | © | Š | İ | Š | Љ | © | © | © | Đ | ฉ | © | © | © | © | ||
10101010 | 252 | 170 | AA | ª | Ş | Ş | Ē | Њ | × | ª | Š | ช | Ŗ | Ẃ | ª | Ș | |||
10101011 | 253 | 171 | AB | « | Ť | Ğ | Ģ | Ћ | « | « | « | Ŧ | ซ | « | ḋ | « | « | ||
10101100 | 254 | 172 | AC | ¬ | Ź | Ĵ | Ŧ | Ќ | ، | ¬ | ¬ | ¬ | Ž | ฌ | ¬ | Ỳ | ¬ | Ź | |
10101101 | 255 | 173 | AD | | | | | | | | | | | ญ | | | | | |
10101110 | 256 | 174 | AE | ® | Ž | Ž | Ў | ® | ® | Ū | ฎ | ® | ® | ® | ź | ||||
10101111 | 257 | 175 | AF | ¯ | Ż | Ż | ¯ | Џ | ― | ‾ | ¯ | Ŋ | ฏ | Æ | Ÿ | ¯ | Ż | ||
10110000 | 260 | 176 | B0 | ° | ° | ° | ° | А | ° | ° | ° | ° | ฐ | ° | Ḟ | ° | ° | ||
10110001 | 261 | 177 | B1 | ± | ą | ħ | ą | Б | ± | ± | ± | ą | ฑ | ± | ḟ | ± | ± | ||
10110010 | 262 | 178 | B2 | ² | ˛ | ² | ˛ | В | ² | ² | ² | ē | ฒ | ² | Ġ | ² | Č | ||
10110011 | 263 | 179 | B3 | ³ | ł | ³ | ŗ | Г | ³ | ³ | ³ | ģ | ณ | ³ | ġ | ³ | ł | ||
10110100 | 264 | 180 | B4 | ´ | ´ | ´ | ´ | Д | ΄ | ´ | ´ | ī | ด | " | Ṁ | Ž | Ž | ||
10110101 | 265 | 181 | B5 | µ | ľ | µ | ĩ | Е | ΅ | µ | µ | ĩ | ต | µ | ṁ | µ | " | ||
10110110 | 266 | 182 | B6 | ¶ | ś | ĥ | ļ | Ж | Ά | ¶ | ¶ | ķ | ถ | ¶ | ¶ | ¶ | ¶ | ||
10110111 | 267 | 183 | B7 | · | ˇ | · | ˇ | З | · | · | · | · | ท | · | Ṗ | · | · | ||
10111000 | 270 | 184 | B8 | ¸ | ¸ | ¸ | ¸ | И | Έ | ¸ | ¸ | ļ | ธ | ø | ẁ | ž | ž | ||
10111001 | 271 | 185 | B9 | ¹ | š | ı | š | Й | Ή | ¹ | ¹ | đ | น | ¹ | ṗ | ¹ | č | ||
10111010 | 272 | 186 | BA | º | ş | ş | ē | К | Ί | ÷ | º | š | บ | ŗ | ẃ | º | ș | ||
10111011 | 273 | 187 | BB | » | ť | ğ | ģ | Л | ؛ | » | » | » | ŧ | ป | » | Ṡ | » | » | |
10111100 | 274 | 188 | BC | ¼ | ź | ĵ | ŧ | М | Ό | ¼ | ¼ | ž | ผ | ¼ | ỳ | Œ | Œ | ||
10111101 | 275 | 189 | BD | ½ | ˝ | ½ | Ŋ | Н | ½ | ½ | ½ | ― | ฝ | ½ | Ẅ | œ | œ | ||
10111110 | 276 | 190 | BE | ¾ | ž | ž | О | Ύ | ¾ | ¾ | ū | พ | ¾ | ẅ | Ÿ | Ÿ | |||
10111111 | 277 | 191 | BF | ¿ | ż | ż | ŋ | П | ؟ | Ώ | ¿ | ŋ | ฟ | æ | ṡ | ¿ | ż | ||
11000000 | 300 | 192 | C0 | À | Ŕ | À | Ā | Р | ΐ | À | Ā | ภ | Ą | À | À | À | |||
11000001 | 301 | 193 | C1 | Á | Á | Á | Á | С | ء | Α | Á | Á | ม | Į | Á | Á | Á | ||
11000010 | 302 | 194 | C2 | Â | Â | Â | Â | Т | آ | Β | Â | Â | ย | Ā | Â | Â | Â | ||
11000011 | 303 | 195 | C3 | Ã | Ă | Ã | У | أ | Γ | Ã | Ã | ร | Ć | Ã | Ã | Ă | |||
11000100 | 304 | 196 | C4 | Ä | Ä | Ä | Ä | Ф | ؤ | Δ | Ä | Ä | ฤ | Ä | Ä | Ä | Ä | ||
11000101 | 305 | 197 | C5 | Å | Ĺ | Ċ | Å | Х | إ | Ε | Å | Å | ล | Å | Å | Å | Ć | ||
11000110 | 306 | 198 | C6 | Æ | Ć | Ĉ | Æ | Ц | ئ | Ζ | Æ | Æ | ฦ | Ę | Æ | Æ | Æ | ||
11000111 | 307 | 199 | C7 | Ç | Ç | Ç | Į | Ч | ا | Η | Ç | Į | ว | Ē | Ç | Ç | Ç | ||
11001000 | 310 | 200 | C8 | È | Č | È | Č | Ш | ب | Θ | È | Č | ศ | Č | È | È | È | ||
11001001 | 311 | 201 | C9 | É | É | É | É | Щ | ة | Ι | É | É | ษ | É | É | É | É | ||
11001010 | 312 | 202 | CA | Ê | Ę | Ê | Ę | Ъ | ت | Κ | Ê | Ę | ส | Ź | Ê | Ê | Ê | ||
11001011 | 313 | 203 | CB | Ë | Ë | Ë | Ë | Ы | ث | Λ | Ë | Ë | ห | Ė | Ë | Ë | Ë | ||
11001100 | 314 | 204 | CC | Ì | Ě | Ì | Ė | Ь | ج | Μ | Ì | Ė | ฬ | Ģ | Ì | Ì | Ì | ||
11001101 | 315 | 205 | CD | Í | Í | Í | Í | Э | ح | Ν | Í | Í | อ | Ķ | Í | Í | Í | ||
11001110 | 316 | 206 | CE | Î | Î | Î | Î | Ю | خ | Ξ | Î | Î | ฮ | Ī | Î | Î | Î | ||
11001111 | 317 | 207 | CF | Ï | Ď | Ï | Ī | Я | د | Ο | Ï | Ï | ฯ | Ļ | Ï | Ï | Ï | ||
11010000 | 320 | 208 | D0 | Ð | Đ | Đ | а | ذ | Π | Ğ | Ð | ะ | Š | Ŵ | Ð | Ð | |||
11010001 | 321 | 209 | D1 | Ñ | Ń | Ñ | Ņ | б | ر | Ρ | Ñ | Ņ | ั | Ń | Ñ | Ñ | Ń | ||
11010010 | 322 | 210 | D2 | Ò | Ň | Ò | Ō | в | ز | Ò | Ō | า | Ņ | Ò | Ò | Ò | |||
11010011 | 323 | 211 | D3 | Ó | Ó | Ó | Ķ | г | س | Σ | Ó | Ó | ำ | Ó | Ó | Ó | Ó | ||
11010100 | 324 | 212 | D4 | Ô | Ô | Ô | Ô | д | ش | Τ | Ô | Ô | ิ | Ō | Ô | Ô | Ô | ||
11010101 | 325 | 213 | D5 | Õ | Ő | Ġ | Õ | е | ص | Υ | Õ | Õ | ี | Õ | Õ | Õ | Ő | ||
11010110 | 326 | 214 | D6 | Ö | Ö | Ö | Ö | ж | ض | Φ | Ö | Ö | ึ | Ö | Ö | Ö | Ö | ||
11010111 | 327 | 215 | D7 | × | × | × | × | з | ط | Χ | × | Ũ | ื | × | Ṫ | × | Ś | ||
11011000 | 330 | 216 | D8 | Ø | Ř | Ĝ | Ø | и | ظ | Ψ | Ø | Ø | ุ | Ų | Ø | Ø | Ű | ||
11011001 | 331 | 217 | D9 | Ù | Ů | Ù | Ų | й | ع | Ω | Ù | Ų | ู | Ł | Ù | Ù | Ù | ||
11011010 | 332 | 218 | DA | Ú | Ú | Ú | Ú | к | غ | Ϊ | Ú | Ú | ฺ | Ś | Ú | Ú | Ú | ||
11011011 | 333 | 219 | DB | Û | Ű | Û | Û | л | Ϋ | Û | Û | Ū | Û | Û | Û | ||||
11011100 | 334 | 220 | DC | Ü | Ü | Ü | Ü | м | ά | Ü | Ü | Ü | Ü | Ü | Ü | ||||
11011101 | 335 | 221 | DD | Ý | Ý | Ŭ | Ũ | н | έ | İ | Ý | Ż | Ý | Ý | Ę | ||||
11011110 | 336 | 222 | DE | Þ | Ţ | Ŝ | Ū | о | ή | Ş | Þ | Ž | Ŷ | Þ | Ț | ||||
11011111 | 337 | 223 | DF | ß | ß | ß | ß | п | ί | ‗ | ß | ß | ฿ | ß | ß | ß | ß | ||
11100000 | 340 | 224 | E0 | à | ŕ | à | ā | р | ـ | ΰ | א | à | ā | เ | ą | à | à | à | |
11100001 | 341 | 225 | E1 | á | á | á | á | с | ف | α | ב | á | á | แ | į | á | á | á | |
11100010 | 342 | 226 | E2 | â | â | â | â | т | ق | β | ג | â | â | โ | ā | â | â | â | |
11100011 | 343 | 227 | E3 | ã | ă | ã | у | ك | γ | ד | ã | ã | ใ | ć | ã | ã | ă | ||
11100100 | 344 | 228 | E4 | ä | ä | ä | ä | ф | ل | δ | ה | ä | ä | ไ | ä | ä | ä | ä | |
11100101 | 345 | 229 | E5 | å | ĺ | ċ | å | х | م | ε | ו | å | å | ๅ | å | å | å | ć | |
11100110 | 346 | 230 | E6 | æ | ć | ĉ | æ | ц | ن | ζ | ז | æ | æ | ๆ | ę | æ | æ | æ | |
11100111 | 347 | 231 | E7 | ç | ç | ç | į | ч | ه | η | ח | ç | į | ็ | ē | ç | ç | ç | |
11101000 | 350 | 232 | E8 | è | č | è | č | ш | و | θ | ט | è | č | ่ | č | è | è | è | |
11101001 | 351 | 233 | E9 | é | é | é | é | щ | ى | ι | י | é | é | ้ | é | é | é | é | |
11101010 | 352 | 234 | EA | ê | ę | ê | ę | ъ | ي | κ | ך | ê | ę | ๊ | ź | ê | ê | ê | |
11101011 | 353 | 235 | EB | ë | ë | ë | ë | ы | ً | λ | כ | ë | ë | ๋ | ė | ë | ë | ë | |
11101100 | 354 | 236 | EC | ì | ě | ì | ė | ь | ٌ | μ | ל | ì | ė | ์ | ģ | ì | ì | ì | |
11101101 | 355 | 237 | ED | í | í | í | í | э | ٍ | ν | ם | í | í | ํ | ķ | í | í | í | |
11101110 | 356 | 238 | EE | î | î | î | î | ю | َ | ξ | מ | î | î | ๎ | ī | î | î | î | |
11101111 | 357 | 239 | EF | ï | ď | ï | ī | я | ُ | ο | ן | ï | ï | ๏ | ļ | ï | ï | ï | |
11110000 | 360 | 240 | F0 | ð | đ | đ | № | ِ | π | נ | ğ | ð | ๐ | š | ŵ | ð | đ | ||
11110001 | 361 | 241 | F1 | ñ | ń | ñ | ņ | ё | ّ | ρ | ס | ñ | ņ | ๑ | ń | ñ | ñ | ń | |
11110010 | 362 | 242 | F2 | ò | ň | ò | ō | ђ | ْ | ς | ע | ò | ō | ๒ | ņ | ò | ò | ò | |
11110011 | 363 | 243 | F3 | ó | ó | ó | ķ | ѓ | σ | ף | ó | ó | ๓ | ó | ó | ó | ó | ||
11110100 | 364 | 244 | F4 | ô | ô | ô | ô | є | τ | פ | ô | ô | ๔ | ō | ô | ô | ô | ||
11110101 | 365 | 245 | F5 | õ | ő | ġ | õ | ѕ | υ | ץ | õ | õ | ๕ | õ | õ | õ | ő | ||
11110110 | 366 | 246 | F6 | ö | ö | ö | ö | і | φ | צ | ö | ö | ๖ | ö | ö | ö | ö | ||
11110111 | 367 | 247 | F7 | ÷ | ÷ | ÷ | ÷ | ї | χ | ק | ÷ | ũ | ๗ | ÷ | ṫ | ÷ | ś | ||
11111000 | 370 | 248 | F8 | ø | ř | ĝ | ø | ј | ψ | ר | ø | ø | ๘ | ų | ø | ø | ű | ||
11111001 | 371 | 249 | F9 | ù | ů | ù | ų | љ | ω | ש | ù | ų | ๙ | ł | ù | ù | ù | ||
11111010 | 372 | 250 | FA | ú | ú | ú | ú | њ | ϊ | ת | ú | ú | ๚ | ś | ú | ú | ú | ||
11111011 | 373 | 251 | FB | û | ű | û | û | ћ | ϋ | û | û | ๛ | ū | û | û | û | |||
11111100 | 374 | 252 | FC | ü | ü | ü | ü | ќ | ό | ü | ü | ü | ü | ü | ü | ||||
11111101 | 375 | 253 | FD | ý | ý | ŭ | ũ | § | ύ | ı | ý | ż | ý | ý | ę | ||||
11111110 | 376 | 254 | FE | þ | ţ | ŝ | ū | ў | ώ | ş | þ | ž | ŷ | þ | ț | ||||
11111111 | 377 | 255 | FF | ÿ | ˙ | ˙ | ˙ | џ | ÿ | ĸ | ’ | ÿ | ÿ | ÿ |
A la position 0xA0 il y a toujours l'espace insécable et 0xAD est normalement le trait d'union « soft », qui est seulement montré aux coupures de ligne. Les autres champs vides sont soit non attribués soit des caractères que le système utilisé n'est pas capable d’afficher.
[modifier] Relations avec Unicode et UCS
Depuis 1991, le consortium Unicode a travaillé avec l'ISO pour développer Unicode et ISO/CEI 10646 : le jeu de caractères universel (UCS : Universal Character Set) en tandem. Cette paire de normes a été créée pour unifier, entre autre, le répertoire de caractère ISO 8859, en associant, initialement, chaque caractère à une valeur de code sur 16 bits ; quelques valeurs de code restant non attribuées.
Progressivement, leurs modèles ont été adaptés pour permettre la mise en correspondance des caractères avec des points de code numériques abstraits plutôt qu'avec des valeurs de longueur fixe. Ce qui a permis à davantage de points de code et de méthodes de codage d'être supportées.
Unicode et l'ISO/CEI 10646 assignent actuellement de l'ordre de 100000 caractères à un espace de code réservé qui consiste en plus d'un million de points de code (de 0x0 à 0x10FFFF en hexadécimal). Chaque caractère est noté U+nnnn, où nnnn représente une suite de 4 à 6 chiffres hexadécimaux. A titre d'exemple, le caractère A correspond au code U+0041. Unicode et l'ISO/CEI 10646 définissent également plusieurs normes de codage capables de représenter la totalité des points de code disponibles.
Les normes de codage Unicode et UCS utilisent des séquences de un à quatre codes de 8 bits (UTF-8), des séquences de un ou deux codes de 16 bits (UTF-16), ou une valeur de code de 32 bits (UTF-32 ou UCS-4). Il existe également un codage plus ancien qui utilise une valeur de 16 bits (UCS-2) mais qui n'est capable de représenter qu'un dix-septième des points de code disponibles : sur la totalité des points de code définis par Unicode, seuls ceux du BMP (Basic Multilingual Plane), c'est-à-dire ceux compris entre U+0000 et U+FFFF, sont supportés par UCS-2. Parmi ces formes de codages, seul UTF-8 présente les suites d'octets dans un ordre fixe ; les autres sont sujets au problème lié à la manière dont les plate-formes codent les suites de 16 et 32 bits (voir sur ce point l'opposition gros-boutiste et petit-boutiste). Ce problème peut être résolu grâce à des codes spéciaux ou par des indications hors bande.
Les éditions d'ISO 8859 les plus récentes expriment les caractères en termes de leurs noms Unicode/UCS et de la notation U+nnnn. Ceci permet à chaque partie d'ISO 8859 d’être un schéma de codage de caractères Unicode/UCS qui permet de coder une petite partie de l'UCS par des octets. D'ailleurs, les 256 premiers caractères en Unicode et en UCS sont identiques à ceux de ISO 8859-1.
ISO 8859 a été favorisé dans les années 1990, car il avait les avantages d'être bien établi et plus facilement implémenté au niveau des logiciels : la correspondance d'un octet à un caractère est simple et adaptée à la plupart des applications ne supportant qu’une seule langue, et où il n'y a pas de caractères combinés ou de formes variantes.
Avec la baisse du coût relatif, en ressources informatiques, de l'utilisation de plus d'un octet par caractère, les langages de programmation et les systèmes d'exploitation proposent un support natif d'Unicode en plus de leur système de page de code. Les systèmes d'exploitation supportant Unicode devenant plus répandus, ISO 8859 et les autres codages anciens ont perdu de leur popularité. Alors qu'ISO 8859 et les modèles de caractères sur un seul octet restent ancrés dans de nombreux systèmes d'exploitation, langages de programmation, systèmes de stockage de données, applications réseau, matériels d'affichage et logiciels d'application pour utilisateur final, les applications informatiques les plus modernes utilisent Unicode en interne et s'appuient, lorsque c'est nécessaire, sur des tables pour convertir de ou vers un codage plus simple.
[modifier] État de développement
La norme ISO/CEI 8859 était mise à jour par le groupe ISO/CEI Joint Technical Committee 1, Subcommittee 2, Working Group 3 (ISO/CEI JTC 1/SC 2/WG 3) mais en juin 2004, WG 3 s'est éteint et ses taches ont été données au groupe SC 2. La norme n'est plus mise à jour car le seule groupe de travaux actif, WG 2, doit se concentrer au développement de ISO/CEI 10646.
[modifier] Références
- Les copies des versions publiées des normes sont à vendre au ISO catalogue site et au ANSI eStandards Store.
- Les versions PDF des propositions finales de quelques sections d'ISO/IEC 8859 comme soumis pour revue & publication par ISO/IEC JTC 1/SC 2/WG 3 se trouvent au site WG 3 :
- [pdf] ISO/IEC 8859-1:1998 - 8-bit single-byte coded graphic character sets, Part 1: Latin alphabet No. 1 (draft dated February 12, 1998, published April 15, 1998)
- [pdf] ISO/IEC 8859-4:1998 - 8-bit single-byte coded graphic character sets, Part 4: Latin alphabet No. 4 (draft dated February 12, 1998, published July 1, 1998)
- [ [pdf] http://anubis.dkuug.dk/jtc1/sc2/open/02n3329.pdf ISO/IEC 8859-7:1999] - 8-bit single-byte coded graphic character sets, Part 7: Latin/Greek alphabet (draft dated June 10, 1999; superseded by ISO/IEC 8859-7:2003, published October 10, 2003)
- [pdf] ISO/IEC 8859-10:1998 - 8-bit single-byte coded graphic character sets, Part 10: Latin alphabet No. 6 (draft dated February 12, 1998, published July 15, 1998)
- [pdf] ISO/IEC 8859-11:1999 - 8-bit single-byte coded graphic character sets, Part 11: Latin/Thai character set (draft dated June 22, 1999; superseded by ISO/IEC 8859-11:2001, published Dec 15, 2001)
- [pdf] ISO/IEC 8859-13:1998 - 8-bit single-byte coded graphic character sets, Part 13: Latin alphabet No. 7 (draft dated April 15, 1998, published October 15, 1998)
- [pdf] ISO/IEC 8859-15:1998 - 8-bit single-byte coded graphic character sets, Part 15: Latin alphabet No. 9 (draft dated August 1, 1997; superseded by ISO/IEC 8859-15:1999, published March 15, 1999)
- [pdf] ISO/IEC 8859-16:2000 - 8-bit single-byte coded graphic character sets, Part 16: Latin alphabet No. 10 (draft dated November 15, 1999; superseded by ISO/IEC 8859-16:2001, published July 15, 2001)
- Les normes ECMA, écrites avec l'intention de correspondance exacte aux normes de polices de charactères ISO/IEC 8859, se trouvent au :
- Standard ECMA-94 : 8-Bit Single Byte Coded Graphic Character Sets - Latin Alphabets No. 1 to No. 4 2nd edition (June 1986)
- Standard ECMA-113 : 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Cyrillic Alphabet 3rd edition (December 1999)
- Standard ECMA-114 : 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Arabic Alphabet 2nd edition (December 2000)
- Standard ECMA-118 : 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Greek Alphabet (December 1986)
- Standard ECMA-121 : 8-Bit Single-Byte Coded Graphic Character Sets - Latin/Hebrew Alphabet 2nd edition (December 2000)
- Standard ECMA-128 : 8-Bit Single-Byte Coded Graphic Character Sets - Latin Alphabet No. 5 2nd edition (December 1999)
- Standard ECMA-144 : 8-Bit Single-Byte Coded Character Sets - Latin Alphabet No. 6 3rd edition (December 2000)
- Les tables de mappage ISO/IEC 8859-1 à Unicode mapping tables en fichiers de texte ordinaire se trouvent au site FTP de Unicode.
- Les descriptions informelles et les tables de code pour la plupart des normes ISO 8859 se trouvent au ISO 8859 Alphabet Soup (Miroir)