ISO 8859-1
ISO 8859-1 tai epävirallisesti Latin-1[1] on tietokoneissa ja tietoliikenteessä käytettävä merkistö, joka on laadittu erityisesti länsieurooppalaisia kieliä silmällä pitäen. Se on ensimmäinen ja suomalaisittainkin käytännössä tärkein ISO- ja IEC-järjestöjen virallistamista kieliryhmittäisistä 8859-sarjan merkistöstandardeista. Latin 1 toimii esimerkiksi verkkosivujen oletusmerkistönä, jos käytettävää merkistöä ei ole muutoin määritetty.
ISO 8859-1 on 8-bittinen eli kaikkiaan 256 merkkipaikasta koostuva merkistö, joka voidaan määritellä 7-bittisen ASCII-merkistön laajennukseksi. ASCIIta vastaavat 128 ensimmäistä merkkipaikkaa sisältävät ensisijaisesti amerikanenglannissa tarvittavia kirjoitusmerkkejä sekä eräitä teknisiä ohjauskoodeja. Tähän merkkivalikoimaan ISO 8859-1 lisää etenkin länsieurooppalaisissa kielissä tarvittavia kirjaimia, kuten Å/å:n, Ä/ä:n ja Ö/ö:n. Lisäksi ISO 8859-1:een on varattu tilaa ohjauskoodien laajennuksille, jotka standardi tosin jättää määrittämättä. Joskus ISO 8859-1 sekoitetaan Windows-1252:een eli niin sanottuun Windows Latin 1 ‑merkistöön, jossa käyttämättömille ohjauskoodien merkkipaikoille on sijoitettu vielä lisää kirjoitusmerkkejä.
Yleismaailmallinen Unicode-merkistö voidaan määritellä sekä ASCIIn että ISO 8859-1:n laajennukseksi, sillä Unicoden ensimmäinen lohko eli latinalainen perusosa vastaa ASCIIta, ja ISO 8859-1:n lisäyksistä muodostuu toinen lohko eli latinalaisen merkistön täydennys Latin 1:ksi.
ISO 8859-1 ‑merkistön korvaajaksi on myöhemmin kehitetty ISO 8859-15 (Latin 9), joka täydentää ranskan ja suomen tukea (mm. kirjaimin Š/š ja Ž/ž) ja sisältää myös euron merkin. Korvaava merkistö ei ole kuitenkaan onnistunut laajassa mitassa syrjäyttämään edeltäjäänsä. Sen sijaan kaikkien ISO 8859 ‑sarjan standardien odotetaan ajan myötä korvautuvan Unicode-merkistöllä.
Historia ja standardointi
Merkistön virallinen nimi on ISO/IEC 8859-1, sillä sitä ylläpitävät yhteistyössä ISO- ja IEC-standardointijärjestöt. IANA:n standardoinnissa merkistöstä käytetään nimeä ISO-8859-1 (jossa ISO-nimen ja numeerisen tunnuksen väliin on siis lisätty yhdysviiva). IANA määrittelee myös ohjauskoodit 00–1F ja 80–9F, joihin ISO ei ota kantaa.
ISO 8859-1 perustuu DEC Multilanguage Character Set -merkistöön, jota käytettiin ensimmäisen kerran DEC:n VT220- ja VT240-päätteissä vuonna 1982. DEC:n merkistö eroaa ISO 8859-1 -merkistöstä islantilaisten merkkien osalta.
Maaliskuussa 1985 ECMA (European Computer Manufacturer’s Association) standardoi nykyisin nimillä ISO 8859-1:stä ISO 8859-4:ään tunnettavat merkistöt nimellä ECMA-94. ISO-standardiksi ne hyväksyttiin kuitenkin vasta vuonna 1987.
Vuonna 1987 julkaistiin MS-DOS 3.30, johon sisältyvä merkistö (tai Microsoftin termistön mukaan koodisivu, engl. code page) CP850 sisältää samat merkit kuin ISO 8859-1, mutta eri järjestyksessä. ISO-merkistöä muistuttava koodisivu Windows-1252 tuli käyttöön Windows-ympäristön myötä 1990-luvulla.
Unix-järjestelmissä siirtymistä hidasti päätelaitteiden kirjavuus, ja kattavaan 8-bittisen merkistön käyttöön päästiin vasta, kun vanhat päätteet korvattiin itsenäisillä työasemakoneilla ja pääasialliseksi yhteydeksi tuli IP-protokollan avulla toimiva telnet- tai SSH-yhteys.lähde?
ISO 8859-1 -merkit
x0 | x1 | x2 | x3 | x4 | x5 | x6 | x7 | x8 | x9 | xA | xB | xC | xD | xE | xF | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
0x | ei käytössä | |||||||||||||||
1x | ||||||||||||||||
2x | SP | ! | " | # | $ | % | & | ' | ( | ) | * | + | , | - | . | / |
3x | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | : | ; | < | = | > | ? |
4x | @ | A | B | C | D | E | F | G | H | I | J | K | L | M | N | O |
5x | P | Q | R | S | T | U | V | W | X | Y | Z | [ | \ | ] | ^ | _ |
6x | ` | a | b | c | d | e | f | g | h | i | j | k | l | m | n | o |
7x | p | q | r | s | t | u | v | w | x | y | z | { | } | ~ | ||
8x | ei käytössä | |||||||||||||||
9x | ||||||||||||||||
Ax | NBSP | ¡ | ¢ | £ | ¤ | ¥ | ¦ | § | ¨ | © | ª | « | ¬ | SHY | ® | ¯ |
Bx | ° | ± | ² | ³ | ´ | µ | ¶ | · | ¸ | ¹ | º | » | ¼ | ½ | ¾ | ¿ |
Cx | À | Á | Â | Ã | Ä | Å | Æ | Ç | È | É | Ê | Ë | Ì | Í | Î | Ï |
Dx | Ð | Ñ | Ò | Ó | Ô | Õ | Ö | × | Ø | Ù | Ú | Û | Ü | Ý | Þ | ß |
Ex | à | á | â | ã | ä | å | æ | ç | è | é | ê | ë | ì | í | î | ï |
Fx | ð | ñ | ò | ó | ô | õ | ö | ÷ | ø | ù | ú | û | ü | ý | þ | ÿ |
Yllä olevassa taulukossa merkit on järjestetty heksadesimaalisen koodinsa mukaisesti. Merkki 20 (SP
, engl. space) on tavallinen välilyönti ja A0 (NBSP
, engl. no-break space) sitova välilyönti. Merkki AD (SHY
, engl. soft hyphen) on määritelty HTML-kielessä tavutusvihjeeksi, joka on tavallisesti näkymätön mutta mahdollistaa rivinvaihdon ja sen yhteydessä muuttuu näkyväksi tavuviivaksi. Merkkiä 7F ei ole ISO 8859-1 -merkistössä määritelty, mutta ASCII-merkistössä se on ohjauskoodi DEL, jota on eri tietokonejärjestelmissä käytetty vaihtelevasti (vaikka ohjauskoodin nimi tulee englannin sanasta delete ’poista’, se ei nykynäppäimistöissä kytkeydy Delete-näppäimeen).
Kattavuus
ISO 8859-1 -merkistön avulla voi kirjoittaa albanian, baskin, englannin, espanjan, fäärin, gaelin, hollannin, iirin, islannin, italian, katalaanin, norjan, portugalin, ranskan, retoromaanin, ruotsin, saksan, suomen ja tanskan kieliä (vaikkei näistä kaikkia aivan puhdasoppisesti). Lisäksi sitä voi käyttää ainakin afrikaansin, eteläsaamen ja swahilin kirjoittamiseen.
ISO 8859-1:stä puuttuu eräitä verrattain yleisiä typografisia erikoismerkkejä, kuten kaareva lainaus- ja heittomerkki sekä ajatusviiva.
Lähteet
- What is the Latin-1 (ISO-8859-1) character set? kb.iu.edu. Viitattu 14.7.2020.