Kielimerkkaus, luku 3 Kielikoodit (kielten tunnukset):

Standardi ISO 639

Kansainvälinen standardi kielikoodeille on ISO 639, Codes for the representation of names of languages. Tarkemmin sanoen kyseessä on kaksi standardia, ISO 639-1, joka määrittelee kaksikirjaimiset koodit, englanniksi alpha-2 code (esimerkiksi sv = ruotsi), ja ISO 639-2, joka määrittelee kolmikirjaimiset koodit, englanniksi alpha-3 code (esimerkiksi swe = ruotsi). Jälkimmäisessä on joillekin kielille kaksi vaihtoehtoista koodia, bibliografinen ja terminologinen. Standardit ISO 639-1 ja ISO 639-2 eivät ole siinä mielessä yhteensopivia, että kolmikirjaimisen koodin kaksi ensimmäistä kirjainta olisivat aina samat kuin kyseisen kielen kaksikirjaiminen koodi. Toisaalta samassa yhteydessä voidaan käyttää molempia, koska koodin pituus ilmaisee, kumman standardin mukaan se pitää tulkita.

Alun perin (vuonna 1988) tehtiin vain ISO 639, joka määritteli kaksimerkkiset koodit; sitä oli edeltänyt vuonna 1967 tehty ISO/R 639, Symbols for languages, countries and authorities . Myöhemmin, vuonna 1998, tehtiin ISO 639-2. Vasta 2002-07-18 vahvistettiin vanhan ISO 639:n korvaava ISO 639-1, joskin se oli ollut luonnoksena (viime vaiheessa ns. DIS-tasoisena) olemassa jo huomattavasti aiemmin. Se ilmoittaa koodien lisäksi kielten nimet englanniksi, ranskaksi ja kielellä itsellään. Webissä on (PDF-muodossa) sen lopullinen luonnos ISO/FDIS 639-1.

ISO 639-1:n pohjalta on SFS laatinut vuonna 1993 Suomen kansallisen standardin, SFS-ISO 639, Kielten nimien tunnukset. Se mainitsee myös kolmikirjaimisia koodeja, mutta itse standardiin kuulumattomana. Siihen on otettu kaksikirjaimiset tunnukset muutamalle kielelle, joilla sellaisia tunnuksia ei kansainvälisessä standardissa ollut: kirjanorja (nb), uusnorja (nn) ja saame (se). Näistä kaksi ensin mainittua kuuluvat nykyisin myös ISO 639-1:een, ja se on siinä nimenomaan pohjoissaamen koodi. Mainittakoon, että kyseisessä standardissa on myös laaja kooste kielten nimistä suomeksi ja muilla kielillä.

Tilastokeskuksen kuvauksessa kielikoodeissa on lyhyesti kuvattu kielikoodijärjestelmiä. Siinä on myös suomenkielisiä nimiä eräille kielille, joita SFS-ISO 639 ei sisällä.

ISO 639:n kolmikirjainkoodien virallinen sivusto sisältää myös kaksikirjainkoodit: ISO 639-2 Registration Authority. Tavallisimmin tarvittava osa siitä lienee kooste kielikoodeista kielen englanninkielisen nimen mukaan järjestettyinä. Kyseisessä sivustossa on myös itse ISO 639-2 -standardi.

ISO 639-2 määrittelee kaksi koodia erikoistarkoituksiin mul, joka tarkoittaa monikielisyyttä, ja und, joka tarkoittaa epämääräistä kieltä. Niiden käyttö on aika ongelmallista. Aihetta käsitellään jäljempänä kohdassa Miten ilmaistaan, ettei kieltä voida ilmaista?

Kaksikirjaimisten koodien järjestelmä ei ole riittävä, koska vain varsin pienelle osalle maailman tuhansista kielistä on määritelty ISO 639-1-koodi eikä kahden kirjaimen mahdollisia yhdistelmiä edes ole tarpeeksi. Toisaalta kaksikirjaimiset koodit ovat toistaiseksi yleisemmin käytettyjä ja usein myös tietokoneohjelmien yleisemmin tunnistamia kuin kolmikirjaimiset. Lisäksi Internetin kielikoodikäytäntöjen tulee aina käyttää kaksikirjaimista koodia, jos kielellä sellainen on. (Tällöin ei myöskään synny kysymystä siitä, käytetäänkö bibliografista vai terminologista kolmikirjainkoodia, sillä niillä kielillä, joiden osalta ne poikkeavat toisistaan, on myös kaksikirjainkoodit.)

Peter Constable on kirjoittanut laajan analyysin Toward a Model for Language Identification and An Analysis of ISO 639, joka käsittelee kielikoodijärjestelmien ongelmia ja jonka Unicode-konsortio on julkaissut sarjassa Unicode Technical Notes.

Erikoista on, että ISO ja eräät muut standardointiorganisaatiot itse käyttävät yksikirjaimisia kielikoodeja joissakin yhteyksissä. Esimerkiksi jonkin standardin erityisen kieliversion koodi voi olla seuraavantapainen: "EN 1828:2002 (E)", missä "EN" ilmaisee standardien luokan (tässä 'CENin vahvistama eurooppalainen standardi'), "1828" on numero luokan sisällä, "2002" on vahvistamisvuosi, jonka avulla voidaan erottaa sisällöltään erilaiset versiot toisistaan, ja "(E)" ilmoittaa kieliversion (tässä englannin). Selitys tälle lienee, että koodit on haluttu pitää lyhyinä ja kyseisissä yhteyksissä tulevat kyseeseen vain muutamat kielet eli yksi kirjain riittää. Mutta tämä on outo poikkeus.


Kirjoittamisen ajankohta: 2002-06-23. Päivitetty viimeksi 2007-12-03. Teknisiä korjauksia 2017-12-11.
Tämä sivu kuuluu Jukka "Yucca" Korpelan avoimeen tietosivustoon Datatekniikka ja viestintä.