Kielimerkkaus, luku 3 Kielikoodit (kielten tunnukset):

Muita kielikoodijärjestelmiä

Monissa yhteyksissä käytetään myös muita kielikoodijärjestelmiä kuin ISO 639:n mukaisia. Osaa niistä on käytetty melko vakiintuneestikin eri aloilla, joskin ehkä enemmänkin kokonaisten dokumenttien kielen ilmoittamiseen kuin kielimerkkauksessa.

Erityisesti laaja Ethnologue-tietokanta käyttää ns. SIL-koodia, joka on kolmikirjaiminen mutta poikkeaa ISO 639-2:sta joissakin suhteissa ja ennen muuta sisältää paljon suuremman määrän koodeja, yli 7 000.

Toinen laaja (yli 21 000 kieltä ja murretta) kielikoodien järjestelmä on Linguasphere. Ison-Britannian standardointijärjestö on ehdottanut kansainvälisen standardin laatimista sen pohjalle.

Kirjastoalalla on paljon käytetty MARC-kielikoodeja. Se on sovitettu yhteen ISO 639-2:n kanssa.

Käyttöjärjestelmissä ja muissa tietokoneohjelmissa on usein erilaisia omia kielikoodijärjestelmiä. Esimerkiksi Windowsissa on sisäisesti käytössä sekä kirjain- että numerokoodeja. Eräs sellainen järjestelmä sisältää koodinimiä kuten LANG_FINNISH ja koodinumeroita, jotka esitetään heksadesimaalisina, esim. suomen koodi on 0x0b eli desimaalisena 11. Näitä sekä Mac-järjestelmien kielikoodeja kuvailee dokumentti Language Codes: ISO 639, Microsoft and Macintosh. Toisaalta Microsoftin omassa dokumentaatiossa on kuvattu useita muita kielikoodijärjestelmiä. Ks. esim. List of Windows XP's Three Letter Acronyms for Languages, jossa pohjana ovat ISO 639:n kaksikirjainkoodit, joihin on lisätty kolmas kirjain, joka osoittaa maakohtaisen tai muun muunnelman.

RTF-tiedostomuodon dokumentaatio (erityisesti RTF:n version 1.5 spesifikaatio) puolestaan käyttää ilmaisua "the standard languages used by Microsoft" ja esittää taulukon, jossa esimerkiksi suomen kielen koodi on 0x040b. Tämän mukaisesti näyttää toimivan ainakin Word 95: kun siinä esimerkiksi asettaa dokumentin yleiskieleksi jonkin muun kielen kuin suomen ja sitten maalaa osan tekstistä ja asettaa sen kieleksi suomen, niin RTF-muotoon tallennuksessa tiedostoon menee
{\lang 1035 merkitty tekstinosa}
ja heksadesimaaliluku 0x040b on desimaalisena 1035.

Runsaasti tietoja erilaisista kielikoodijärjestelmistä on edellä mainitussa dokumentissa Language Identifiers in the Markup Context. Se on laaja ja informatiivinen, joskin osittain vaikealukuinen muun muassa siksi, että siinä on eri aikoina kirjoitettuja osia. Lisäksi lopussa olevat otteet eri lähteistä ovat käänteisessä aikajärjestyksessä, vaikka ne olisi luultavasti parempi lukea vanhimmista uusimpiin.


Kirjoittamisen ajankohta: 2002-06-23. Päivitetty viimeksi 2007-12-03. Teknisiä korjauksia 2017-12-11.
Tämä sivu kuuluu Jukka "Yucca" Korpelan avoimeen tietosivustoon Datatekniikka ja viestintä.