Kielimerkkaus, luku 4 Ongelmia kielimerkkauksen käytössä:

Miten ilmaistaan, ettei kieltä voida ilmaista?

Edellä mainittiin ISO 639:n kuvauksessa erikoiskoodit mul ja und. Niiden määritelmät standardissa ovat:

The language code mul (for multiple languages) should be applied when several languages are used and it is not practical to specify all the appropriate language codes.

The language code und (for undetermined) is provided for those situations in which a language or languages must be indicated but the language cannot be identified.

Koodia und on voisi ajatella käytettävän useissa tilanteissa, jotka ovat itse asiassa varsin erilaisia: kieltä ei tunneta; kieli on tunnettu mutta sille ei ole koodia ISO 639-2:ssa; tekstille on ilmoitettava kieli, mutta se ei ole mitään ihmisten kieltä vaan esimerkiksi tietokonekoodia tai salasana. Toisaalta ISO 639 FAQ mainitsee mahdollisuuden käyttää kolmea välilyöntiä, jos "a language code is not applicable because there is no sung, spoken, or written textual content".

Yleisesti kielikoodijärjestelmissä on varsin epätyydyttävästi ratkaistu se, miten menetellään, kun mitään kielikoodia ei voi käyttää.

Mahdollisia tapauksia on useita erilaisia:

Kuitenkin Internetin kielikoodikäytäntöjen perustan määrittelevä RFC 3066 sanoo (kohdassa 2.3), että und-koodia ei saa käyttää, ellei protokolla pakota ilmaisemaan kielikoodin silloinkin, kun kieli on tuntematon:

You SHOULD NOT use the UND (Undetermined) code unless the protocol in use forces you to give a value for the language tag, even if the language is unknown. Omitting the tag is preferred.

Tämä merkitsee, että esimerkiksi HTML:ssä ei oikeastaan pitäisi käyttää määritettä lang="und" koskaan, koska lang-määrite ei ole pakollinen! Mutta tällöin jäisi ilmaisematta se olennainen ero, mikä on niiden tilanteiden välillä, että kieltä ei ole viitsitty yrittääkään kertoa, ja että kielimerkkausta käytetään järjestelmällisesti ja osa tekstistä on tuntematonta kieltä.

Koodia mul ei liene koskaan syytä käyttää kielimerkkauksessa eikä juuri muulloinkaan. Kielimerkkauksessahan voidaan ylimmän tason elementti merkata pääkielen mukaan ja alimman tason elementit kukin oman kielensä mukaan, tarvittaessa lisäten merkkauselementtejä vain tätä varten. Lisäksi edellä mainittu RFC௺ erikseen sanoo, että mul-koodia ei tulisi käyttää silloin, kun protokolla mahdollistaa useiden kielten ilmaisemisen, kuten Content-Language-otsakkeessa (josta kerrotaan kielivalintamekanismin kuvauksessa).


Kirjoittamisen ajankohta: 2002-06-23. Päivitetty viimeksi 2007-12-03. Teknisiä korjauksia 2017-12-11.
Tämä sivu kuuluu Jukka "Yucca" Korpelan avoimeen tietosivustoon Datatekniikka ja viestintä.