Kielimerkkaus, luku 3 Kielikoodit (kielten tunnukset):

Kielikoodit viestien otsaketiedoissa ja mediatyypeissä

Edellä mainittu RFC 3282 käsittelee kielen ilmoittamista niin sanotuissa otsakkeissa (headers) esimerkiksi Webin tiedonsiirtoprotokollassa HTTP:ssä. Otsakkeet eivät yleensä näy käyttäjille, eivätkä useimmat ehkä edes tiedä, miten ne saa näkyville, mutta ne voisivat ohjata ohjelmia, joilla dokumentteja tai viestejä käsitellään, esimerkiksi hakukoneita ja puhesyntetisaattoreita.

Tämä on kuitenkin toistaiseksi aika puhtaasti vain teoriaa. Lisäksi teoriassakin tämän otsakkeen merkitys on epäselvä.

Esimerkiksi otsake
Content-Language: fi
kertoo RFC 2616:n mukaan, että dokumentti on tarkoitettu suomen kieltä osaaville; käytännössä tämä merkitsee yleensä sitä, että dokumentin pääkieli on suomi. Jos kyseisessä otsakkeessa luetellaan useita kieliä, se tarkoittaa, että dokumentti on tarkoitettu ihmisille, jotka osaavat ainakin yhtä luetelluista kielistä. Esimerkiksi Content-Language: fi,sv sopisi siis dokumentille, joka sisältää saman tekstin sekä suomeksi että ruotsiksi. RFC 3282:n mukaan tämä otsake ilmoittaa dokumentin kielen tai kielet, mikä on tietysti varsin pitkälle sama asia. Mutta se voitaisiin tulkita myös niin, että Content-Language: fi,sv sopisi myös dokumentille, joka sisältää suuren määrän ruotsinkielisiä paikannimiä ja lyhyet suomenkieliset selostukset.

Vaikka esimerkiksi HTTP-otsake Content-Language: fi ja HTML-merkkaus <html lang="fi"> voivat vaikuttaa samaa tarkoittavilta, kyse on kuitenkin periaatteessa erillisistä asioista. Esimerkiksi jos HTML-dokumentissa on vain joukko esineiden kuvia ja suomenkielisiä nimiä, on epäilemättä oikein merkata sen kieleksi <html lang="fi">. Mutta Content-Language: fi ei välttämättä olisi oikein, jos se tulkitaan määrittelyjen mukaan eli niin, että dokumentin kohdeyleisön kieli on suomi. Voisihan dokumentti olla tarkoitettu opiskelutarkoituksiin ihmisille, jotka eivät ennestään lainkaan osaa suomea!

Otsakkeet koskevat dokumenttia kokonaisuutena. Niillä ei siis voida ilmoittaa dokumentin osien kieltä. Toisaalta otsakkeita voidaan käyttää silloinkin, kun dokumentin muoto ei salli kielen ilmoittamista kielimerkkauksella, esimerkiksi kun dokumentti on pelkkää tekstiä (eikä esimerkiksi HTML-muotoinen) tai äänite tai video.

Koko dokumentin kielellä on keskeinen merkitys muun muassa niin sanotussa kielivalintamekanismissa. Tällöin kieltä ei kuitenkaan ilmaista HTTP-otsakkeessa vaan palvelimen sisäisessä määrittelyiedostossa. Aihetta käsittelee dokumentti Tekniikoita monikielisiä Web-sivustoja varten.

Dokumentin kieli voidaan ilmoittaa myös mediatyypin language-parametrilla. Esimerkiksi
text/plain; language=fi
ilmoittaa, että kyseessä on pelkkää tekstiä oleva dokumentti, jonka kieli on suomi. Kyseinen parametri on kuvattu dokumentissa RFC 2987.

Suositus JHS 143 sanoo metadatan kielikentästä, että se ilmoittaa "asiakirjan kielen". Ja se lisää: "Jos asiakirjassa on käytetty useita kieliä voidaan tätä kenttää toistaa." Epäselvää on, onko järjestyksellä tällöin merkitystä ja voidaanko kenttää käyttää, jos jotakin kieltä on vain vähän (esimerkiksi vain yksi sana).


Kirjoittamisen ajankohta: 2002-06-23. Päivitetty viimeksi 2007-12-03. Teknisiä korjauksia 2017-12-11.
Tämä sivu kuuluu Jukka "Yucca" Korpelan avoimeen tietosivustoon Datatekniikka ja viestintä.