Kielimerkkaus, luku 3 Kielikoodit (kielten tunnukset):

Kielikoodit Dublin Coressa

Metadataa koskevan Dublin Core -suosituksen (Dublin Core Metadata Element Set, Versio 1.1, Tallenteiden kuvailuformaatti, kohta 12 Kieli) mukaan käytetään kaksikirjaimisia koodeja, esimerkiksi (HTML:ssä metadataa esitettäessä)
<meta name="DC.Language" content="en">
Kyseisessä määrittelyssä on tältä osin kummallisuuksia: siinä väitetään virheellisesti RFC 1766:ta "Internet standardiksi" (ks. Mitä RFC:t ovat), puhutaan ISO 639:stä nimenomaan ja vain kaksimerkkiset koodit määrittelevänä mutta silti viitataan linkillä ISO 639-2:een ja lisäksi annetaan virheellinen esimerkki en-uk; Ison-Britannian ja Pohjois-Irlannin Yhdistyneen kuningaskunnan maakoodi on GB, ei UK. Nämä kummallisuudet ovat mukana myös 2001-04-12 päivätyssä suosituksessa Using Dublin Core (kohta 4.15 Language), paitsi että se ei viittaa ISO 639-2:een vaan Oasis-dokumenttiin Code for the Representation of the Names of Languages. From ISO 639, revised 1989, joka käsittelee kaksikirjaimisia koodeja mutta viittaa uudempaankin informaatioon, erityisesti (edellä jo mainitsemaamme) katsaukseen Language Identifiers in the Markup Context.

Dokumentti Dublin Core Qualifiers määrittelee merkintäjärjestelmän (encoding scheme) käsitteen. Lyhyesti sanottuna sillä tarkoitetaan sitä menetelmää (järjestelmää), jonka mukaan dokumentin jonkin ominaisuuden arvot esitetään koodatulla tavalla. Kielikoodien yhteydessä se tarkoittaa jotakin erityistä kielikoodien järjestelmää, kuten RFC 1766. Itse merkintäjärjestelmilläkin on Dublin Coressa koodit, kuten rfc1766 ja ISO639-2. Ilmeisestikin ajatuksena on, että niistä ensin mainittu olisi ensisijainen eli sitä olisi käytettävä, jos mahdollista.

Suomalaisen Julkisen hallinnon suosituksen JHS 143, Asiakirjojen kuvailuformaatti, mukaisessa metadatassa on kaksikirjaiminen koodi ainoa sallittu vaihtoehto. Toisaalta vuonna 2001 vahvistettu kansallinen standardi SFS 5895, Dublin Core -metadataformaatin suomalainen versio, ilmoittaa, että language-kentän merkintäjärjestelmiä ovat ISO 639-2 ja RFC 1766 sekä kansallinen merkintäjärjestelmä SFS-ISO 639. Nämä on lueteltu tässä järjestyksessä mutta esittämättä erityistä suositusta siitä, miten valinta niiden välillä tehdään. Standardi viittaa yhdysvaltalaiseen standardiin ANSI/NISO Z39.85 Dublin Core Metadata Element Set, jossa sanotaan:

Comment: Recommended best practice is to use RFC 3066 [RFC3066], which, in conjunction with ISO 639 [ISO639], defines two-and three-letter primary language tags with optional subtags. Examples include "en" or "eng" English, "akk" for Akkadian, and "en-GB" for English used in the United Kingdom.


Kirjoittamisen ajankohta: 2002-06-23. Päivitetty viimeksi 2007-12-03. Teknisiä korjauksia 2017-12-11.
Tämä sivu kuuluu Jukka "Yucca" Korpelan avoimeen tietosivustoon Datatekniikka ja viestintä.