Kielimerkkaus, luku 3 Kielikoodit (kielten tunnukset):

Riittääkö kielikoodi?

Kielikoodi ei useinkaan anna riittävää tietoa tekstin kielestä eri tarkoituksia varten, varsinkaan kehittynyttä tekstien ohjelmallista käsittelyä varten, ei vaikka kielikoodien järjestelmässä mentäisiin murteiden tasolle. Asiakirjan kieltä tarkemmin kuvaavien tietojen esittäminen yhtenäisten koodijärjestelmien on kuitenkin vasta kehitteillä.

Ilmeisin tarve on käytetyn kirjoitusjärjestelmän tietäminen. Tätä käsitellään jäljempänä kohdassa Kirjoitusjärjestelmien vaikutus. Käytännössä nykyisin ohjelmat tehdään yleensä olettaen, että kutakin kieltä kirjoitetaan vain yhtä kirjoitusjärjestelmää käyttäen, mikä ei pidä paikkaansa.

Kirjoitusjärjestelmistä onkin laadittu standardi ISO 15924, Code for the Representation of Names of Scripts. Se määrittelee nelikirjaimiset koodit, ks. sivustoa ISO 15924 Registration Authority. Koodaus on melko karkea; esimerkiksi Latn tarkoittaa yleisesti latinalaista (latinalaisperäistä) kirjoitusjärjestelmää, vaikka sitä käyttävien kielten kuten latinan, saksan ja suomen järjestelmissä on paljon eroja. Erityisesti tämä koodi ei tee eroa vaikkapa kyrillisen kirjoituksen erilaisten translitterointien (latinisointien) välillä. Huomattakoon, että esimerkiksi HTML:ssä ei ole mitään elementtiä eikä määritettä, jolla tekstin osan kirjoitusjärjestelmän voisi ilmaista. Sen sijaan standardi esittää esimerkkinä, että HTML:ssä voisi ilmoittaa koko dokumentin kirjoitusjärjestelmän meta-elementillä tyyliin
<meta name="Content-Script" content="Latn">
On kuitenkin huomattava, että meta-elementtien järjestelmä on varsin säätelemätön ja epämääräinen. Jossain määrin hämäävää on, että kirjoitusjärjestelmästä käytetään englannissa nimitystä script, joka tarkoittaa toisaalta myös eräänlaisia tietokoneohjelmia, "skriptejä".

Automaattisessa kielenkääntämisessä, varsinkin sen kehittyneissä muodoissa, olisi olennaista tietää myös kielilaji ja -tyyli, esimerkiksi erottaen arkikieli ylevästä tyylistä. Joissakin kielissä on suuri ero oppineiston ja vähemmän kouluja käyneiden kielenkäytön välillä. Kielentutkijakin voisi olla kiinnostunut selvittämään suuresta tekstimassasta, miten usein siinä esiintyy vaikkapa asiatyylisessä tekstissä jokin sana, jonka oletetaan olevan siirtymässä slangista asiatyyliinkin. Silloin olisi hyvin olennaista, että kielilajit on jollain tapaa eroteltu helposti käsiteltävillä koodeilla, jotta voidaan tehokkaasti etsiä sellaisia esiintymiä.

Myös kielenkäytön tilanne voi olla olennainen esimerkiksi puhesynteesissä. Näytelmien yms. käsikirjoituksissa on usein sulkeissa huomautuksia tyyliin "(Kiivaasti)" tai "(Hiljaisella äänellä)". Nämä ovat eräänlaista merkkausta, mutta sellaista, jota on varsin hankala hyödyntää tekstien automaattisessa käsittelyssä, ellei päästä yhtenäiseen, koodattuun käytäntöön.

Erästä hanketta, jossa pyritään kieliasua kuvaavien koodien kehittämiseen, selostavat artikkeli Standards Bodies Face Growing Demand for Enhanced Language Identifier Systems ja ISO / TC 37 / SC 2 / WG 1:n piirissä laadittu (Word-muotoinen) dokumentti Additional language coding.

Kielimerkkauksen käyttöön liittyy monenlaisia ongelmia. Seuraavassa tarkastellaan niitä melko yksityiskohtaisesti. Tässä on kuitenkin hyvä muistaa, että vaikka yksityiskohdissa joudutaankin moniin vaikeuksiin, kielimerkkaus on käytännössä varsin helppo tehdä. Sitä ei ole pakko viedä yksittäisten sanojen tasolle, jos ongelmat siellä tuntuvat liian suurilta.

Sisältö:

Kirjoittamisen ajankohta: 2002-06-23. Päivitetty viimeksi 2007-12-03. Teknisiä korjauksia 2017-12-11.
Tämä sivu kuuluu Jukka "Yucca" Korpelan avoimeen tietosivustoon Datatekniikka ja viestintä.