Kielikoodi ei useinkaan anna riittävää tietoa tekstin kielestä eri tarkoituksia varten, varsinkaan kehittynyttä tekstien ohjelmallista käsittelyä varten, ei vaikka kielikoodien järjestelmässä mentäisiin murteiden tasolle. Asiakirjan kieltä tarkemmin kuvaavien tietojen esittäminen yhtenäisten koodijärjestelmien on kuitenkin vasta kehitteillä.
Ilmeisin tarve on käytetyn kirjoitusjärjestelmän tietäminen. Tätä käsitellään jäljempänä kohdassa Kirjoitusjärjestelmien vaikutus. Käytännössä nykyisin ohjelmat tehdään yleensä olettaen, että kutakin kieltä kirjoitetaan vain yhtä kirjoitusjärjestelmää käyttäen, mikä ei pidä paikkaansa.
Kirjoitusjärjestelmistä onkin laadittu standardi
ISO 15924,
Code for the Representation of Names of Scripts.
Se määrittelee nelikirjaimiset koodit, ks. sivustoa
ISO 15924 Registration Authority.
Koodaus on melko karkea;
esimerkiksi
Latn
tarkoittaa yleisesti latinalaista
(latinalaisperäistä) kirjoitusjärjestelmää, vaikka
sitä käyttävien kielten kuten latinan, saksan ja suomen
järjestelmissä on paljon eroja.
Erityisesti tämä koodi ei tee eroa vaikkapa kyrillisen kirjoituksen
erilaisten translitterointien (latinisointien) välillä.
Huomattakoon, että esimerkiksi HTML:ssä ei ole mitään elementtiä
eikä määritettä, jolla tekstin osan kirjoitusjärjestelmän voisi ilmaista.
Sen sijaan standardi esittää esimerkkinä, että HTML:ssä voisi
ilmoittaa koko dokumentin kirjoitusjärjestelmän
meta
-elementillä tyyliin
<meta name="Content-Script" content="Latn">
On kuitenkin huomattava, että meta
-elementtien
järjestelmä on varsin säätelemätön ja epämääräinen.
Jossain määrin hämäävää on, että kirjoitusjärjestelmästä käytetään
englannissa nimitystä script, joka tarkoittaa toisaalta
myös eräänlaisia tietokoneohjelmia, "skriptejä".
Automaattisessa kielenkääntämisessä, varsinkin sen kehittyneissä muodoissa, olisi olennaista tietää myös kielilaji ja -tyyli, esimerkiksi erottaen arkikieli ylevästä tyylistä. Joissakin kielissä on suuri ero oppineiston ja vähemmän kouluja käyneiden kielenkäytön välillä. Kielentutkijakin voisi olla kiinnostunut selvittämään suuresta tekstimassasta, miten usein siinä esiintyy vaikkapa asiatyylisessä tekstissä jokin sana, jonka oletetaan olevan siirtymässä slangista asiatyyliinkin. Silloin olisi hyvin olennaista, että kielilajit on jollain tapaa eroteltu helposti käsiteltävillä koodeilla, jotta voidaan tehokkaasti etsiä sellaisia esiintymiä.
Myös kielenkäytön tilanne voi olla olennainen esimerkiksi puhesynteesissä. Näytelmien yms. käsikirjoituksissa on usein sulkeissa huomautuksia tyyliin "(Kiivaasti)" tai "(Hiljaisella äänellä)". Nämä ovat eräänlaista merkkausta, mutta sellaista, jota on varsin hankala hyödyntää tekstien automaattisessa käsittelyssä, ellei päästä yhtenäiseen, koodattuun käytäntöön.
Erästä hanketta, jossa pyritään kieliasua kuvaavien koodien kehittämiseen, selostavat artikkeli Standards Bodies Face Growing Demand for Enhanced Language Identifier Systems ja ISO / TC 37 / SC 2 / WG 1:n piirissä laadittu (Word-muotoinen) dokumentti Additional language coding.
Kielimerkkauksen käyttöön liittyy monenlaisia ongelmia. Seuraavassa tarkastellaan niitä melko yksityiskohtaisesti. Tässä on kuitenkin hyvä muistaa, että vaikka yksityiskohdissa joudutaankin moniin vaikeuksiin, kielimerkkaus on käytännössä varsin helppo tehdä. Sitä ei ole pakko viedä yksittäisten sanojen tasolle, jos ongelmat siellä tuntuvat liian suurilta.