Kielimerkkaus, luku 1 Kielimerkkauksen tarkoitus:

Eikö kielen päätteleminen riitä?

Mutta vaikka tarvitaan tieto tekstin kielestä, tarvitaanko merkkausta? Eikö riitä, että käyttäjä voi valikosta valita kielen ja ohjelma sitten toimii sen mukaan? Tai eikö ohjelma voi päätellä kieltä?

Eräät Internetin hakukoneet, kuten Google ja AltaVista, ilmeisestikin päättelevät dokumentin kielen sen sisällöstä. Päättely ei ole virheetöntä mutta yleensä osuu oikeaan. Itse asiassa melko pitkästä tekstistä voi aika alkeellisin menetelmin, vaikkapa vain tarkastellen tavallisimpia pikkusanoja, arvata kielen useimmiten oikein.

Mutta jos kieli vaihtuu kesken esityksen, mainitunlaiset menetelmät toimivat yleensä huonosti, sitä huonommin, mitä lyhyempi katkelma on kyseessä. Esimerkiksi puhesyntetisaattori voi toimia paljon paremmin, jos dokumentin pääkielestä poikkeavat tekstijaksot kuten vieraskieliset nimet ja lainaukset on merkattu niin, että niistä ilmenee kieli. Erityinen ongelma on automaattisessa kielentarkistuksessa. Monille on tuttua, miten esimerkiksi MS Word näyttää vieraat sanat virheinä. Jos ohjelma tukisi kielimerkkausta ja dokumentin kirjoittaja käyttäisi sitä hyväkseen, voisi ohjelma tarkistaa esimerkiksi suomenkielisessä tekstissä olevien englanninkielisten lainausten asun asianmukaisesti.

Koko dokumentin kielen merkkaaminen taas on hyvin helppoa, jos vain merkkausjärjestelmässä on menettely sitä varten. Esimerkiksi suomenkieliseen HTML-dokumenttiin riittää kirjoittaa tägin <html> asemesta <html lang="fi">. Tällöin tieto kielestä on helpolla tavalla kaikkien sellaisten ohjelmien käytettävissä, joilla dokumenttia käsitellään. Ei tarvita mitään arvaamista.

Lisäksi kielimerkkauksella voidaan ilmaista sellaisia eroja, joita olisi vaikea ohjelmien päättelemällä havaita. Jos esimerkiksi tehdään kielentarkistus englanninkieliselle tekstille, jossa osa sanoista on brittienglannin ja osa amerikanenglannin mukaisessa asussa, kuten usein on, mistä ohjelma voi tietää, kummat se ilmoittaa virheiksi ja tarjoutuu korjaamaan? Kielimerkkauksessa voidaan nämä englannin muodot erottaa toisistaan.

Sisältö:

Kirjoittamisen ajankohta: 2002-06-23. Päivitetty viimeksi 2007-12-03. Teknisiä korjauksia 2017-12-11.
Tämä sivu kuuluu Jukka "Yucca" Korpelan avoimeen tietosivustoon Datatekniikka ja viestintä.