Kielimerkkaus, luku 4 Ongelmia kielimerkkauksen käytössä:

Mitä kieltä?

Usein on tulkinnanvaraista, mitä kieltä jokin ilmaisu on. Selvimmän esimerkin muodostavat sanat, jotka on lainattu kielestä toiseen ja jotka ovat osittain mukautuneet lainaajakieleen. Onko esimerkiksi ranskasta englantiin lainautunut sana "fiancé" ranskaa vai englantia? Se kirjoitetaan täysin ranskan mukaisesti; ääntämys taas jäljittelee ranskan ääntämystä mutta ei kokonaan vastaa sitä. Suomen kielessäkin tällaista esiintyy erittäin paljon. Vaikka usein sanotaan, että sitaattilainat tulisi kirjoittaa ja ääntää täysin alkukielen mukaan, niin käytännössä esiintyy varsin paljon eriasteisia mukautumia, ja nykyisin ne kielenoppaissakin jo usein tunnustetaan.

Miten pitäisi merkata esimerkiksi sana "Windows", kun se esiintyy käyttöjärjestelmän nimenä suomenkielisessä tekstissä? Alkujaan sana on tietysti englantia, mutta suomen kielessä se ei yleensä äänny täysin englannin mukaisesti, esimerkiksi loppukonsonantti ei äänny soinnillisena. Toisaalta sana ei ole kirjoitusasultaan mukautunut suomeen. Oikeastaan tarvittaisiin tapa merkata, että sana on "siirtymässä" kielestä toiseen.

Voidaan jopa kysyä, onko "Helsinki" suomea vai englantia, kun se esiintyy englanninkielisessä tekstissä. Englannissahan se tavallisimmin ääntynee niin, että paino on toisella tavulla. Missä vaiheessa tällainen "väärä" ääntämys muuttuu osaksi kielen todellisuutta, joka on syytä tunnustaa? Esimerkiksi suomen sana "sauna" ääntyy englannissa tavallisesti niin, että "au" ääntyy pitkänä vokaalina "oo" ja loppu-a epämääräisenä vokaalina. Eikö tällöin voi sanoa, että sana on lainautunut englantiin ja muuttunut osaksi englannin kieltä? Tilanne on toinen, jos englanninkielisessä tekstissä esiintyy sellaisia suomen sanoja, jotka eivät ole mitenkään yleisesti tunnettuja. Ne on syytä merkata suomenkielisiksi.

Erityisiä ongelmia voi periaatteellisesti ehkä oikea kielimerkkaus aiheuttaa silloin, kun teksti on translitteroitua tai transkriboitua eli se on tavalla tai toisella siirretty toiseen kirjoitusjärjestelmään, esimerkiksi japanin sana kirjoitettu latinalaisin kirjaimin, esimerkiksi "kimono". Käsittelemme näitä ongelmia jäljempänä kohdassa Kirjoitusjärjestelmien vaikutus.

Käytännöllinen ratkaisu on ehkä se, että rajatapauksessa tulkitaan sanan olevan sitä kieltä, jota ympäröivä teksti on. Näin vältetään esimerkiksi puhesynteesissä häiritsevät lainanantajakielen mukaiset ääntämykset sanoissa, joissa sitä ei ole tapana käyttää. Lisäksi tämä on helppo ratkaisu, koska se vähentää merkkauksen määrää: sanan kieltä ei erikseen merkata vaan se määräytyy ympäröivän elementin kielestä. Puhesynteesissä ja yleensä puheessa pätee, että vieraista kielistä peräisin olevien sanojen "liian tarkka" ääntäminen häiritsee, kun ne esiintyvät tekstin seassa. Sen sijaan erillisissä lainauksissa tilanne on toinen; niissä mahdollisimman hyvä alkukielen mukainen ääntämys aiheellisesti korostaa eroa oman tekstin ja sitaatin välillä.

Sekakielisyyksiä syntyy myös tietämättömyyden ja tahallisen vääntelyn kautta. Miten pitäisi tulkita esimerkiksi hevosennimi "Kiikku's Vera", joka luetaan suomalaisittain "Kiikkus Veera" mutta jossa on selvästikin tarkoitettu käyttää englannin genetiiviä?

Myös eläinten, kasvien ja muiden eliöiden ja eliöryhmien tieteelliset ("latinalaiset") nimet ovat ongelmallisia. Ne noudattavat pääosin latinan kielen kirjoitussääntöjä ja muutamia latinan kielioppisääntöjäkin, ja niiden ääntämys on lähinnä latinan mukainen, mutta niihin sisältyy runsaasti kreikan sanoja latinisoidussa asussa ja muistakin kielistä otettuja sanoja. Kaiken kaikkiaan lienee parasta merkata kieleksi latina mutta tietoisena siitä, että tästä voi seurata ongelmia. Esimerkki:
<i lang="la">Anas platyrhynchos</i>

Entä lyhenteen kieli? Mitä kieltä on "IPA" tai "USA"? Ne luetaan suomessa yleensä joko käyttäen suomenkielisiä kirjainten nimiä (ii pee aa, uu es aa) taikka ikäänkuin ne olisivat suomen sanoja (ipa, usa). Käytännöllinen menettelytapa on, että niiden tulkitaan olevan sitä kieltä, jossa niitä kulloinkin käytetään, paitsi jos ne on tarkoitus todella lukea alkukielen mukaisesti. Tämä siis merkitsee, että mitään erillistä merkkausta ei käytetä. Poikkeuksena olisi esimerkiksi lyhenne BBC, koska se on tapana suomessa lukea lausumalla kirjainten englanninkieliset nimet, siis suunnilleen "bii bii sii". Silloin sopiva merkkaus olisi
<abbr lang="en">BBC</abbr>
Periaatteessa eräiden suositusten mukaan pitäisi ilmoittaa title-määritteellä lyhenteen "lavennus" ainakin, kun lyhenne esiintyy ensi kerran, siis esimerkiksi
<abbr lang="en" title="British Broadcasting Company">BBC</abbr>
Tähän liittyy kuitenkin monia ongelmia, joista yksi on se, että puhesyntetisaattori saattaisi tulkita tilanteen niin, että sen pitää lukea lyhenne "avattuna".


Kirjoittamisen ajankohta: 2002-06-23. Päivitetty viimeksi 2007-12-03. Teknisiä korjauksia 2017-12-11.
Tämä sivu kuuluu Jukka "Yucca" Korpelan avoimeen tietosivustoon Datatekniikka ja viestintä.