Kirjainten tarinoita, luku 4 Tarkkeet:

4.1 Tarkennusta tarkkeen käsitteeseen

Tarke ja kantamerkki

Luvussa 2 kuvattiin, että tarke eli diakriittinen merkki tarkoittaa kirjaimeen liitettyä pientä lisäosaa. Periaatteessa tarke voi liittyä muuhunkin kirjoitusmerkkiin kuin kirjaimeen. Sellaisia merkintätapoja käytetään jonkin verran mm. matematiikassa ja fysiikassa.

Merkkiä, johon tarke liittyy, sanotaan kantamerkiksi (base character). Kantamerkki on siis yleensä kirjain, mutta se voi olla muukin merkki, jopa tarkkeellinen merkki.

Yhdistyvät tarkkeet ja tarkkeenomaiset merkit

Tavallisesti tarke ajatellaan merkin osaksi, jolla on oma identiteettinsä. Tarke voidaan kuitenkin käsittää myös itsenäiseksi kirjoitusmerkiksi. Unicode-standardin käsitteistöä käyttäen tämä voidaan vielä tehdä kahdella eri tavalla: yhdistyvä tarke ja tarkkeenomainen merkki.

Voimme esittää esimerkiksi kirjaimen â (sirkumfleksi-a) joko yhtenä Unicode-merkkinä, ns. koostemerkkinä (precomposed character), tai kahtena Unicode-merkkinä, joista ensimmäinen on tavallinen a-kirjain ja toinen on yhdistyvä eli kombinoituva (combining) sirkumfleksi. Kullakin yhdistyvällä tarkkeella on oma Unicode-koodiarvonsa.

Useimmat käytännössä esiintyvät tarkkeelliset kirjaimet voi esittää koostemerkkeinä, mutta ei aivan kaikkia. Tämä on tärkein syy siihen, että on hyvä tuntea yhdistyvän tarkkeen käsite. Jos esimerkiksi joudut kirjoittamaan kyrillisin kirjaimin venäjänkielisen sanan, jossa vokaaliin liittyy akuutti (esimerkiksi бо́льшой), et voi kirjoittaa tätä tarkkeellista vokaalia yhtenä kirjaimena, koska Unicodessa ei ole sellaista. Sen sijaan kirjoitat esimerkiksi tavallisen kyrillisen o:n ja sen jälkeen yhdistyvän akuutin (U+0301). Käyttämästäsi ohjelmasta riippuu, osaako se (ja miten hyvin se osaa) esittää näin luodun yhdistelmän.

Tarkkeenomainen merkki (modifier letter) tarkoittaa kirjaimen tavoin käytettävää itsenäistä merkkiä, jonka muoto vastaa jotakin tarketta. Sellaista merkkiä käytetään samantapaisissa tehtävissä kuin tarketta, mutta se siis sijaitsee omalla paikallaan tekstissä, ei toisen merkin yllä, alla tai nurkassa. Esimerkiksi tarkkeenomainen sirkumfleksi (U+02C6) ˆ on yleensä samannäköinen ja -kokonainen kuin esimerkiksi sirkumfleksi-a:ssa â oleva tarke.

Mitään edellä esitetyistä merkeistä ei pidä sekoittaa eräisiin tarkkeista kehitettyihin merkkeihin kuten merkkiin ^ (U+005E), joka on historiallisista syistä nimeltään sirkumfleksi. Nimi kuvastaa merkin alkuperää ja vanhaa aiottua käyttöä, mutta merkki otettiin myöhemmin aivan muunlaiseen käyttöön ja sen ulkoasu, etenkin koko, muuttui vastaavasti. Nykyisin sirkumfleksi tarkoittaa esimerkiksi potenssiin korotusta eräissä merkintätavoissa (esimerkiksi 10^6 = 106 = 1 000 000).

Varhaisten kirjoituskoneiden aikakaudella merkkivalikoima oli suppea, koska mekaanisten rajoitusten takia kirjoituskoneessa ei voinut olla kovin monia näppäimiä. Niinpä tarkkeelliset kirjaimet enimmäkseen jätettiin pois. Tarkkeet ehkä lisättiin kynällä. Saatettiin myös käyttää näppäintä, joka siirtää kirjoituskohdan merkin verran taaksepäin, ja lyödä lisämerkki tarkkeeksi. Esimerkiksi kirjoittamalla u, siirto taaksepäin ja " (kirjoituskonemerkistön lainausmerkki) saatiin aikaan u", jonkinlainen ü-kirjaimen jäljitelmä. Koska merkit olivat samanlevyisiä, kohdistus vaakasuunnassa meni melko hyvin. Sen sijaan on selvää, ettei ulkoasu muuten ollut kovin kummoinen, ja etenkin versaalin päälle lyötäessä syntyi lähinnä sotkua. Tässä on yksi syy siihen, miksi tarkkeiden käyttöä versaalien yhteydessä on vältetty.

Tietokoneissa tilanne oli aluksi pitkälti sama. Kustannussyistä merkkivalikoima pidettiin pienenä, ja tarkkeelliset merkit ajateltiin tuotettavan samaan tapaan kuin kirjoituskoneilla – tosin vain paperille tulostettaessa. Alkuperäisiin ajatuksiin kuului, että treemaa jäljittelevä merkintä tuotetaan lainausmerkillä " ja akuuttia jäljittelevä suoralla heittomerkillä '. Lisäksi merkistöön otettiin edellä mainittu sirkumfleksi ^, gravis ` ja tilde ~. Niiden käyttö tarkkeiden esittämiseen jäi kuitenkin vähäiseksi. Sen sijaan ne otettiin erilaisiin teknisiin käyttö­tarkoi­tuk­siin, koska merkeistä oli pulaa ja esimerkiksi ohjelmoinnissa tarvittiin lisämerkkejä. Alkuperäinen ajatus hävisi taka-alalle. Sen sijaan näppäimiä, joissa on sirkumfleksi ym., ruvettiin käyttämään tarkkeellisten kirjainten kirjoittamiseen sen jälkeen, kun ne oli lisätty käsiteltävissä olevaan merkkivalikoimaan. – Myöhemmin tulivat mukaan akuutti ´ ja treema ¨, jotka eivät kuulu Ascii-merkistöön ja joille ei juurikaan ole tullut myöhemmin käyttöä; lähinnä niitä kirjoitetaan vahingossa!

Tilanne on siis hämmentävä. Seuraavassa on tiivistelmä keskeisistä ideoista esimerkin avulla:

– U+00E2 on Unicode-merkki â, ja sitä käytetään normaalissa kirjoittamisessa; sen aikaan saamisen tavat riippuvat näppäimistöstä, mutta tavallisella suomalaisella näppäimistöllä näppäily ^a tuottaa sen
– U+0061 U+0302 on kahden Unicode merkin, tavallisen a:n ja yhdistyvän sirkumfleksin, muodostama jono, jollaista yleensä ei käytetä kirjoittamisessa mutta jollaisen tietokoneohjelma saattaa tuottaa; hyvin toimiva ohjelma osaa esittää sen â:na, joka kuitenkin voi ulkoasultaan jonkin verran poiketa siitä, mitä edellä mainittu U+00E2 tuottaa
– U+0061 U+02C6 on kahden näkyvän merkin, a-kirjaimen ja tarkkeenomaisen sirkumfleksin, muodostama jono, jonka ulkoasu on esimerkiksi ; tällaista ei normaalisti käytetä – tarkkeenomaisella sirkumfleksilla ei juuri ole käyttöä, ja se mainitaankin lähinnä siksi, että merkkivalikoimia selailtaessa se voi hämätä
– U+0061 U+005E on kahden näkyvän merkin, a-kirjaimen ja sirkumfleksin, muodostama jono, jonka ulkoasu on esimerkiksi a^; tällaista käytetään esimerkiksi joissakin matematiikkaan tai ohjelmointiin liittyvissä merkintätavoissa etenkin merkityksessä ”a potenssiin…” (esimerkiksi a^3 tarkoittaa tällöin samaa kuin a³).

Tarkkeen sijainti

Useimmiten tarke sijaitsee kirjaimen yläpuolella, mutta on myös monia tarkkeita, jotka kirjoitetaan kirjaimen alapuolella. Jotkin kirjoitetaan kirjaimen viereen tai esimerkiksi vasempaan tai oikeaan yläkulmaan. Tavallisesti tarke ei aivan kosketa sitä merkkiä, johon se liittyy. Poikkeuksen muodostaa mm. sedilji, joka tyypillisesti koskettaa kirjaimen alareunaa (esimerkiksi sedilji-c:ssä ç). Melko tavallista on, että versaali-Å:ssa ympyrä koskettaa kantamerkkiä A, mutta tätä voi pitää lähinnä typografisen suunnittelun erehdyksenä.

Poikkiviivaa ei pidetä tarkkeena

Tarkkeiksi ei kutsuta esimerkiksi erilaisia poikkiviivoja (englanniksi stroke), joita käytetään esimerkiksi puolan kielen poikkiviiva-L:ssä Ł (esimerkiksi nimessä Łódź). Tämä johtuu lähinnä siitä, että kansainvälisissä merkistöstandardeissa poikkiviivallisia kirjaimia pidetään täysin erillisinä merkkeinä, ei peruskirjaimen ja poikkiviivan yhdistelminä. Tämän taustalla taas on mm. se, että poikkiviiva menee todellakin kirjaimen poikki eikä näytä erilliseltä lisältä. Poikkiviivat ovat myös erimittaisia ja eri asennoissa (esim. Ł, đ, ø), joten niitä ei olisi kovin luontevaa tulkita saman tarkkeen eri ilmentymiksi. Poikkiviivallisia kirjaimia käsitellään luvussa 5.

Tarkkeet huijarien käytössä

Sähköpostitse tulevassa ns. roskapostissa (englanniksi spam) esiintyy usein englanninkielistä tekstiä, jossa sanat sisältävät niihin kuulumattomia tarkkeita, esimerkiksi Çircus Çasino – – The Rìchest Jàckpots! Kyse ei ole lapsellisesta leikistä vaan siitä, että roskapostin lähettäjä haluaa estää sen, että roskapostia torjuva ohjelma suodattaa viestin pois. Suodatus nimittäin usein perustuu sellaisiin sanoihin, joita tiedetään esiintyvän paljon roskapostissa.

Menetelmä on onneksi melko tehoton. Vaikka tietokoneohjelma normaalisti pitää merkkejä C ja Ç aivan eri merkkeinä, se voidaan kuitenkin ohjelmoida käsittelemään sanoja ikään kuin mitään tarkkeita ei olisi.