Kannanotto ehdotukseen ”Merkistöt ja niiden aakkostus”

Tietotekniikan kotoistus -hanke esitti helmikuussa 2005 julkisen kannanottopyynnön, joka koskee dokumenttia Merkistöt ja niiden aakkostus. Tämän johdosta esitän seuraavan kannanoton.

Aluksi huomautan, että kannanottojen esittämiselle varattu aika on huomattavan lyhyt, etenkin kun otetaan huomioon asian epäselvyys. Mukana ei myöskään ole selittävää aineistoa, joten asiasisältö varmaankin jää varsin epäselväksi monille, jotka ehkä haluaisivat lausua kantansa.

Merkistöt

Ehdotuksesta ei ilmene valmisteilla olevan määrittelyn asema ja tarkoitettu käyttö. Asia onkin ilmeisesti erittäin epäselvä, sillä CLDR:n määrittelyissä on kuvattu erityisesti exemplarCharacters-elementin merkitys hämärästi, jopa ristiriitaisesti. LDML-merkkauskielen määrittelyn kohdan 5.6 <characters> tekstiosuus alkaa seuraavasti:

The <characters> element provides optional information about characters that are in common use in the locale, and information that can be helpful in picking resources or data appropriate for the locale, such as when choosing among character encodings that are typically used to transmit data in the language of the locale. It typically only occurs in a language locale, not in a language/territory locale.

Tämä siis sisältää seuraavat periaatteet:

Kyseinen elementti on vapaaehtoinen (optional). Tosin sen pois jättäminen merkitsee tyytymistä perusmäärittelyyn, jossa aakkosto koostuu vain englannin kielen kirjaimista, eikä tämä ole suomen (tai useimpien muidenkaan kielten) osalta hyväksyttävää.
Määrittely sisältää ympäristössä tai paikallisasetuksissa (locale) yleisesti käytetyt merkit. Kuitenkin kuvaus myöhemmin rajaa määrittelyn kirjaimiin perustelematta rajausta mitenkään.
Ainoa mainittu konkreettinen käyttötarkoitus määrittelylle on merkkien koodauksen (character encoding) valinta. Kuvauksen mukaan kyse on tällöin valinnasta niiden koodausten välillä, joita tyypillisesti käytetään kyseisenkielisen datan lähettämiseen. Tämä on epäloogista, koska puheena olevan määrittelynhän luulisi olevan olennaista sen ratkaisemiseksi, mitkä kaikista koodauksista sopivat kyseiselle kielellä. Mutta määrittelyssä tämä edellytetään jo ratkaistuksi!
Kyseinen määrittely koskee tyypillisesti jotakin kieltä kokonaisuutena, ei sen jossakin maassa puhuttua muotoa erikseen.

On tavattoman tulkinnanvaraista, minkä kirjainten ja muiden merkkien voidaan katsoa kuuluvat johonkin kieleen. Kyse ei suinkaan ole yksinkertaisesta jaosta, jossa merkki joko kuuluu tai ei kuulu kieleen. Myös CLDR:n nykyinen malli, jossa tunnustetaan eräänlainen kaksitasoisuus, on kovin karkea. Todellisuudessa tasoja tai kehiä on monia: kielessä on jokin merkistön ydinjoukko, joitakin olennaisia lisämerkkejä, kieleen läheisesti liittyviä merkkejä jne. Kirjoituksessani Letters in Finnish olen ryhmitellyt kirjaimet 15 luokkaan sen mukaan, missä määrin niiden voidaan katsoa esiintyvän suomen kielessä. Tarkempi kuvaus ottaisi huomioon myös merkkien esiintymisen kielen eri muodoissa ja käyttötilanteissa.

Korostan, että rajoittuminen kirjaimiin on kaikkien ajateltavissa olevien käyttötarkoitusten kannalta mielivaltaista ja kuvastaa osaltaan sitä, miten keskeneräinen CLDR:n idea tältä osin on. Mukaan tulisi ottaa ainakin kielen kirjoitusjärjestelmään kuuluvat välimerkit.

Kielessä käytetyn merkistön määrittelylle voidaan nähdä moniakin mahdollisia käyttötarkoituksia (koodauksen valinnan lisäksi). Sitä voidaan käyttää esimerkiksi suunniteltaessa tai konfiguroitaessa tekstintunnistusohjelmaa. Jos tiedetään, että kielessä esiintyy yleisesti ä-kirjain mutta ei muutoin a-kirjainta, jonka päällä on tarke, voidaan a, jonka päällä on jotain, tunnistaa ä:ksi varsin väljiä toleransseja käyttäen. Jos taas kielessä esiintyisi sekä ä että ã, olisi toleranssien oltava tiukemmat, ja tällöin syntyisi usein tilanteita, joissa on toimittava interaktiivisesti eli pyydettävä käyttäjää arvioimaan, kummasta kirjaimesta on kyse. Tällä esimerkillä haluan korostaa, että lisämerkkien ottaminen mukaan ”varmuuden vuoksi” ei todellakaan tuo varmuutta.

”Varman päälle pelaaminen” edellyttäisi pikemminkin merkistön määrittelemistä mahdollisimman suppeaksi. Jos esimerkiksi jossakin laaditaan laite, ohjelma, protokolla tai fontti, joka tukee vain rajallista merkkivalikoimaa, on olennaista, voidaanko sen sanoa olevan järkevästi ottaen riittävä esimerkiksi suomen kielelle. Merkkivalikoima voi tällaisissa tilanteissa olla hyvinkin suppea. Kyseessä voi olla esimerkiksi johonkin uuteen tekniikkaan perustuva esitystapa, jossa merkistö on teknisistä syistä ainakin aluksi suppea, tai koristeellisiin tarkoituksiin kehitetty fontti, joka on tarkoitettu käytettäväksi vain otsikoissa ja vastaavissa.

Kyse on tällöin siitä, mitä voidaan pitää ehdottomana miniminä suomen kielen kirjoittamiselle. Tällainen merkistö on käsitykseni mukaan seuraava (mainitsematta tässä gemena- ja versaalikirjaimia erikseen):

a b d e f g h i j k l m n o p r s t u v y ä ö . , : ; ? ! " ' ( ) - 0 1 2 3 4 5 6 7 8 9 0

Tässä merkit " ja ' ovat luonnollisestikin vaihdettavissa suomen kielen mukaisiin lainausmerkkeihin silloin, kun nämä ovat käytettävissä.

Koska LDML:n nykyisessä määrittelyssä rajoitutaan kirjaimiin, olisi suomen kielen exemplarCharacters-joukko seuraava: [abd-pr-yväö].

Mikäli ä ja ö pudotetaan pois, kyse ei enää ole suomen kirjoittamiseen sopivasta merkistöstä. Erilaisilla hätäratkaisuilla voi kirjoittaminen silti jossakin mielessä onnistua, kuten suomea voisi kirjoittaa myös näppäimistöllä, josta on v-näppäin rikki (esim. korvaamalla v w:llä).

Aivan toisentyyppisistä hätäratkaisuista on kyse esimerkiksi silloin, kun hattu-s korvataan sh:lla. Sellainen menettely on tuiki tavallinen myös lehdissä ja jopa kirjoissa, ja hattu-s ylipäänsä esiintyy suhteellisen harvoissa teksteissä.

Riippumatta siitä, mikä merkitys å-kirjaimella on historiallisen suomalaisen (tai suomalais-ruotsalaisen) aakkoston vakiintuneena osana, sitä ei voi pitää suomen kieleen kuuluvana sen suuremmassa määrin kuin monia muita kirjaimia, joita esiintyy nimissä, nimien johdoksissa ja sitaattilainoissa. Sen sijaan voidaan perustella sen mukaan ottamista laajempaan merkkijoukkoon, johon kuuluvat ne merkit, jotka esiintyvät suomenkielisessä tekstissä muuten kuin aivan satunnaisesti. (Käytän ilmaisua ”muuten kuin aivan satunnaisesti” erottamaan nämä merkit kaikista muista, sillä suomenkielisessä tekstissä toki voi esiintyä mikä tahansa merkki nimessä, sitaattilainassa tai kielinäytteessä. Tässä yhteydessä ei voi puhua yleisesti esiintyvistä merkeistä, sillä yleisesti tai melko yleisesti esiintyviä ovat edellä mainitsemani minimimerkistön merkit.)

Ä:n ja ö:n mukaan ottaminen merkitsee olennaista rajoitusta. Tämä ei koske vain merkkien koodauksia vaan myös mm. fonttien valintaa. Jokin muutoin sopiva fontti saattaa olla sellainen, että siinä juuri ä ja ö on toteutettu niin huonosti, ettei fonttia ehkä typografisista syistä haluta käyttää suomenkieliselle tekstille. (Tällainen on esimerkiksi 12 pisteen Trebuchet MS.)

Esimerkiksi å:n jättäminen pois minimimerkistöstä ei ole vain periaatteellinen kysymys. Suomenkielinen teksti voidaan esittää esimerkiksi ISO 8859-2 -koodauksella, joka ei sisällä å-kirjainta. Syynä ISO 8859-2:n valintaan voisi olla esimerkiksi se, että tekstissä esiintyy myös puolaa, tai se, että halutaan käyttää hattu-s:ää. Ei ole syytä sulkea pois tällaisia mahdollisuuksia suomen kielen minimimerkistön määrittelyllä.

Kokonaan eri asia on, että Suomen oloihin tarkoitetussa sovelluksessa, ohjelmassa tms. tulee yleensä voida käyttää ainakin suomen ja ruotsin kieltä. Ruotsin kieli tuo mukanaan omat vaatimuksensa. Silloin ne on otettava asianmukaisesti huomioon – salakuljettamatta niitä muka suomen kielen vaatimuksina.

Muutoinkin korostan kielten keskinäistä riippumattomuutta. Suomen kielen vaatimaa merkistöä kuvattaessa ei pidä spekuloida sillä, mitä muita kieliä esiintyy (ainakin nimissä) pääosin suomenkielisessä tekstissä. Suorastaan absurdeihin tilanteisiin päädytään, jos vaaditaan, että suomen kielen merkistöön luetaan merkkejä vain siksi, että niitä esiintyy saamen kielessä tai romanikielessä. Niitä esiintyy suomenkielisen tekstin joukossa erittäin harvoin. Monet näistä merkeistä ovat sellaisia, että niiden esiintyminen suomenkielisessä tekstissä on todennäköisemmin osoitus kirjoitusvirheestä, väärästä merkkikoodimuunnoksesta tai muusta virheestä kuin tarkoituksellisesta käytöstä. Hyvin rajatuilla alueilla ja käyttöaloilla käyttö voi tietysti muodostua yleiseksikin. Kokonaisuuden kannalta olennaista on, että teksteissä voi esiintyä eri kieliä hyvinkin monilla eri tavoilla. Jos tiedetään, mitä kieliä todennäköisesti esiintyy jossakin yhteydessä, on tietysti otettava huomioon kaikkien kielten vaatimukset. Tällaista häiritsee vakavasti se, jos jonkin kielen vaatimuksiin on ”leivottu sisään” jonkin toisen kielen vaatimuksia.

Tätä näkemystä vastaa seuraava LDML:n määrittelyn lausuma exemplarCharacters-elementin sisällöstä: ”It is not a complete set of letters used for a language, nor should it be considered to apply to multiple languages in a particular country.” Lausumaa vielä selventää kuvaus, jonka mukaan englannin kielelle kyseinen merkkijoukko sisältää vain peruskirjaimet a:sta z:aan ja johon liittyy täydentävä selvennys: ”This set does not contain the accented letters that are sometimes seen in words like "résumé" or "naïve", because it is acceptable in common practice to spell those words without the accents.”

Tarkasteltaessa hattu-s:n asemaa on täten olennaista se, voidaanko katsoa, että yleisen käsityksen mukaan on hyväksyttävää korvata se sh:lla. Kielen normeissa ilmaistu linja on erotettava tästä. Vastaavasti englannin kielen sanassa ”fiancé” on epäilemättä englannin normien mukaan käytettävä aksentillista é:tä, mutta kielen käyttäjät ovat tottuneet siihen, että monissa yhteyksissä käytetään tavallista e:tä. Suomen kielessä hattu-s:n korvaaminen sh:lla on varmaan vielä laajemmin hyväksyttyä.

LDML:n määrittelyssä on seuraava osittain arvoituksellinen lausuma:

There can be more than two exemplarCharacters elements, with the second having the type "auxiliary". This element can be used for additional characters that are used in common foreign words, dictionaries, etc. used in the locale.

Lausuma on sisäisesti ristiriitainen, koska alkuosa puhuu useammasta kuin kahdesta, mutta jatkossa ilmaisu ”the second” taas edellyttää, että kyse on kahdesta. Ilmeisesti tarkoitetaan kahta. Tältä osin olen sitä mieltä, että ns. auxiliary-joukkoa tulee tulkita melko ahtaasti niin, että siihen kuuluvat vain à, c, q, w, x ja z sekä š (hattu-s) ja ž (hattu-z). Näitä kirjaimia esiintyy (tosin osittain varsin harvinaisina) suomen sanoissa, jotka voidaan katsoa erikoislainoiksikin (vastakohtana puhtaille sitaattilainoille, joissa voi esiintyä periaatteessa mitä tahansa merkkejä). Erikoisasemassa on à, joka on mukana siksi, että ranskasta lainattu prepositio à voidaan nykyisin katsoa omalla erikoisella tavallaan suomen kieleen kuuluvaksi.

Jos kuitenkin mukaan halutaan ottaa myös å-kirjain sillä perusteella, että se esiintyy ruotsinkielisissä suomalaisissa sukunimissä, olisi loogisuuden vuoksi otettava mukaan myös é-kirjain ja oikeastaan myös á-kirjain.

Mitä enemmän ns. auxiliary-joukkoon otetaan kirjaimia, sitä enemmän syntyy riskejä, että suomen kieli putoaa pois jonkin ohjelman, fontin tms. tukemien kielten listalta aivan aiheettomasti. Varovaisuuteen antaa aihetta sekin, ettei ole juuri mitään tietoa siitä, mihin kyseisen joukon määrittelyä on tarkoitus käyttää ja mihin sitä tullaan todellisuudessa käyttämään.

Luonnoksessa on ehdotettua perusmerkistöä perusteltu vuonna 1998 hyväksytyllä määrittelyllä. Silloin tehty työ ei kuitenkaan keskittynyt kotoistukseen siinä mielessä, jossa sitä CLDR:ssä harjoitetaan, eikä varsinkaan LDML:n elementtien määrittelemiseen. On kokonaan eri asia esittää näkemys siitä, mitä merkkejä pitäisi tukea järjestelmissä, jotta ne sopisivat suomenkielisen aineiston käsittelyyn, kuin määritellä perusteet, joilla rajataan suomen kieli pois niiden kielten joukosta, joita voi hyväksyttävällä tai ainakin siedettävällä tavalla käsitellä jossakin järjestelmässä tms. Esimerkiksi.

Luonnoksen yksityiskohdista huomautan, että ”perusmerkistöä laajemman merkkivalikoiman” kuvauksessa on eräitä epäloogisuuksia:

Luettelossa mainitaan merkkien ”kielitausta” mainitsemalla yksi tai useampi kieli. Tämä lienee tarkoitettu selittämään, että merkit on otettu mukaan luetteloon siksi, että kyseisiä kieliä on pidetty jotenkin muita tärkeämpinä suomen kielen kannalta. Tätä ei ole kuitenkaan selitetty.
Kielten joukossa mainitaan mm. unkari, mutta listaan ei kuitenkaan ole otettu kaikkia unkarin kielen kirjaimia. Muutoinkin listan kokoamisen perusteet jäävät epäselviksi. Miksi esimerkiksi tšekin kielessä käytettävä hattu-r olisi suomen kielen kannalta tärkeämpi kuin samassa kielessä käytetyt muut tarkkeelliset kirjaimet, joita listassa ei ole?
Huomiota herättää myös monien balttilaisissa kielissä käytettyjen tarkkeellisten kirjainten puuttuminen, vaikka balttilaisia nimiä esiintyy suhteellisen usein mm. sanomalehdissä.
Merkkiä æ kutsutaan virheellisesti ae-ligatuuriksi, vaikka se ei ole ligatuuri missään mainituista kielistä. Tiedän kyllä, että merkin suomenkieliseksi nimeksi on eurooppalaisen merkistön nimeämisessä päätetty "latinalainen pienaakkosligatuuri", mutta tämä merkin Unicode-nimestä poikkeava nimeämistapa on tässä yhteydessä erityisen harhaanjohtava.
Merkin ë kielitaustaksi on mainittu ranska ja albania. Ainakin jälkimmäistä paljon tärkeämpi suomalaisesta näkökulmasta on (uus)latina, mukaan lukien eliöiden tieteellisissä nimissä käytetty latina ja latinisoidut asut.
Merkin ü kutsuminen saksalaiseksi y:ksi on harhaanjohtavaa muun muassa siksi, että merkki esiintyy myös espanjassa (jota listassa ei nyt mainita) eikä siinä tarkoita y-äännettä.

Luonnoksessa ehdotettu erillinen ”alueellinen” määrittely (”suomen kieli Suomessa”) poikkeaa alussa mainitsemastani periaatteesta, joka sisältyy julkiseen LDML:n määrittelyyn. Kyseessä on myös mielivaltainen ratkaisu, jossa tosiasiallisesti otetaan kantaa romanikielen ja saamen kielten asemaan Suomessa eikä siihen, mitä merkkejä tarvitaan Suomessa puhutun suomen kielen kirjoittamiseen, joka kuitenkin olisi laadittavan määrittelyn määritelty merkitys.

Mielestäni mitään erillistä määrittelyä ”suomen kieli Suomessa” ei pidä laatia, ellei voida osoittaa, että tämä kielimuoto tai kielimuotojen kokonaisuus todellisuudessa poikkeaa suomen kielestä yleisesti – niissä asioissa, joita käsiteltävät kotoistusmäärittelyt koskevat. Kotoistuksen toteutuksessa on parasta, jos ei ole olemassa erillisiä vaihtoehtoja. Tämä voidaan havaita esimerkiksi siitä, miten hankalia monien ohjelmien kielivalintavalikot ovat, kun niissä on erikseen esimerkiksi ”ranska Belgia”, ”ranska Kamerun”, ”ranska Kanada”, ”ranska Kongon demokraattinen tasavalta” jne., jolloin kielten luettelo kokonaisuutena muodostuu suhteettoman pitkäksi. Kielen ja maan valinta tulisi pitää toisistaan riippumattomina, ellei niiden välillä ole todellista kytkentää käsiteltävän asian kannalta.

Kielivähemmistöjen tarpeet tulee ottaa huomioon siellä, missä määritellään järjestelmille ym. asetettavia vaatimuksia, esimerkiksi vaatimalla, että näppäimistön tulee tukea niitä-ja-niitä kieliä sillä-ja-sillä tavalla. Tällöin on luonnollisestikin otettava luonnoksessa mainittujen ”perinteisten” vähemmistökielten lisäksi muut kielet, joiden käytölle on eri yhteyksissä tarvetta.

Aakkostus

Ehdotetut aakkostussäännöt ovat tarpeettoman mutkikkaat. Kielikohtaisissa aakkostussäännöissä tulisi poiketa Unicoden perussäännöistä vain silloin, kun kielen ominaisluonne ja vakiintuneet periaatteet sitä edellyttävät.

Tarvittaisiin vahvat perusteet sille, että suomen kielen aakkostussääntöihin otettaisiin erillisiä sääntöjä suomen kielelle vieraita merkkejä varten. Luonnoksessa ei nyt ole esitetty mitään periaatteita tällaisille poikkeuksille.

Mielestäni mukaan tulisi ottaa vain säännöt, jotka sijoittavat ä:n, ö:n, å:n, æ:n, ø:n ja ü:n niille paikoille, joissa ne vanhastaan sijaitsevan suomen aakkostossa. Tosin voidaan kysyä, tulisiko unkarin kielessä käytetty kaksoisakuutti-u sijoittaa yhdessä ü:n kanssa y:n yhteyteen, koska se on merkitykseltään ü:tä vastaava pitkä äänne ja koska se yleisesti Suomessa miellettäneen ü:n kaltaiseksi (tai suorastaan sekoitetaan siihen).

Näin ollen esimerkiksi poikkiviiva-d sijoittuisi Unicoden yleissääntöjen mukaisesti erilliseksi kirjaimeksi d:n jälkeen. Tällaiset seikat voisivat aiheuttaa hämmennystä, koska toisaalta tarkkeiksi tulkittavat merkit eivät aiheuta primaaria eroa. Tämä seikka on kuitenkin ominainen yleisesti Unicoden aakkostussäännöille, joiden kanssa joudutaan kuitenkin tekemisiin muissa, muunkielisissä yhteyksissä. Tarpeettomat poikkeamiset kansainvälisistä säännöistä aiheuttaisivat nekin hämmennystä, varsinkin kun ne koskisivat varsin harvinaisia merkkejä, joten poikkeukset tulisivat eteen pyytämättä ja yllätyksinä.

Ehdottamani linja olisi helposti esitettävissä niin proosamuodossa kuin LDML:ssäkin ja myös luontevasti perusteltavissa. Tämä olisi omiaan edistämään yhtenäistä käytäntöä, sillä edelleenkin joudutaan hyvin laajasti tekemään aakkostuksen korjailua ”käsin”, koska käytettävät ohjelmat eivät hallitse kunnollista aakkostusta. Myös aakkostettuja luetteloita käytettäessä (tietoa niiden kautta etsittäessä) on olennaista, että aakkostusperiaatteet ovat mahdollisimman yksinkertaiset ja helposti muistettavissa – ja samat kuin muunkielisissä aineistoissa, ellei ole selvää, kaikkien ymmärrettävissä olevaa perustetta muuhun.

Ehdotukseni sisältää myös sen, että w aakkostetaan erilliseksi kirjaimeksi v:n jälkeen. Tämä on jo pitkään ollut vallitseva suuntaus. Ainoa syy, jolla v:n ja w:n käsittelemistä samana merkkinä tai vain sekundaarisesti toisistaan poikkeavina on voitu perustella, on ollut fraktuurakirjoituksesta periytyvä w:n käyttö v:n koristeellisempana muunnelmana joissakin suomalaisissa nimissä. Tämän seikan merkitys on nykyisin olematon verrattuna siihen, miten monissa vieraissa nimissä ja sanoissa v ja w ovat selvästi erilliset kirjaimet.

Puhelinluetteloja varten ei pidä määritellä mitään omia, muusta aakkostuksesta poikkeavia sääntöjään, ellei poikkeuksille voida osoittaa erittäin painavia perusteita. On erittäin hankalaa, jos puhelinluettelon käyttöä varten pitää opetella muista aakkostetuista aineistosta poikkeavat periaatteet.

Espoossa, Kalevalan päivänä 2005.

Jukka K. Korpela, tietokirjailija
jkorpela@cs.tut.fi
puh. (09) 888 2675, 040 8448 617