Suomen kieli tietokoneen puristuksissa

Julkisuuteen nousee aika ajoin kysymyksiä siitä, miksi niin monessa paikassa ä:t ja ö:t eivät ole käytössä vaan ”Hämäläinen” esiintyy asussa ”Hamalainen” tai ”Haemaelaeinen”. Mutta vaikka nämäkin ongelmat ovat hyvin todellisia ja häiritseviä, ne ovat vain jäävuoren huipun pintaa. Toisessa kulttuurissa kehitetty datatekniikka (ATK-tekniikka) uhkaa ja sotkee suomen kieltä paljon useammalla tavalla kuin useimmat aavistavatkaan. Osittain häiriöihin on jo totuttu, ja niitä on ruvettu pitämään normaalikielenä. Moniko osaa enää ihmetellä, miksi tietokoneohjelman antamassa ilmoituksessa omasta toiminnastaan on sana ”muotoillaan”, vastoin suomen kielen vanhaa rakennetta, jossa sellainen verbinmuoto osoittaa persoonallista tekijää? Tai monikohan on jo ruvennut pitämään normaaleina lainausmerkkeinä joko niin sanottuja "Ascii-lainausmerkkejä" tai englannin mukaisia “älykkäitä” lainausmerkkejä?

Sisältö:

Pitääkö kaikkea muutosta vastustaa?

On syytä kysyä, miltä osin englannin ja datatekniikan vahingollinen vaikutus suomen kieleen on torjuttavissa – ja miltä osin vaikutus todella on vahingollinen. Kielenhuoltajat tuntuvat omaksuneen kannan, jonka mukaan kaikki tekniikan vaikutus kieleen on vahingollista ja että tekniikan on kaikessa mukauduttava kielen sääntöihin eikä toisinpäin. Silloin unohtuu se, että kirjoitettu kieli on kautta vuosituhanten mukautunut kulloisiinkin kirjoittamisen tekniikoihin. Papyrukseen kirjoitettiin eri tyylillä ja erilaisin merkein kuin savitauluihin. Aikoinaan kirjoitusalue raapustettiin aivan täyteen edes sananvälejä jättämättä, koska materiaali oli kallista. Pientäpä on siihen verrattuna, jos ehdotan, että automaattisen ladonnan helpottamiseksi hiukan lisättäisiin yhdysmerkin käyttöä yhdyssanoissa.

Datatekniikka tarjoaa myös laajoja mahdollisuuksia parantaa kielenkäytön laatua. Tarkistuslukuohjelmat tai tekstinkäsittelyohjelmiin upotetut tarkistustoiminnot ovat tästä yksinkertainen mutta vaikuttava esimerkki. Tosin valitettavasti niitä käytetään vielä aivan liian vähän; arvokirjallisuuttakin pääsee markkinoille ilman, että se kulkisi tarkistimien läpi. Vaikuttaneeko tähän se, että tietokoneisiin asennoidutaan hiukan pelokkaasti, hiukan halveksien ja hiukan kuin äidinkielemme vihollisina?

Ääkköset eivät olekaan niin helppoja

Vaikka ä- ja ö-kirjainten tuottaminen onkin yleensä helppoa ainakin suomalaisella näppäimistöllä, asia ei ole ihan niin yksinkertainen, miltä näyttää. Perusongelma on tekstien siirrettävyys tietokoneesta toiseen tai jopa yhden tietokoneen sisällä ohjelmasta toiseen. Pieni esimerkki: Jos tyypillisessä Windows-PC:ssä kirjoitan sanan ”tämä” tekstitiedostoon vaikkapa Muistio- eli Notepad-ohjelmalla ja sitten tulostan samassa koneessa ns. Dos-ikkunassa sen tiedoston sisällön, niin tuloksena onkin ”tõmõ” tai ”tSmS” tai jotain muuta, sen mukaan, millainen ns. koodisivu on käytössä.

Jos sitten haluaisin kirjoittaa ä:n tiedoston nimeen eli vaikkapa antaa kesäkuun myyntitiedot sisältävän tiedoston nimeksi ”Kesäkuun myynti”, saatan törmätä yllättäviin ongelmiin. Varsin usein tilanne on se, että tiedostonnimissä käyvät merkit ovat eri tilanteissa erilaiset samassakin koneessa. Muutenkin nimisäännöt vaihtelevat, ja varman päälle pelaavat tietokoneen käyttäjät tyytyvät edelleenkin hämäriin mutta teknisesti toimiviin, lyhentämällä ja muuten muuntamalla muodostettuihin nimiin kuten ”kesak.txt”.

Tekstien siirrossa kokonaan erilaisiin järjestelmiin on vielä paljon enemmän tapoja, joilla asiat voivat mennä pieleen. On yksi asia saada ä-kirjain paperille tai kuvaruudulle oikein ja toinen asia lähettää se toiseen tietokoneeseen niin, että vastaanottaja näkee sen oikein. Edes meilissä eli ns. sähköpostissa asia ei ole ongelmaton.

On siis tavallaan ymmärrettävää, että kansainvälisissä yhteyksissä pyritään rajaamaan merkistö suppeaksi, hyvin usein Ascii-merkistöksi, joka on Yhdysvalloissa 1950- ja 1960-luvulla kehitetty merkkivalikoima ja koodi. Koska sen useita merkkejä on eri maissa saatettu korvata erilaisilla kansallisilla merkeillä, esimerkiksi aaltosulje { Suomessa ja Ruotsissa ä:llä, muualla taas esim. æ:llä tai é:llä, saatetaan rajoittua vain Asciin invarianttiin osajoukkoon. Siihen kuuluvat vain englannin kielen kirjaimet A:sta Z:aan (isoina ja pieninä), välilyönti ja merkit

! " % & ' ( ) * + , - . / : ; < = > ?

Näillä toki monissa teknisissä yhteyksissä pärjätään jotenkin, mutta normaaliin tekstin kirjoittamiseenkin valikoima on kovin rajoittunut.

Vaatikaa merkkejä!

Jonkinlaisen kuvan merkistöongelmien laajuudesta antaa seuraava karkea luonnehdinta: Asciin invariantissa osajoukossa on muutamia kymmeniä merkkejä; laajemmassa niin sanotussa ISO Latin 1 -merkistössä on vajaat kaksisataa; merkistöön, joka riittää lähes kaikille Euroopan kielille, tarvitaan muutamia satoja merkkejä; aasialaisten kielten kirjoittamiseen taas tarvittaisiin kymmeniä tuhansia; ja erilaisten matemaattisten ja muiden erikoismerkkien tarve on lähes loppumaton.

Käytännöllisiä kompromisseja siis tarvitaan. Ei ole kohtuullista vaatia, että kaikissa ohjelmissa kaikilla laitteilla voidaan esittää ä:t ja ö:t saati kiinan merkit oikein. Mutta kansainvälisessä yhteistyössä on oikein ja kohtuullista sopia tekstitiedon tallentamisesta ja lähettämisestä tavalla, joka sallii tiedon oikean esittämisen siellä, missä mahdollista. On aivan mahdollista tallentaa tai lähettää nimi kahdessa eri muodossa, oikeassa ja suppeaan merkkivalikoimaan sovitetussa.

Kerrotaan, että joissakin puhekielen muodoissa olisi ä-äänne muuttumassa a-äänteen kaltaiseksi. Mahtaneeko se joltakin osin johtua siitä, että niin monessa yhteydessä on opittu kirjoittamaan ä:n tilalle a? Tarve sellaiseen voi syntyä näppäimistön rajoituksista, käytössä olevan merkkikoodin rajoituksista tai siitä, että jokin tekninen tunniste (käyttäjätunnus, Web-osoite, tiedostonnimi tms.) joudutaan kirjoittamaan sillä tavoin, koska käytössä oleva ohjelmisto ei pysty käsittelemään ”ääkkösiä”. Joka tapauksessa jotkut tietokoneiden aktiivikäyttäjät ovat jopa kertoneet, että a:n ja o:n käyttö ä:n ja ö:n tilalla käy jo luonnostaan, eikä ä:tä ja ö:tä tule käytetyksi silloinkaan, kun ne hyvin voisi kirjoittaa.

Typografia kunniaan

On sanottu, että vanhan hyvän ajan painojäljen erottaa ”tietokoneella tehdyn” näköisestä jo muutama pieni yksityiskohta: millaisia lainaus- ja heittomerkit ovat ja onko käytetty oikeita ajatusviivoja. Tämä johtuu suureksi osaksi siitä, että edellä mainitussa Ascii-merkistössä ei ole mukana muutamaa typografisesti olennaista merkkiä. Lainausmerkkinä on siinä käytössä vain ns. suora lainausmerkki ", heittomerkkinä (ja yksinkertaisena lainausmerkkinä) vain suora heittomerkki ', ja ajatusviivat korvataan yhdysmerkillä -, eri kielissä erilaisten käytäntöjen mukaan. Nykyaikaisessa tekstinkäsittelyssä tällaiseen ei ole mitään tarvetta, mutta tottumuksen ja esimerkin voima on suuri. Lisäksi jos teksti pitää pystyä saattamaan mahdollisimman siirtokelpoiseen muotoon, joudutaan usein muuntamaan se Ascii-merkistöä käyttäväksi.

Tässäkin ohjenuoraksi sopii: kirjoita oikeita merkkejä käyttäen, siirry korvikkeisiin vasta kun on pakko. On täysin mahdollista ohjelmalla muuntaa typografisesti oikeita merkkejä käyttävä teksti tarvittaessa Ascii-merkkejä käyttäväksi; toiseen suuntaan muunnos ei samalla tavoin ole automatisoitavissa.

Valitettavasti kirjapainotasoiseksi tarkoitetussa tekstissäkin näkee yhä useammin ala-arvoista tyyliä edellä mainittujen merkkien käytössä. Ilmiö sinänsä ei ole uusi. Jo vuonna 1961 Terho Itkonen kirjoitti Suomalainen Suomi -lehteen artikkelin Ensyklopedista nykysuomea, jossa hän arvioi edellisenä vuonna ilmestynyttä Otavan ison tietosanakirjan I osaa ja puuttui myös yhdysmerkin käyttöön ajatusviivan tilalla: ”Ei kirjoituskoneiden vaillinaisuudella eikä tilansäästöseikoillakaan voida puolustella sellaisia toistuvia kirjoitusvirheitä kuin v. 1154-1453 (pro 1154–1453), 1 - 2 viikon ajan (huom. väli yhdysmerkin molemmin puolin; pro 1–2 viikon)”.

Typografian kannalta olisi myös suotavaa, että kielen normeissa sanottaisiin, milloin käytetään lyhyttä, milloin pitkää ajatusviivaa. Ne nimittäin ovat joka tapauksessa kansainvälisten merkistöstandardien kannalta kaksi eri merkkiä. Kielenhuolto on, viimeksi kai Kielikellon numerossa 3/1998, yrittänyt kiertää koko kysymyksen: ”Ajatusviivoja on kaksi eripituista, ns. lyhyt ajatusviiva (–) eli n-viiva (englannin en dash) ja pitkä ajatusviiva (–) eli m-viiva (englannin em dash). Nämä eripituiset ajatusviivat ovat lähtöisin painotekniikan tarpeista. Kielenhuolto ei ole pitänyt tarpeellisena erottaa niitä eri käyttötarkoituksiin, joten kaikissa ajatusviivan tehtävissä voi käyttää kumman pituista ajatusviivaa tahansa. Pääasia on, että ajatusviiva eroaa selvästi yhdysmerkistä (-).” Tämä on omiaan lisäämään sekaannuksia ja merkitsee erityistä päätöstä olla käyttämättä hyväksi teknisiä mahdollisuuksia selventää tekstin asua hiukan. Hyvä normi olisi: pitkää viivaa käytetään varsinaisena ajatusviivana – joka on yleensä merkki ajatuksen katkeamisesta – ja lyhyttä viivaa rajakohtailmaisuissa kuten 1–2 ja Helsinki–Tampere. Tosin pitkän ajatusviivan ongelmana on, että useimmissa fonteissa se on turhankin pitkä, osittain siksi, että englannin kielessä sen ympärille ei yleensä tule välilyöntejä–mitä tapaa suomessa tuskin koskaan käytetään, eikä ole syytäkään.

Lainausmerkkien käytössä ongelmana on usein se, että tietokoneohjelma on liian älykäs: kun kirjoittaja painaa "-näppäintä, ohjelma ei lisääkään "-merkkiä vaan ”älykkäästi” oikean lainausmerkin – mutta kovin usein väärän kielen käytännön mukaisesti. Ei ole aina ollenkaan helppoa saada tekstinkäsittelyohjelma toimimaan toisin kuin englannin sääntöjen mukaan; ehkäpä ohjelmassa ei edes sellaista mahdollisuutta ole. Mutta tässä asiassa voisi nostaa esiin kysymyksen: Eikö englannin (ja monen muun) kielen lainausmerkkien käyttö ole loogisempaa kuin suomessa? Onhan oikeasti fiksumpaa, että lainauksen aloitusmerkki on erilainen kuin lopetusmerkki, samaan tapaan, kuin sulkeisiin pantavan huomautuksen ympärille pannaan alkuun (-merkki ja loppuun )-merkki eikä kummallekin puolelle samanlaista merkkiä. Olisi ehkä parempi normeissa ainakin sallia myös “englantilaiset” lainausmerkit yhtenä vaihtoehtona, kunhan sitten käytetään johdonmukaisesti vain niitä. Salliihan normisto jo nyt sekä ”kaarevat” lainausmerkit että »kulmikkaat» lainausmerkit.

Heittomerkki aiheuttaa samantapaisia ongelmia. Tosin niiden merkitys on pienempi, koska heittomerkin käyttö suomessa on vähentynyt. Toisaalta käytön harvinaisuuden takia oikeat säännöt tunnetaan entistä harvemmin. Niinpä näkeekin usein oikean heittomerkin (esim. vaa’an) paikalla paitsi Ascii-heittomerkkiä (esim. vaa'an) myös akuuttia aksenttia (esim. vaa´an).

Liian fiksut ohjelmat sotkevat

Ohjelmien liiallinen ”älykkyys” on muutenkin usein ongelma, koska ”älykkäät” piirteet on usein tehty nimenomaan englantia ajatellen, eikä niiden vaikutus aina englannissakaan ole kovin älykäs. Käyttäjä voi joutua esimerkiksi korjaamaan ohjelman tekemiä temppuja kuten sanojen muuttamista isoilla alkukirjaimilla alkaviksi tai merkkien korvaamista toisilla. En tiedä, miksi Microsoft Word on sitä mieltä, että kirjoittaessani -i en tarkoita, mitä kirjoitan (yhdysmerkki ja i-kirjain), vaan se omia aikojaan korvaa yhdysmerkin pitemmällä viivalla. Luultavasti se, tai siis sen suunnittelija, on ajatellut, että tuollaisessa rakenteessa on aina kyse miinusmerkistä eikä yhdysmerkistä. Ohjelmaa huonosti tuntevan taikka vain kiireisen kirjoittajan on helpointa jättää ohjelman tekemä ”korjaus” korjaamatta.

Usein näissä ongelmissa auttaa paljon se, että käytetään ohjelmasta sellaista versiota, joka osaa käsitellä nimenomaan suomen kieltä tai ei ainakaan tee englannin mukaisia temppuja. Tämä on usein kustannuskysymys, koska ”kielituesta” pitää usein maksaa erikseen ja koska moni tarvitsee myös englannin kielen tuen eli ei voi hankkia vain suomenkielistä versiota. Tilannetta kärjistää vielä se, että tavallisimmat tekstinkäsittelyohjelmat yms. ovat melko kalliita, joten yksityiskäyttäjä varmaan harkitsee vakavasti maksutonta vaihtoehtoa (esim. StarOffice) – josta erittäin todennäköisesti ei lainkaan ole suomen kieltä tukevaa versiota.

Hattu kunnolla päähän: merkkien ulkonäkö

Ongelmia ovat aiheuttaneet myös ”hatulliset” merkit: soinnittoman ja soinnillisen suhuäänteen merkit š ja ž, joiden käytettävyyttä Kotimaisten kielten tutkimuskeskus pitää hyvin tärkeänä. Esimerkiksi Helsingin Sanomat kuitenkin käyttää lähes järjestelmällisesti merkkipareja sh ja zh niiden tilalla venäläisten nimien kirjoittamisessa. Vaikka nämä korvaavat merkinnät ovat joissakin tilanteissa välttämättömiä, niin painotekstissä niitä toki ei tarvita; tämän osoittaa sekin, että HS kyllä saa ne aikaan balttilaisiin nimiin.

Mutta sielläkin, missä š:ää ja ž:aa käytetään periaatteessa oikein, näkee ikävän usein typografisesti ala-arvoisia muunnelmia merkkien ulkoasusta. Milloin ”hattu” leijailee korkealla merkin yläpuolella, milloin taas pystysuorasta keskiviivasta oudosti oikealla tai vinosti vasemmalla. Sellaista esiintyy jopa painojulkaisujen teksteissä, joiden nimenomaisena sisältönä on vaatia käyttämään kyseisiä merkkejä. Usein näyttää siltä, että š tai ž olisi tempaistu kokonaan toisesta fontista kuin normaaliteksti. Usein niin taitaa ollakin, sillä ohjelmat todellakin saattavat toimia niin, että ne tarvittaessa poimivat merkin toisesta fontista. Kirjapainossa kyse on siitä, onko fontteja hankittaessa vaadittu, että niissä on riittävä merkkivalikoima.

Oma lukunsa on sitten translitterointien yleinen laatu. Valitettavan tavallista on, että englannista suomeen käännettäessä jätetään venäläiset nimet siihen asuun, missä ne ovat englanninkielisessä tekstissä. Voitaisiin keskustella paljonkin siitä, onko parempi kirjoittaa kansainvälisen standardin (ISO 9:1995) mukaisesti ”Čehov” vai vanhan suomalaisen käytännön mukaisesti ”Tšehov”; mutta englannin mukainen asu ”Chekhov” on ehdottomasti väärin suomessa. Sama tietysti koskee ranskassa, saksassa, ruotsissa ja muissa kielissä käytettäviä, niitä varten suunniteltuja kyrillisten merkkien translitterointeja. Aivan sietämätöntä on se, että samassa kirjassakin, jopa samalla sivulla, esiintyy sama nimi milloin milläkin tavalla translitteroituna. Sellaisia virheitäkin on esimerkiksi Antony Beevorin kirjan Stalingrad suomennoksessa (WSOY, 2000), jonka kirjoitusasun viimeistelemättömyys on muutoinkin pienoinen kulttuuriskandaali. – Omat hankaluutensa asiaan tietysti tuo se, että ”Chekhov” (tai ”Sinebrykoff”) on voinut vakiintua kirjoitusasuksi siellä, minne nimen kantajat ovat muuttaneet, ja sellaista nimeä ei tietenkään pidä ruveta käännettäessä translitteroimaan uudestaan.

Datatekniikan kannalta olisi olennaista, että translitteraatio kyrillisistä latinalaisiksi kirjaimiksi on yksinkertainen ja puhdas translitteraatio, jossa kutakin kyrillistä merkkiä vastaa aina sama latinalainen esitysasu, mieluiten aina sama yksi merkki (ei merkkiyhdistelmä), ja että translitteraatio vielä olisi sama kaikissa kielissä. Standardi ISO 9 pyrkii juuri tähän – mahdollistamaan ”mekaanisen” translitteroinnin, joka on toteutettavissa yksinkertaisella ohjelmakoodilla. Helppo toteutettavuus on olennaista sen kannalta, että mahdollisimman moni ohjelma saadaan tukemaan sitä. On syytä muistaa, että tietokoneita ja tietokoneohjelmia on kohta joka paikassa, eikä joka paikkaan voida tunkea mielivaltaisen isoja mammuttiohjelmia. Toisaalta tällöin translitteraatio ei ole minkään kielen kannalta kovinkaan tarkoin ääntämystä vastaava. Tämäntapaisia valintatilanteita tulee jatkuvasti syntymään. Mihin sitten päädyttäneenkin, olisi hyvä, jos voisimme katsoa niitä avoimin silmin, asettamatta aksioomaksi, että kaiken pitää mukautua omaan äidinkieleemme.

Merkit näppeihin – siis näppäimistöön

Yksi syy siihen, että kirjoittajat eivät käytä oikeita merkkejä vaan korvikkeita, on se, että oikeiden merkkien kirjoittaminen on hankalaa tai sitä ei edes osata. On helpompi kirjoittaa 2x2 kuin 2×2, koska x-kirjaimelle on oma näppäin, kertomerkille ei. Kertomerkki pitää tuottaa jollain erikoisella tavalla, joka riippuu sekä näppäimistöstä että ohjelmistosta. Monikohan PC:n käyttäjä edes tietää, että µ-merkin saa aikaan m-näppäimellä Alt Gr -näppäimen avulla?

Tarvittaisiin standardi, joka määrittelee, miten Suomen oloihin sovitetuissa ohjelmissa tulisi hoitaa tavallisimpien Suomessa tarvittavien merkkien kirjoittaminen. Sama koskee fyysisiä näppäimistöjä. Uusia näppäimiä ei juurikaan voida käytännössä lisätä, mutta toimintoja ja näppäinhattuja voitaisiin kehittää. Jos s-näppäimeen olisi jollain tapaa merkitty myös š-merkki, olisi kynnys š:n käyttöön matalampi. Tosin sitten pitäisi myös varoittaa käyttämästä sellaisia merkkejä yhteyksissä, joissa ne eivät vielä toimi luotettavasti.

Desimaalipilkku, desimaalipiste vai mikä?

Englannin kielessä käytetään desimaalipistettä (esim. 1.234), suomessa ja useimmissa muissa kielissä taas desimaalipilkkua (esim. 1,234). Tästä aiheutuu joskus jopa väärinkäsityksiä, koska englannissa pilkku erottaa esim. tuhannet sadoista: 1,234 merkitsee samaa kuin suomessa 1 234.

Datatekniikassa saattaa olla mahdollista niin sanotuilla locale-asetuksilla määrätä, mikä on ohjelmien tulostamien lukujen esitysmuoto tässä suhteessa. Itse ohjelmiin ei tällöin tarvitse koskea. Tämä kuulostaa hyvältä mutta ei itse asiassa toimi kovinkaan hyvin. Jos ohjelma tulostaa pilkullisia lukuja ja tuloksia yritetään lukea toisella ohjelmalla siten, että locale on asetettu erilaiseksi, seuraa melkoinen sotku.

Tässä asiassa sopii kysyä, eikö englannin käytäntö ole parempi kuin suomen. Datatekniikassa tarvitaan hyvin usein lukujen listoja, joissa erottimina on pilkut. Myös teksteissä tarvitaan lukujen luetteloita joskus, eikä ”1,2, 4,5, 6,7 ja 8,9” näytä kovinkaan hyvältä. Oikeinkirjoitussuositusten ehdotus käyttää tarvittaessa puolipistettä ei ole oikein tyylikäs, ja se tuo puolipisteen sille vieraaseen käyttöön. Mutta anglistinen ”1.2, 4.5, 6.7 ja 8.9” toimisi hyvin. Tilanteita, joissa desimaalipiste voisi sekaantua pisteen muihin merkityksiin, on erittäin vähän.

Uudenlaiset sivistyssanat, uudet kieliriidat

Sivistyssanojen kirjoitusasusta käytiin kiivas keskustelu 1900-luvun alkuvuosikymmeninä, ja vaikka normit periaatteessa vakiinnutettiin, käytäntö horjui ja horjuu yhä jonkin verran. Vieläkin ”lila” taitaa olla tavallisempi kuin ”liila”, ja kielenhuolto horjuttaa käytäntöä esimerkiksi suosittaessaan hyvin kummallisin perustein kirjoitusasua ”farao”. Mutta suurin piirtein on vakiintunut se, miten ruotsin kautta suomeen tulleet sivistyssanat kirjoitetaan. On toisaalta hyvä palauttaa mieleen, mistä kiistoissa pohjimmiltaan oli kyse: kirjoitetaanko sanat ruotsin ja muiden kielten esikuvan mukaan (esim. senati) vai ääntämyksen mukaan (esim. senaatti)? Toisin sanottuna: lainataanko ruotsista erikseen kirjoitusasu ja erikseen äänneasu vai saatetaanko ne vastaamaan toisiaan suomen kirjoitusjärjestelmän mukaan?

Sama ongelma on nimittäin tullut eteen datatekniikan kehityksen myötä. Välittömänä lainanantajakielenä vain on englanti. Datatekniikan sanojen osalta tämä on ilmeistä, mutta myös muiden alojen sanastossa englannilla on usein hallitseva asema, osittain siksi, että Internet vahvistaa sitä. Pitäisikö kirjoittaa englannin kirjoitusasun mukaisesti headeri vai äänneasun mukaan hederi? Ongelma on itse asiassa pahempi kuin sata vuotta sitten. Poikkeaahan englannin kirjoitusjärjestelmä omastamme enemmän kuin ruotsin. Lisäksi sanat lainautuvat pääosin vain kirjallisessa muodossa, Internetin ja kirjallisuuden kautta. Tätä heijastaa sekin, että äänneasu, joskus kirjoitusasukin, saattaa heijastella väärää luuloa englannin ääntämyksestä, esim. hiideri tai sväppäys (sanasta swap, jonka vokaali englannissa ääntyy labiaalisena, lähinnä suomen o:ta vastaavana). Tavallisimmat englannin sanat toki sentään yleensä osataan ääntää suunnilleen oikein.

On syntynyt kolme eri koulukuntaa: ”raakalainaajat”, jotka käyttävät englannin sanoja sitaattilainojen tapaan; ”mukauttajat”, jotka sovittavat englannin sanoja suomen äänne- ja kirjoitusjärjestelmään; ja ”sepittäjät”, jotka pyrkivät muodostamaan omaperäisiä vastineita, tosin usein käännöslainoja käyttäen. Tästä seuraa melkoista kirjavuutta. Lisäksi ammattilaiset yleisesti käyttävät keskinäisessä viestinnässään raakalainoja tai mukautettuja lainoja kuten mail tai meili mutta maallikoille puhuessaan tai kirjoittaessaan sepitteitä kuten sähköposti. Usein sepitteen lähtökohtana on englanninkielinen termi, joka pyritään jollain tapaa kääntämään tai jonka yleiskielinen merkitys jotenkin yritetään säilyttää. Silloin unohtuu, että datatekniikan termit ovat hyvin usein huonosti ja hutiloiden muodostettuja ja joskus pahastikin harhaanjohtavia. Ei newsgroup ole missään järkevässä mielessä uutisryhmä, joten käännöslaina ei ole järkevä; ja muulta pohjalta saadulla sepitteellä taas on huonot mahdollisuudet levitä yleiseen käyttöön. Järkevä vaihtoehto on siis kääntää group mutta ottaa news lainasanaksi jossain sopivasti suometetussa muodossa. Tässä törmäämme sitten kyökkisuomi-argumentaatioon: vieraan kielen äänneasun lähtökohdakseen ottavaa mukauttamista pidetään rahvaanomaisena ja ainakin kirjoitettuun kieleen sopimattomana.

Sanojen sepittelyn yksi ongelma on, että kun sanoja sepitellään eri tahoilla, syntyy kilpailevia ehdotuksia, joista yhdelläkään ei ole reaalisia edellytyksiä päästä kaikkien tuntemaksi ja tunnustamaksi. Joskus erilaisten nimitysten keksiminen samoille tai samanlaisille asioille on suorastaan tarkoituksellista. Esimerkiksi ohjelmien ja käsikirjojen suomenkielisissä versioissa on isoilla firmoilla omat termistönsä. Voidaan jopa puhua ”IBM-suomesta”, ”Microsoft-suomesta” jne. Microsoft-suomeksi ”domain” on ”toimialue”, mikä on varsin hämäävää; muutoin se on verkkoihin liittyvänäkin käsitteenä yleensä vain ”alue”.

Jos termistö on tarpeeksi kummallista ja yleisestä käytännöstä poikkeavaa, syntyy tilanteita, joissa vain asiantuntija voi ymmärtää, mitä jokin ”suomenkielinen” teksti tarkoittaa, koska hän tietää tai osaa päätellä, mitä vastaavassa englanninkielisessä tekstissä on! Pieni esimerkki: Internet Explorerin käyttöasetuksissa on kohta ”Sivun asetukset”, jossa voidaan säädellä paperitulostuksen ominaisuuksia, ja yksi alakohta on ”Lähdekoodi”. Tätä ei ihminen voi ymmärtää, ellei satu keksimään, että suomentaja on osannut kyllä käyttää erikoissanakirjaa mutta ei ole ymmärtänyt lainkaan, mistä asiassa on kysymys. Tässä kohdassa sana ”Source” on tarkoittanut sitä, mistä lähteestä paperi tulee, ei suinkaan lähdekielistä ohjelmaa! Tarjolla olevista vaihtoehdoista toinen sitten havainnollistaa jäljempänä kuvattavaa ”liian vähän tilaa” -ongelmaa: vaihtoehto on ”Automaattinen sivunsyöt”.

Kun tekniikka kehittyy nopeasti, monet sanat ja ilmaisut jäävät lyhytaikaisiksi. Tuntuu turhalta yrittää muodostaa hyviä suomenkielisiä vastineita teknisille asioille, jotka muutaman vuoden kuluttua korvautuvat jo toisilla. On luonnollista, että aluksi käytetään englannin sanaa tai sanaliittoa tai lyhennettä sellaisenaan (esim. World Wide Web, WWW), sitten se ehkä itse asian jäädessä pysyväksi pyritään kiteyttämään lyhyemmäksi, ehkä yhdeksi sanaksi, osittain englannissa tapahtuvaa kehitystä jäljitellen (Web), ja lopuksi ruvetaan miettimään, miten pitkälle se mukautetaan suomen kieleen ja onko kyseessä ehkä jo yleisnimi eikä erisnimi (Veb, Vep, Veppi, veppi) – ja pitäisikö ehkä harkita kokonaan muunlaista vaihtoehtoa (Seitti?). Tiivistymiseen ja mukauttamiseen ajaa se, että etenkin suomen kielessä ilmaisua pitää voida taivuttaa sujuvasti ja ennen kaikkea käyttää yhdyssanojen osana: veppipalvelin, veppiselain, veppisivusto.

Roskakoria tyhjennetään – kuka tyhjentää?

Vieraiden kielten sanaston vaikutusta tärkeämpi, joskin usein huomaamattomampi, on vaikutus kielen rakenteeseen. Sellaista vaikutusta ei pidä ehdottomasti torjua. Esimerkiksi vierasta alkuperää olevalla futuurisella rakenteella tulee olemaan on oma tärkeä tehtävänsä, jos kohta sitä usein käytetään turhaankin. Mutta kieliopillisten rakenteiden muuttuminen on aina iso asia, ja usein on niin, että uhkaava vieras vaikutus sotkee ja hämärtää kieltä.

Vanhan oikeakielisyystyön keskeisiä tavoitteita oli päästä eroon sellaisista vierasvoittoisista partisiippien käyttötavoista kuin hyvin puettu nainen, tähditetty taivas, liikutettu mieli. Ja hyvin siinä onnistuttiinkin. Mutta niin sanotut passiiviset muodot ovat hiipineet takaisin, tällä kertaa lähinnä finiittisinä. Saatetaan kirjoittaa, että kirjaimet muutetaan isoiksi, jos tietokone muuttaa käyttäjän näpyttelemät pienet kirjaimet vastaaviksi isoiksi kirjaimiksi; tällöinhän viitataan persoonallista tekijää edellyttävällä verbinmuodolla siihen osaan toiminnasta, jonka tekee tietokone (ohjelma) eikä persoonallinen olento, ihminen. Jo vuonna 1984 kiinnitin huomiota tällaiseen kirjoituksessani Passiivin käytöstä (Kielikello 3/1984), ja toimitus liitti siihen näkemystäni tukevan kannanottonsa: ”Passiivin virheelliseen käyttöön kielenhuolto suhtautuu jyrkän torjuvasti. Muotojen tyhjennetään ja tyhjentyy merkitysero on olennainen. Passiiviin liittyy henkilötekijä, siitä ei tingitä englannin kielen ylivallan edessä.”

Mutta datatekniikan tekstit vilisevät ilmaisuja, joissa ”roskakoria tyhjennetään” tai ”etsitään palvelinta”, vaikka toiminnan suorittaa tietokoneohjelma ilman ihmisen myötävaikutusta, usein jopa hänen tahtonsa vastaisesti. On ehkä aika miettiä uudestaan, olisiko sittenkin alistuttava. Monet tekstit ovat varsin hankalia suomentaa, ellei käytettävissä ole englannin kielen passiivia vastaavaa rakennetta, ja suomessahan ei vanhastaan sellaista ole. Jos kuitenkin päätämme, että kielemme vanha ilmaisuvoima ja rakenne on tältä osin säilyttämisen arvoinen, olisi kielenhuollon jatkuvasti kiinnitettävä asiaan huomiota. Ja meidän olisi myös hyväksyttävä sellainen hiukan oudoksuttava kielenkäyttö, jossa tietokoneohjelma ”puhuu” itsestään ensimmäisessä persoonassa: ”tyhjennän roskakoria”, ”etsin palvelinta”. Tosin voi kysyä, eikö teksti voisi olla esimerkiksi ”Windows tyhjentää roskakoria”. Mutta siihen ei aina ole mahdollisuuksia.

Palvelijat työssä

Yksi suomen ”passiiville”, oikeammin sanoen neljännelle persoonalle, ominainen piirre on siis se, että se ilmaisee tekijän persoonalliseksi. Toisella tapaa suomen kieli erottaa persoonalliset persoonattomista eräissä verbinjohdoksissa, joissa tekijännimet erotetaan tekimennimistä: kirjoittaja on ihminen, kirjoitin on laite. Tosin tällainen erottelu on suureksi osaksi tietoisen kielenohjailun tulosta, mutta viesti on mennyt aika hyvin perille. Jäähdyttäjästä on tullut jäähdytin.

Mutta datatekniikassa käytetään paljon englannin -er- tai -ator-loppuisia sanoja, joiden vastineeksi usein kuin itsestään tarjoutuu tekijännimijohdos. Ja kun sanoja otetaan käyttöön nopeaan tahtiin, tehdään usein helppoja ratkaisuja. Osasyynä on sekin, että tekimennimijohdokset taipuvat hiukan hankalammin eikä niitä voida muodostaa kaikista verbeistä.

Tekijännimet ja tekimennimet ovat uudestaan sekaantumassa toisiinsa. Pahimmillaan samassakin tekstissä puhutaan milloin palvelijoista, milloin palvelimista, ja vaihteen vuoksi myös servereistä. Ongelmia aiheuttaa sekin, että joskus englannissa on sana, joka voi tarkoittaa niin ihmistä kuin ohjelmaakin (tai laitetta). Esimerkiksi keskusteluryhmän moderator voi olla ihminen, joka päättää, mitkä viestit pääsevät levitykseen, tai ohjelma, joka tekee sellaisia ratkaisuja joiden ennalta asetettujen teknisten kriteerien mukaan. Tästä vielä selvitään: voidaan käyttää sanaa moderaattori, ja ehkäpä sanaa moderoija silloin, kun moderaattorina on ihminen. Mutta ongelmia syntyy jatkuvasti lisää, kun aiemmin ihmisten hoitamia tehtäviä automatisoidaan.

Liian vähän tilaa

Tietokoneohjelmien suomenkielisten versioiden kehittäjä on usein ihmeissään, kun ilmoitus-, avustus- ja muille teksteille on varattu tilaa kiinteä määrä merkkejä. Kyse voi olla vaikkapa valikosta, jonka vaihtoehdot saavat olla enintään 20-merkkisiä. Vaikka suomen kieli ei kokonaisuutena ottaen ole sen pidempää kuin englanti, niin monissa yksittäistapauksissa joudutaan vaikeuksiin, jos teksti pitää ahtaa kiinteään merkkimäärään. Kyse on yleensä lyhyistä teksteistä, joissa tuntuu paljonkin, jos jokin keskeinen termi on englanniksi kolmikirjaiminen ja suomeksi pitkä yhdyssana.

Mitään muuta yleistä ratkaisua asiaan ei ole kuin se, että ohjelmia alun perin tehtäessä pitäisi ottaa huomioon tällaiset asiat ja välttää kiinteiden rajojen asettamista. Kääntäjä, tai oikeammin sanottuna lokalisoija, voi ehkä saada ohjelmakoodia muutetuksi. Tavallisemmin hän joutuu vain survomaan tekstin annettuihin mittoihin – ja ottamaan vastaan kritiikin surkeasta käännöksestä, sillä eihän ohjelman käyttäjä tiedä ongelmien syitä.

Tämä on erikoistapaus kulttuuririippuvuuksien huomioon ottamisesta ohjelmia kehitettäessä. Kulttuuririippuvuuksiin kuuluu hyvin monenlaisia asioita, kuten aakkostus (esim. suomessa v ja w on vanhastaan aakkostettu samoin, englannissa ne ovat aivan eri kirjaimia), katuosoitteiden rakenne, suku- ja etunimen keskinäinen järjestys ja ylipäänsä monia seikkoja, joita ohjelmiston suunnittelija pitää itsestään selvinä, kunnes tiedostaa, että muualla asiat ovat toisin.

Vielä hankalampia riippuvuuksia syntyy, jos ohjelma tuottaa tekstejä rakentamalla niitä jonkin mallin mukaan. Englannissa sujuu aika hyvin se, että esimerkiksi mallista X hits Y ohjelma tuottaa lauseita sijoittamalla X:n ja Y:n paikalle erilaisia sanoja tai sanaliittoja. Mutta koska suomessa objektia on yleensä taivutettava, ei vastaava onnistukaan: mallin X osuu Y:hyn soveltaminen edellyttää, että Y:n paikalle tuleva sana on oikeassa taivutusmuodossa (illatiivissa). Sanojen taivuttaminen taas melko iso ongelma; teoriassa se toki hallitaan, mutta tarvittava datan ja ohjelmakoodin määrä voi moninkertaisesti ylittää sen, mikä on mielekästä tai edes mahdollista. Niinpä onkin jo ruvettu joskus muotoilemaan ilmaisut siten, että tällaisia ongelmia ei synny: suomennettaessa pyritään tuollaiset mallit kirjoittamaan niin, että sanoja ei tarvitse taivuttaa. Se voi johtaa kömpelyyksiin (X osuu esineeseen Y), mikä toisaalta kai on pienempi paha kuin täysin kielenvastaisten rakenteiden (nuoli osuu Jukka) tuottaminen jättämällä sanat raa’asti taivuttamatta.

Taipuu vaan ei taitu?

Taivutus on muutenkin melkoinen ongelma kaikessa tekstien automaattisessa käsittelyssä. Erityisesti vaikeuksia aiheuttaa se, että suomi ei, toisin kuin usein väitetään, ole kovinkaan puhtaasti agglutinatiivinen kieli. Usein kyllä taivutus on agglutinatiivista eli päätteet liittyvät sellaisinaan sanavartaloon, joka pysyy samana: talo-ssa-ni-kin. Mutta etenkin astevaihtelu ja sanan loppuvokaalin vaihtelu aiheuttavat muutoksia, joissa vartalo ja pääte ikään kuin sulautuvat toisiinsa: joen sisältää vartalon joki muunnelman joe- ja genetiivin päätteen -n, ja verbinmuodossa toin on sulautuminen mennyt vielä pidemmälle: vartaloa edustaa to-, joka muodostaa diftongin aikamuodon tunnuksen -i- kanssa.

Erityisesti World Wide Webin hyötykäytössä ovat hakujärjestelmät, ”hakukoneet” (search engines), saavuttaneet keskeisen ja korvaamattoman aseman. Laajimpien hakujärjestelmien kerrotaan indeksoineen toista miljardia dokumenttia, ja on arvioitu, hihasta ravistaen, että siinäkin on mukana ehkä vain sadasosa kaikesta, mitä Webissä on. Ja kun määrä kasvaa hurjaa vauhtia ja kun lisäksi hakujen pitäisi tapahtua muutamassa sekunnissa, ollaan melkoisten paineiden edessä. Erittäin monet hakujärjestelmät eivät lainkaan analysoi sanojen koostumusta; tarkemmin sanoen ne käsittelevät vain kirjainten muodostamia merkkijonoja sellaisinaan. Tämä merkitsee, että jos hakukäskyllä pyydetään etsimään sivuja, joilla on sana talo, ei sellainen sivu löydy, jolla tämä sana kyllä esiintyy mutta ei sattumalta missään tuossa perusmuodossaan. Joissakin hakujärjestelmissä rajoitus voidaan osittain kiertää sellaisilla hakulausekkeilla kuin talo*, joka tarkoittaa mitä hyvänsä talo-alkuista sanaa (siis myös talous yms.). Mutta tämä on aika kömpelöä; ja löytääksemme kaikki joki-sanan taivutusmuodot meidän pitäisi käyttää lauseketta jo*, jolloin haaviin jää jo aivan liikaa vääriäkin sanoja.

Tilanne olisi omiaan synnyttämään paineita taivutuksen yksinkertaistamiseen tai vähentämiseen, mutta kieli ei toki sentään taivu tällaisessa asiassa, jossa on kyse sen aivan perustavista rakenteista. Taivutus on kyllä jossain määrin muuttunut muun muassa siten, että ns. omistusliitteitä eivät monetkaan enää käytä luontevassa puheessaan ainakaan sellaisissa ilmaisuissa kuin kirjani vaan ne korvaantuvat analyyttisilla rakenteilla: mun kirja. Mutta tämä tuskin on erityisesti datatekniikan vaikutusta, ja tokkopa datatekniikka sellaisia muutoksia mainittavasti kiihdyttää.

Näkemiin, yhdys sanat!

Yhdyssanojen erikseen kirjoittaminen tuntuu leviävän sellaiseenkin kielenkäyttöön, joka muuten on melko huoliteltua. Syitä on varmaankin monia. Yksi syy on se, että etenkin pitkät yhdyssanat ovat vaikeita hahmottaa sekä kirjoitettaessa että luettaessa. Kielenhuollon joissakin asioissa harrastama yhteenkirjoittamisvimma pahentaa tilannetta; nykyiset normit vaativat kirjoittamaan harmaanorjanhirvikoira (koirarodun nimi, jonka Kennelliitto sentään kirjoittaa kahtena sanana) ja stvincentsaarenamatsoni (erään lintulajin ”virallinen” suomenkielinen nimi).

Yksi todellinen syy yhdys sana virheisiin on toki se, että normeja ei tunneta tai niistä ei välitetä, ja yhä useammat rupeavat kirjoittamaan esimerkiksi nettiin ja muuallekin ennen kuin ovat oppineet lukemaan kunnollista kirjakieltä. Suuri osa huolitellun kielenkäytön normeista opitaan todellisuudessa vain lukemalla enimmäkseen tekstejä, joissa niitä on noudatettu, ei sääntöjen ulkoa opettelulla. Mutta voidaan myös esittää useitakin teknisiä perusteluja sille, miksi nykyiset normit ovat huonoja.

Ensinnäkin yhdyssanat aiheuttavat melkoisia ongelmia hakutoiminnoissa, edellä kuvatuista syistä. Jos hakusanana on apatiitti, ei sellainen sivu löydy, jolla sana esiintyy vain yhdyssanassa hydroksiapatiitti. Ongelmiin on erilaisia osittaisia ratkaisuja, mutta kovinkaan realistisena ei voitane pitää, että Internetistä dokumentteja hakeva yleiskäyttöinen ohjelma osaisi analysoida esimerkiksi suomen kielen yhdyssanan komponentteihinsa.

Toiseksi yhdyssanat aiheuttavat tavutusongelmia. Suomen kielen tavutus voidaan muutoin hoitaa varsin hyvin erittäin yksinkertaisilla menetelmillä, paljon yksinkertaisemmin kuin englannin tavutus. Mutta yhdyssanojen oikea tavutus vaatisi olennaisesti isomman operaation. Edes kehittynyt tavutusohjelma ei selviäisi hydroksiapatiitista, ellei sen käytössä olevassa sanastossa satu olemaan tämän yhdyssanan komponentteja. Terho Itkonen kirjoitti Kielikellon numerossa 4/1992 otsikolla Voitaisiinko rumat rivijaot vihdoin kyseenalaistaa? vaatien, että lehtiin pitää palauttaa korjausluku. Mutta sillä tavoin asiaa ei enää voida ratkaista, vaadittiinpa mitä tahansa. Lisäksi nykyisin rivijaon yhä yleisemmin tekee ohjelma joka kerta uudestaan, esittäessään tekstin lukijalle, mukauttaen sen käytössä olevaan rivinpituuteen, fonttikokoon yms.

Kolmanneksi yhdyssanat pituutensa takia aiheuttavat ongelmia silloin, kun ohjelma esittää tekstin ilman mitään tavutusta, kuten usein tapahtuu. Esimerkiksi Web-selaimet menettelevät niin. Jos ne vielä latovat tekstin tasalevyiseksi, siis tasaten sekä vasemmalta että oikealta kuten yleensä kirjoissa, tulos voi olla aika karmaiseva, kun pitkät sanat aiheuttavat moneen paikkaan isoja sananvälejä.

Yhdyssanoista ei tietenkään ole järkevää yrittää luopua. Tai ainakin tarvittaisiin kielen melkoinen mullistus siinä yhteydessä. Jos yhdyssanat kirjoitettaisiin erikseen, häviäisi se ero, joka on sanaliitolla iso lokki ja sanalla (lajinnimellä) isolokki. Kieli tarvitsee sellaisen eron, tai ainakin jotain sen tilalle. Mutta yksin-kertainen ratkaisu olisi käyttää yhdys-merkkiä tai muuta erotin-merkkiä (esimerkiksi rivin·keskistä pistettä) kaikissa yhdys-sanoissa. Aluksi se oudoksuttaisi, ja hiukanhan se sanoja pidentäisi, mutta se helpottaisi merkittävästi edellä kuvattujen ongelmien ratkaisemista. Lisäksi se yksinkertaistaisi yhdyssanojen kirjoittamisen sääntöjä, koska nythän säännöt vaativat yhdysmerkin joihinkin yhdyssanoihin. Vähemmän radikaali muutos olisi sellainen, että sääntöjä muutettaisiin niin, että yhdysmerkkiä käytetään vokaalilla alkavan yhdysosan edessä, esimerkiksi kansan-edustaja, alku-ilta. Tämä ratkaisisi lähinnä tavutusongelman, mikä olisi saavutus sekin, ja lisäksi tällaiset sanat ovat nykyisin erityisen hankalia hahmottaa nopeasti. Muutos ei olisi kovin radikaali, koska yhdysmerkin käytön sääntöjä on muutenkin muuteltu – huonommistakin syistä.

Datatekniikka siis synnyttää myös vakavasti otettavia kysymyksiä kielen muuttamisesta. Asiaa ei pidä nähdä mustavalkoisesti niin, että kaikki datatekniikan vaikutusten huomioon ottaminen olisi alistumista tietokoneiden tai anglosaksisen kulttuurin edessä. Eri asia sitten on, että useimmissa asioissa on syytä mukauttaa datatekniikka kieleen eikä toisinpäin.

Kyllä vai ei?

Sellaiseen kysymykseen kuin ”Haluatko jatkaa?” on suomen kielessä vanhastaan vastattu ”Haluan” tai ”En”. Yleisesti sanottuna myöntävä vastaus toistaa kysymyssanan, tilanteen mukaan verbin persoonan muuttaen, kieltävä taas on kieltoverbi sopivassa muodossa. Tämä on toki huomattavasti mutkikkaampaa kuin ”Yes” tai ”No”, edellyttäähän se kysymyksen kunnollista kuuntelemista. Vieraiden esikuvien mukainen vastaaminen onkin yleistynyt. Sana ”kyllä”, joka alkujaan oli myöntävää vastausta vahvistava adverbi, on tullut myöntösanaksi ja sana ”ei” kieltosanaksi, jota ei taivuteta verbinä. Arkipuheessa sanan ”kyllä” tilalla on usein ”joo”.

Datatekniikka on omiaan voimistamaan siirtymistä äärimmäisen yksinkertaistettuihin vastaustyyppeihin. Onhan helpompaa, kun ohjelmaa tehtäessä voidaan lähteä siitä, että kaikkiin myöntävää tai kieltävää vastausta vaativiin kysymyksiin vastaus on kiinteästi jompikumpi kahdesta sanasta. Usein vielä tilannetta yksinkertaistetaan niin, että vastaus tai sen merkitsevä osa on yksikirjaiminen: englannissa ”y” tai ”n”, suomessa ”k” tai ”e”.

Vaikutus on varsin tehokas silloin, kun ohjelma rankaisee vastauksesta ”Haluan” ilmoittamalla ”Vastaa kyllä tai ei”. Voisiko olla toisin? Toki voisi. Kyllä ohjelma voitaisiin koodata hyväksymään sekä vanhanaikainen että vieraiden esikuvien mukainen vastaustyyli. Tarvittava lisätyö ohjelmoinnissa on itse asiassa melkoisen pieni.

Tietokone kielenkäyttäjänä

Datatekniikan suurimmat vaikutukset niin suomeen kuin muihinkin kieliin johtuvat siitä, että tietokoneet rupeavat kielen käyttäjiksi: lukijoiksi, kirjoittajiksi, kuulijoiksi, puhujiksi. Tämä on monimuotoinen ilmiö, jossa on alkeellisimmillaan kyse vain sanojen tunnistamisesta merkkijonoina, joilla on niille annettu merkitys, kuten ”kyllä” tai ”ei"”. Tavutus, oikeinkirjoituksen tarkistus ja jonkinlainen lauserakenteen analyysi ovat vaativampia operaatioita mutta nekin suuressa määrin jo arkipäivää.

Automaattisessa kielenkääntämisessä ollaan jo varsin pitkällä. Silloin, kun kyse on kieliopilliselta rakenteeltaan suhteellisen yksinkertaisesta, tiukan asiallisesta proosasta, tietokone jo päihittää ihmisen kääntäjänä – ei vain nopeudessa vaan myös virheettömyydessä. Käännösohjelma voidaan toki tehdä sellaiseksi, että se muun muassa aina tarkistaa, muodostavatko peräkkäiset sanat kokonaisuuden, jolla on erityinen merkitys. Näin vältettäisiin sellaiset virheet kuin ilmaisun ”gunnery sergeant” kääntäminen ”tykistön kersantiksi”. (Oikea käännös on lähinnä ”vääpeli”.)

Tässä on puhe aidosta kääntämisestä, ei alkeellisista sanoja toisilla korvaavista ohjelmista, joita mainoslauseissa ja nimissäkin väitetään käännösohjelmiksi. Automaattinen kielenkääntäminen sisältää tekstin jäsentämisen ja vastaavan tekstin tuottamisen (generoimisen) toisella kielellä. Näillä osilla on toki muutakin käyttöä: jäsentämiseen voidaan liittää se, että tietokone jossakin mielessä tekee sen, mitä teksti käskee, ja tuottaminen taas voidaan tehdä lähtien jostakin informaatiosta eikä valmiista tekstistä toisella kielellä. Toisin sanoen jos tietokone saadaan kääntämään, se voidaan saada myös kommunikoimaan luonnollisella kielellä. Toki tähän sitten tarvitaan muitakin tekniikoita kuin kääntämisen tekniikat.

Mutta koska tietokone rupeaa puhumaan suomea?

Tämä kehitys voimistaa merkittävästi englannin ja muutamien muiden suurten kielten asemaa. Ensinnäkin on selvää, että kyseisiä ohjelmistoja tehdään ennen muuta suurille kielille. Koska tekeminen on kallista, suomi voi joutua odottamaan vuoroaan pitkäänkin. Mutta lisäksi on epäsuoraa vaikutusta.

Usein väitetään suomea vaikeaksi kieleksi. Kielentutkijat tietävät kuitenkin hyvin, että kieliä ei voida asettaa mihinkään absoluuttiseen vaikeusjärjestykseen. Mutta kielenoppijalle on olennaista, miten paljon uusi kieli muistuttaa hänen ennestään tuntemiaan. Suomalainen oppii viroa helpommin kuin kiinaa, eikä tämä johdu pelkästään sanoista vaan myös rakenteesta. Vastaavasti tietokoneohjelma, joka on tehty kääntämään englannista italiaksi, on helpompi muuttaa tuottamaan espanjaa kuin suomea.

Myös kielenkäsittelyn teoreettisen perustan ja yleisten menetelmien kehittely suuntautuu sen mukaan, millaisia suuret kielet ovat rakenteeltaan. Englannin kielen jäsentämisessä on melko helppoa tunnistaa, mitkä sananosat ovat päätteitä. Suomen kielen käsittelyssä taas päätteet ovat erittäin olennaisia ja hankalia. Lisäksi pelkkä morfologinen analyysi tuottaa vain sellaisia tuloksia, että esimerkiksi ”paloin” on sanan ”palo” tai sanan ”palko” tai sanan ”pala” monikon instruktiivi tai verbin ”palaa” tietty muoto. Vasta ottamalla huomioon lauserakenne sekä lauseen muiden sanojen merkitykset voidaan yrittää päätellä, mikä jäsennysvaihtoehdoista on oikea. Tällaisista vaikeuksista seuraa sekin, että yksinkertaista viestintää tietokone on paljon helpompi ohjelmoida harjoittamaan englanniksi kuin suomeksi. Erot toki tasoittuvat siirryttäessä monimutkaisempaan viestintään.

Suomessa on automaattista kielenkäsittelyä tutkittu jo pitkään. Merkittävimpiä suuntauksia on kaksi, toinen Helsingin yliopistosta, toinen Teknillisestä korkeakoulusta lähtenyt. Tiettävästi ne ovat nykyisin jonkinlaisessa yhteistyössä. Toisaalta erityyppisiä lähestymistapojakin tarvitaan, koska tarpeita on monenlaisia. Yksinkertaisimpia sovelluksia on ehkä helpompi toteuttaa teknisemmällä, suoraviivaisemmalla otteella. Toisaalta mitä enemmän mukaan tarvitaan luonnollisen kielen moninaisuutta, sitä syvällisempi kielitieteellinen analyysi tarvitaan perustaksi.

Mitä tulee tapahtumaan, kun tietokoneohjelmia kehitettäessä suuntaudutaan tietokoneen ja ihmisen väliseen viestintään luonnollisella kielellä? Edellä kuvatut seikat ovat omiaan johtamaan siihen, että silloin pääpaino on englannilla ja muilla suurilla kielillä. Suomenkielisiä versioita saadaan odottaa usein turhaan tai kauan. Nykyisinkin ne tulevat yleensä myöhään, ja nykyisin sentään kyse on lähinnä vain valmiiden kiinteiden tekstien – valikoiden, virheilmoitusten, käyttöohjeiden ja muun sellaisen – suomentamisesta. Mitä pienempi firma ja mitä pienempi ohjelman oletettu kysyntä on, sitä todennäköisempää on, että suomenkielistä versiota ei oo, ei tuu eikä tilatakaan.

Tämä synnyttää kysymyksen, onko tässä painava tarve julkisen vallan asioihinpuuttumiselle, joko Euroopan unionin tasolla tai kansallisesti. Jospa Suomen valtio ostaisi oikeuksia sellaiseen yleiskäyttöiseen ohjelmistoon, jolla voidaan käsitellä suomen kieltä, ja panisi sen kaikkien vapaasti saataville. Tai jospa EU tekisi vastaavan alueellaan puhutuille kielille, myös ja erityisesti pienille kielille. Tämä tekisi tietokoneohjelmistojen tuottajille ratkaisevasti houkuttelevammaksi mahdollisuuden tehdä tuotteistaan erikielisiä versioita.

Ajatusta voi jatkaa pitemmällekin. Jos mukana olisi myös varsinaisia kielenkääntämisohjelmia, joka soveltuvat teknisten tekstien kääntämiseen, olisi myös erikielisten tavaraselosteiden, käsikirjojen yms. tuottaminen helppoa. Suomenkielisten käyttöohjeiden laatukin luultavasti paranisi, sillä nykyisin ne kovin usein on käännetty kelvottomasti. Ja monissa tapauksissa, ainakin ohjelmistoalalla, voisi riittää se, että käyttöohje toimitetaan vain yhdellä kielellä ja asiakas voi sitten kääntää sen omassa tietokoneessaan.

Tällainen julkisen vallan astuminen ohjelmistoalalle olisi iso asia ja vaatii tarkkaa harkintaa. Vääristäisikö se kilpailua? Koska ohjelmisto olisi vapaassa käytössä, muodollisesti tilanne olisi tasapuolinen sitä hyödyntävien yritysten kannalta. Käytännössä se suosisi pieniä yrityksiä, joilla muutoin olisi huonommat edellytykset tehdä ohjelmistaan monikielisiä. Kyseistä ohjelmistoa valmistavien yritysten kannalta asia olisi ongelmallisempi. Tietenkään normaalia kilpailua ei voisi olla oloissa, joissa valtio jakaa tuotetta ilmaiseksi. Kilpailua olisi siitä, mikä yritys pääsee tekemään valtion kanssa sopimuksen tuotteistaan. Tämä taas suosisi sellaisia yrityksiä, joilla on varaa sijoittaa tutkimukseen ja kehitykseen runsaasti varoja etukäteen ja ilman mitään varmuutta siitä, tuleeko tulopuolelle koskaan penniäkään. Mutta alalla lienee sen verran vähän vakavasti otettavia yrityksiä, että ehkäpä asiat voitaisiin aika pitkälti järjestää sille pohjalle, että valtio tekee sopimukset kaikkien kanssa ja maksaa korvaukset siten, että ne jotenkin riippuvat tuotteiden ja niiden tuen laadusta.

Automaattinen käsiteltävyys rajoittaa kieltä

Automaattinen kääntäminen ja muu käsittely toimivat sitä paremmin, mitä yksinkertaisempaa ja säännöllisempää kieli on. Tilanne on osittain toinen kuin ihmisen tekemässä kääntämisessä, jossa esimerkiksi idiomien runsaus ja harvinaiset sanat ovat hankalia, kun taas automaattisessa kääntämisessä kyse on lähinnä vain siitä, miten laaja sanakirja- ja muu aineisto ohjelmalla on käytössään. Sen sijaan mutkikkaat lauserakenteet, jotka tekevät virkkeiden jäsentämisen vaikeaksi, ovat automaattiselle kääntämiselle hyvin ongelmallisia. Sama koskee sellaista monitulkintaisuutta, jonka ihminen ratkaisee lauseiden merkityksen ja tosiasioita koskevan tietonsa perusteella. Ilmaisussa ”miesten ampuminen” voivat miehet olla joko ampujia tai ammuttavia. Toinen esimerkki on tilanne, jossa kokonaisen lauseen voi jäsentää kahdella aivan erilaisella tavalla: ”Suomessa ei ole uusia eläinsuojia koskevia säännöksiä lukuunottamatta erityisiä maatalouden vesiensuojelua tarkoittavia säännöksiä.” Mikään puhtaasti lauseopillinen analyysi ei riitä ratkaisemaan, liittyykö ”lukuunottamatta” sitä edeltävään vai sitä seuraavaan lauseenjäseneen.

Automaattinen kielenkäsittely toimii parhaiten silloin, kun käsiteltävä teksti noudattaa täsmällisesti määriteltyjä sääntöjä ja käyttää määrättyä sanavarastoa. Sääntöjen ja sanaston laajuus sitten ratkaisevat, miten ilmaisuvoimainen kieli on. Sellaisten tekstien tuottaminen ei ole ollenkaan niin vaikeaa kuin voisi luulla. Itse asiassahan monet tekstinkäsittelyohjelmat jo voivat toimia siihen suuntaan: ne voivat tekstiä kirjoitettaessa ilmoittaa sanoista ja jopa lauserakenteista, joita ne eivät tunnista. Sen sijaan, että ajattelisimme tätä korjauslukuna, se voidaan nähdä tapana ohjata kirjoittaja käyttämään sellaista kieltä, joka on automaattisesti käsiteltävissä – ainakin sellaisilla ohjelmilla, jotka hallitsevat samat kielen piirteet kuin se ohjelma, jolla teksti on kirjoitettu.

Automaattinen käsiteltävyys tulee muodostumaan paljon tärkeämmäksi, kuin useimmat osaavat kuvitellakaan. Ne tekstit, jotka ovat automaattisesti käännettävissä, saavat paljon suuremman potentiaalisen lukijakunnan kuin muut. Ihmiset, joilla ei ole mitään yhteistä kieltä, voivat viestiä niin, että kumpikin käyttää äidinkieltään ja ohjelma kääntää sen toisen kielelle. Mutta käännettävyyden lisäksi on kyse myös tekstien automaattisesta analysoinnista esimerkiksi indeksointia ja hakuja varten, laadukkaasta tekstin muuttamisesta puheeksi jne. Puheentunnistus tosin on vielä aika vaikeaa, mutta moni muu kielenkäsittely on jo käytännössäkin aika hyvin toimivaa tekniikkaa.

Jos esimerkiksi lakiteksteissä käytettävä kieli suunniteltaisiin edellä luonnehditulla tavalla, vältettäisiin myös monia ongelmia tekstien vanhanaikaisessakin käytössä. Jos virke on tietokoneohjelmalle monitulkintainen, se on usein vaikea ihmisenkin tulkita, ja pahimmillaan tekstillä voi todella olla useita merkityksiä. Sen sijaan, että viranomaisille annetaan suosituksia asiakirjojen kielellisestä ymmärrettävyydestä, voitaisiin asettaa täsmällisiä vaatimuksia siitä, minkä määrittelyn mukaista kieltä on missäkin yhteydessä käytettävä.

Mutta samalla kieli köyhtyy. Voidaan jopa sanoa, että käännettävyyden vaatimus merkitsee sitä, että kielen ”ominta omaa” ei käytetä: vältetään sellaisia ilmaisuja, joita ei voi sanoa toisessa kielessä ainakaan kovin nasevasti ja täsmällisesti. Tämä saattaa muun muassa suomen lauseenvastikkeet vaaravyöhykkeeseen. Ylipäänsä kielen käyttäjä joutuisi valitsemaan ilmaisukeinonsa hyvin määritellystä, rajallisesta valikoimasta. Ääritapauksissa, esimerkiksi käyttöjärjestelmän komentokieltä vastaavassa kielimuodossa, sallittuja lauserakenteita olisi vain muutamia ja nekin hyvin yksinkertaisia (esimerkiksi imperatiivimuotoinen verbi + objekti).

Suuri kysymys on, voisiko ihmisten käyttämä kieli jakautua selvästi eritasoisiin kielimuotoihin. Puhelimelle puhuttaisiin hyvin yksinkertaista kieltä, puhelimessa (toiselle ihmiselle) sellaista kuin ennenkin, paitsi jos toisen osapuolen tiedetään käyttävän automaattista käännösohjelmaa. Missä määrin yksinkertaisten muotojen vaikutus ulottuisi sinnekin, missä voitaisiin käyttää rikkaampaa kieltä? Ruvettaisiinko ”tietokoneselkokieltä” käyttämään teknisten ohjeiden ja virallisten asiakirjojen lisäksi myös sanomalehdissä, novelleissa ja runoissakin? Ei ehkä ihmisten tietoisten päätösten takia, vaan siksi, että ihmisen useimmin käyttämän kielimuodon piirteet pyrkivät säteilemään muihinkin muotoihin – kuten puhekielisyyksiä pulpahtaa huoliteltuunkin esitykseen. Ja kun datatekniikka yleistyy kodeissa, saattaa monikin huomata puhuvansa enemmän jääkaapilleen kuin muille ihmisille.

Vai paraneeko kieli?

Toisaalta automaattinen käsiteltävyys voi parantaa kieltä myös perinnäisen kielenhuollon mittapuiden mukaan. Kun hiljattain hankin matkapuhelimen, hämmästyin sen toimintojen monipuolisuutta – etenkin siksi, että oletin sen olevan lähes yksinkertaisin markkinoilla nykyisin oleva malli. Siinä on muun muassa ”ennakoiva syöttö” tekstiviestiä kirjoitettaessa. Näppärä keksintö, jolla vähennetään näppäimistön pienuudesta johtuvia ongelmia. Kun yksi näppäin voi vastata esimerkiksi kolmea eri merkkiä, niin ”ennakoivassa syötössä” puhelimen ohjelmisto tunnistaa, että esimerkiksi näppäily 34 (3 = d, e tai f; 4 = g, h tai i) ei voi vastata muuta suomen kielen sanaa kuin ”ei” ja näyttää sen. Tästä toisaalta seuraa, että jos yrittää kirjoittaa sanan, jota ohjelmisto ei tunne, esimerkiksi slangisanan, menetelmä ei toimi vaan täytyy kirjoittaa toisella, hankalammalla tavalla. Jos hyvän yleiskielen kirjoittaminen on olennaisesti helpompaa kuin puhekielenomaisuus, se voi tehota nuorisoon paljon paremmin kuin mitkään opettajien neuvot! Eri juttu sitten on, että ohjelmisto voidaan tietysti tehdä tunnistamaan sanoja siten kuin halutaan, ja arkikieltä osaavalle vaihtoehdolle voisi olla kysyntää.

Kieltä voi myös parantaa se, että ihmiset kirjoittavat välineillä, jotka tarkistavat kieliasun eri tavoin, ehkäpä automaattisesti korjaavat kirjoitus- ja kielivirheitä. Jo nyt on saatavilla varsin kehittyneitä kielenhuollon ohjelmia myös suomen kielelle.

Kielenhuolto nettiaikaan

Kielenhuolto on usein nähty pyrkimyksenä tietoiseen kielenohjailuun, jossa kansaa ohjataan sivistyneeseen, puhtaaseen kieleen. Tosin kielenhuollossa toimivat ihmiset eivät nykyisin useinkaan näe asiaa sillä tavalla; kannanotot ovat aiempaa vähemmän normatiivisia, tai normit ainakin esitetään pehmeämmin kuin ennen.

Kielenhuolto voidaan nähdä myös samanlaisena ”huoltona” kuin vaatehuolto, energiahuolto, jätehuolto ja vastaavat, siis resurssien ja palvelujen tarjoamisena. Siinä ei parsita vaatteita, toimiteta sähköä eikä kuskata roskia pois vaan annetaan tietoa. Kantaa ottavat suositukset ovat vain pieni osa sellaisesta huollosta. Ihmiset haluavat myös tietää, miten sanoja yleisesti käytetään esimerkiksi löytääkseen ilmaisun, joka parhaiten sopii johonkin tarkoituksiin.

Sellaisen kielenhuollon toimintamuodoksi Internet sopisi kuin nyrkki silmään. Jos vuosikymmenten saatossa koottu tieto ja suositukset suomen kielestä koottaisiin yhteen palvelimeen, se olisi aivan toisella tavalla saavutettavissa kuin nyt. Itse asiassa on vaikeampaa kuvitella parempaa käyttöä kielenhuollon resursseille kuin se, että sanakirja-aineisto ja kielenhuollon suositukset pannaan World Wide Webiin jollain yksinkertaisella tavalla järjestettyinä, aloittaen sellaisesta, joka jo on tietokoneella luettavassa muodossa ja hyvin monille tarpeen, kuten Perussanakirjasta – tai jostakin sellaisesta sanakirja-aineistosta, johon valtiolla on tai johon se pystyy hankkimaan oikeudet. Tai ehkäpä kannattaisi aloittaa sivistyssanakirjasta; sellaista on moni toivonut nettiin.

Mutta valitettavasti tälläkin alalla on onnistuttu yhdistämään julkisen laitoksen ja yksityisen yritystoiminnan haitat. Kun Kielikello-lehden aineisto siirrettiin Webiin, sen käytöstä tehtiin maksullista; vielä muutama vuosi sitten lehdessä oli maininta, joka salli sen aineiston vapaan käytön. Eikä missään ei ole sellaista koostetta, josta voisi helposti katsoa, mikä on vaikkapa jotakin sanaa koskeva kielenhuollon suositus. Jos kielenkäyttäjä voisi vain mennä Web-sivulle, kirjoittaa pulmallisen sanan ja saada saman tien tiedon sen suositeltavuudesta, taivutuksesta yms., kielenhuollon palvelujen taso olisi aivan toinen kuin nykyisin. Ja jos tiedot päivitettäisiin heti, kun jostakin asiasta on päätetty uusi suositus, tieto leviäisi ihan toisella tavalla kuin nykyisin.

Kielenhuollon merkitys tulee voimakkaasti kasvamaan, kun kielenkäyttö muuttuu yhä enemmän tietokoneavusteiseksi. Kielenkäsittelyohjelmien tekemiseen ja säätämiseen eri käyttötarpeita varten tarvitaan hyvin paljon tietoa kielestä, ja tiedon pitäisi mieluiten olla myös sellaisessa formalisoidussa muodossa, että sitä voidaan suoraan käyttää kyseisiin tarkoituksiin. Tämäkin ”humanistinen” ala on väistämättömän teknistymisen edessä, ja teknistyminen tunkeutuu syvälle – siinä ei suinkaan ole kyse vain siitä, että tehdään samaa kuin ennenkin mutta käytetään kirjoituskoneena tietokonetta.