Matti Pääkkönen

A:sta o:hön

Suomen yleiskielen kirjaintilastoja

Kielikello 1/1991 s. 3

Mitkä ovat suomen kielen tavallisimmat kirjaimet? Tähän tietokilpailujen tyypilliseen kysymykseen ei saa oikeaa vastausta katsomalla tietosanakirjan paksuimman osan selkää tai puhelinluettelon suurinta nimiryhmää. Sanojen loput muuttavat tilannetta. Oulun yliopiston suomen ja saamen kielen laitokseen on koottu laaja aineisto nykysuomen yleiskieltä. Sen pohjalta on apulaisprofessori Matti Pääkkönen julkaissut äskettäin kirjan ”Grafeemit ja konteksti. Tilastotietoja suomen yleiskielen kirjaimistosta”. Seuraavassa artikkelissa hän esittelee suomen yleiskielen kirjaintilastoja ja esiintymistiheyden vaihtelun syitä.

Tutkimusaineistosta

Suomen yleiskielen foneemistossa on kolmetoista [alkuperäisessä artikkelissa: kahdeksantoista, mikä lienee ajatusvirhe; konvertoijan huomautus] konsonanttia (d, h, j, k, l, m, n, äng-äänne, p, r, s, t, v) ja kahdeksan vokaalia (a, e, i, o, u, y, ä, ö). Näistä vain äng-äänteellä ei ole omaa kirjainmerkkiä eli grafeemia; se merkitään k:n edessä grafeemilla n ja sen geminaatta eli kaksoiskonsonantti grafeemiparilla ng. Yleiskielemme oikeinkirjoitus on siis poikkeuksellisen foneeminen vaikkapa ruotsin tai englannin kieleen verrattuna; suomessa puheen foneemit ja kirjoituksen grafeemit vastaavat lähes ihanteellisella tavalla toisiaan.

Olen tutkinut suomen yleiskielen kirjainmerkkien esiintymistaajuksia ja niiden vaihteluita erilaisissa teksteissä sekä yrittänyt selvittää näiden taajuusvaihteluiden syitä. Materiaalinani on kaksi melko suurta tietokonepohjaista otosta. Pääkorpuksena, kielenaineskokoelmana, on Oulun yliopiston suomen ja saamen kielen laitokseen vuosina 1968 - 1970 kerätty otos nykysuomen yleiskielestä. Aineiston perusjoukkona ovat 1) vuonna 1967 ilmestyneet suomenkieliset sanoma- ja aikakauslehdet, 2) vuosina 1961 - 1967 ilmestynyt alkuperäinen suomenkielinen tieto- ja kaunokirjallisuus, 3) Yleisradion radio-ohjelmat 29.9.1968 - 26.5.1969 sekä 4) 15 tuntia vuonna 1968 nauhoitettua ja litteroitua vapaata yleispuhekieltä. Käännöskieltä ei perusjoukossa ole. Tämä alkuteksti on luokiteltu 58 hypoteettiseksi alaluokaksi, joista kustakin on umpimähkäisotannalla valittu sata 5 virkkeen ja vähintään 60 saneen katkelmaa; jokaista alaluokkaa edustaa materiaalissa siis 500 virkettä ja vähintään 6 000 sanetta. Teksteistä on poistettu erikoismerkit ja -merkkiryhmät (esim. matemaattiset lausekkeet tms.), minkä jälkeen laskuihin on jäänyt 421 794 sanetta. Niiden keskipituus on 7,42 kirjainmerkkiä. Laskettavaksi koostuu tästä joukosta 3 130 382 grafeemia.

Toisena korpuksena tutkimuksissani on Esko Vierikon vuosina 1968 - 1969 koostama otos suomenkielisten kansanedustajien haastatteluista ja heidän eduskunnassa pitämistään virallisista puheista. Näistä muodostuu kaksi viimeistä alaluokkaa, joissa on yhteensä 112 606 sanetta (keskipituus 7,15 grafeemia) ja 804 771 kirjainmerkkiä.

Ynnättynä näistä kahdesta joukosta koostuu 534 400 sanetta eli tekstisanaa, joissa on 3 935 135 grafeemia; saneiden keskipituus on 7,36 grafeemia. Kirjakieltä on tästä määrästä vajaat kaksi kolmannesta (61,90 % saneista, 63,31 % grafeemeista): 330 799 sanetta, joissa on 2 491 208 grafeemia. Litteroitua yleispuhekieltä on siten kokonaismäärästä runsas kolmannes (38,10 % saneista, 36,69 % grafeemeista): 203 601 sanetta, joissa on 1 443 945 grafeemia; puhekielen saneiden keskipituus on vain 7,09 grafeemia. - Grafeemit x ja z olen joutunut jättämään laskujeni ulkopuolelle, koska niitä on käytetty ainesta kerättäessä matemaattisten lausekkeiden, numerosarjojen, kemian kaavojen tms. sekä vielä puhekielen tunnistamattomien sanojen paikalla. Koska kirjaimistossamme ei ole merkkiä äng-äänteelle, sisältää g-grafeemin frekvenssi sekä g:n että äng-äänteen. Oletettavasti g on useimmiten äng-äänteen merkkinä. Samoin grafeemi n on äng-äänteen merkkinä, esimerkiksi (lanka :) langan -tapauksessa. Puhekielen kirjainnokset ovat enimmältään kirjakielen oikeinkirjoitusjärjestelmän mukaisia.

Kirjainmerkkien esiintymistaajuudet

Seuraavassa taulukossa ovat aineistoni grafeemit esiintymistaajuutensa mukaisesti alenevassa järjestyksessä.
TAULUKKO 1. Grafeemien frekvenssi koko materiaalissa (n1),
litteroidussa puhekielessä (n2) ja kirjakielessä (n3).

         n1                n2                n3
         f        %        f        %        f        %
1.  a  457 350  11,62  a  160 812  11,14  a  296 538  11,90
2.  i  421 366  10,71  i  156 359  10,83  i  265 007  10,64
3.  t  388 711   9,88  t  145 442  10,07  t  243 269   9,77
4.  n  341 181   8,67  n  125 270   8,68  n  215 911   8,67
5.  e  323 087   8,21  e  118 642   8,22  e  204 445   8,21
6.  s  309 350   7,86  s  113 675   7,87  s  195 675   7,85
7.  l  226 627   5,76  l   85 074   5,89  l  141 553   5,68
8.  o  208 923   5,31  o   78 378   5,43  k  132 990   5,34
9.  k  207 520   5,27  ä   74 880   5,19  o  130 545   5,24
10. u  196 678   5,00  k   74 530   5,16  u  126 164   5,06
11. ä  189 134   4,81  u   70 514   4,88  ä  114 254   4,59
12. m  137 972   3,51  m   55 700   3,86  m   82 272   3,30
13. v   96 316   2,45  v   33 536   2,32  v   62 780   2,52
14. r   85 116   2,16  j   28 370   1,96  r   57 822   2,32
15. j   75 961   1,93  r   27 294   1,89  j   47 591   1,91
16. h   71 733   1,82  y   26 648   1,85  h   45 503   1,83
17. y   71 316   1,81  h   26 230   1,82  y   44 668   1,79
18. p   65 358   1,66  p   22 076   1,53  p   43 282   1,74
19. d   33 148   0,84  d   12 078   0,84  d   21 070   0,85
20. ö   18 655   0,47  ö    6 467   0,45  ö   12 188   0,49
21. g    4 151   0,11  g    1 005   0,07  g    3 146   0,13
22. b    2 068   0,05  b      475   0,03  b    1 593   0,06
23. f    1 934   0,05  f      395   0,03  f    1 539   0,06
24. c    1 091   0,03  c       52   0,00  c    1 041   0,04
25. w      329   0,01  w       22   0,00  w      307   0,01
26. å       52   0,00  å       20   0,00  å       30   0,00
27. q       26   0,00  q        1   0,00  q       25   0,00
                                                           
     3 935 153   100    1 443 945   100    2 491 208   100
     =========          =========          =========
Kuten taulukosta näkyy, kirjakielen ja puhekielen kirjainnosten sekä koko materiaalin grafeemien esiintymisprosenteissa on melko suuriakin eroja. Kirjakielessä on esimerkiksi a:ta, u:ta ja ö:tä erittäin merkitsevästi enemmän kuin puhekielessä. Kaikkiaan näissä suurissa ryhmissä on peräti 20 grafeemin esiintymistaajuuksissa erittäin merkitseviä eroja (0,1 %:n riskillä).

Vokaalien merkkejä on koko aineistossani (n1) 1 886 561 (47,94 %), konsonanttien taas 2 048 592 (52,06 %). Vokaalien suhde konsonantteihin on 100 : 108,59. Joissakin vanhemmissa tilastoissa esitetyt luvut, joiden mukaan suomen kielessä olisi vokaaleja enemmän kuin konsonantteja, eivät tämän tilaston mukaan siis pidä paikkaansa. Mainittakoon, että Vilho Setälä päätyy Uuden testamentin kieleen perustuvissa laskelmissaan vastaaviin suhdelukuihin 100 : 109,49. - Aineistoni vokaalien keskinäinen yleisyysjärjestys on seuraava.

         TAULUKKO 2. Vokaalien frekvenssi koko materiaalissa (n1).

                  f        % kaikista        % vokaaleista
    
         a    457 350      11,62             24,24
         i    421 366      10,71             22,34
         e    323 087       8,21             17,13
         o    208 923       5,31             11,07
         u    196 678       5,00             10,43
         ä    189 134       4,81             10,03
         y     71 316       1,81              3,78
         ö     18 655       0,47              0,99
         å         52       0,00              0,00
                                                                 
    
            1 886 561      47,94            100,00
            =========
Viiden etuvokaalin (i, e, ä, y, ö) esiintymien summa 1 023 558 on vähän yli puolet (54,26 %) kaikkien vokaalien summasta. Takavokaaleja (a, o, å, u) on 863 003 (45,74 % vokaaleista). 100:aa takavokaalia kohti on siten juoksevassa tekstissä 118,60 etuvokaalia. Suomen kielessä sekä etu- että takavokaalisissa sanoissa esiintyvät e ja i ovat varsin suurtaajuisia: niitä on yhteensä 744 453 eli 39,46 % vokaaleista (18,92 % kaikista grafeemeista).

Konsonanttigrafeemeja on aineistossani 2 048 592 (52,06 %). Ne on taulukoitu alenevaan yleisyysjärjestykseen seuraavassa.

         TAULUKKO 3. Konsonanttien frekvenssi koko materiaalissa (n1).

         f                 % kaikista        % konsonanteista

t        388 711            9,88             18,97
n        341 181            8,67             16,65
s        309 350            7,86             15,10
l        226 627            5,76             11,06
k        207 520            5,27             10,13
m        137 972            3,51              6,73
v         96 316            2,45              4,70
r         85 116            2,16              4,15
j         75 961            1,93              3,71
h         71 733            1,82              3,50
p         65 358            1,66              3,19
d         33 148            0,84              1,62
g          4 151            0,11              0,20
b          2 068            0,05              0,10
f          1 934            0,05              0,09
c          1 091            0,03              0,05
w            329            0,01              0,02
q             26            0,00              0,00
                                                                
       2 048 592           52,06            100,00
       =========
Konsonanttigrafeemeista muodostavat ylivoimaisesti suurimman ryhmän dentaalit (t, d, s, r, l, n): niiden esiintymiä on yhteensä 1 384 133, peräti 67,57 % kaikista konsonanteista. Labiileja (p, b, m, f, v) on 303 648 (14,82 %) ja palatovelaareja (k, g, j) lähes saman verran (287 632 eli 14,04 % kaikista konsonanteista). Soinnittomia klusiileja (k, t, p) on yhteensä lähes kolmannes kaikista konsonanteista (661 589 eli 32,29 %); niiden keskinäisissä yleisyyssuhteissa on huomattavan suuret erot.

Oletuksia erojen aiheuttajista

Tutkimani suuren aineiston ja esimerkiksi Vilho Setälän tutkiman Uuden testamentin suomennoksen graafeemien esiintymistaajuuksissa on varsin huomattavia eroja. Samoin on tilastollisesti erittäin merkitseviä eroja omassa materiaalissani vaikkapa kirjakielen ja puhekielen sekä lehtikielen, kaunokirjallisuuden kielen ja tietokirjallisuuden kielen grafeemistoissa.

On arveltu, että äänteiden esiintymistaajuus olisi universaalisti, kaikissa kielissä vallitsevana ilmiönä, kytköksissä niiden ääntämisen helppouteen siten, että yksinkertaisimmin ja helpoimmin äännettävät olisivat yleisimpiä. Oma materiaalini ei tue tätä käsitystä. Miksi soinnittomista klusiileista yleisjärjestyksessä 3. tilalla oleva t (9,88 % kaikista grafeemeista) olisi helpompi ääntää kuin 9. sijalla oleva k (5,27 %) tai peräti 18. sijalla oleva p (1,66 % kaikista)? Tai miksi 4. sijalla oleva dentaalinasaali n (8,67 %) olisi helpommin tuotettava kuin 12. sijalla oleva labiaalinasaali m (3,51 %); lapsenkielen tutkijathan ovat jossakin yhteydessä esittäneet, että lapsi oppii helpoimmin tuottamaan labiaaleja huulten toimintojen ensisijaisen kehittymisen takia.

Toisen oletuksen mukaan sellaiset kielessä taajaan esiintyvät lyhyet sanamuodot kuin esimerkiksi ja, siis, myös määräisivät grafeemien (suomen kielessä siis samalla foneemien) esiintymistaajuuden. Tämän tarkistamiseksi laskin grafeemit sellaisista sananmuodoista, jotka esiintyvät vähintään sata kertaa kussakin kolmessa kirjakielen materiaalini pääluokassa, nimittäin lehtikielessä, kaunokirjallisuuden kielessä ja tietokirjallisuuden kielessä. Tällaiseen otokseen ei edes keskipituisia sananmuotoja sovi mukaan kuin muutama. Lehtikielen aineiston kaikkien sananmuotojen keskipituus on 7,58, kaunokirjallisuuden kielen vain 6,39 ja tietokirjallisuuden kielen 7,80 grafeemia. Kuitenkin lehtikielessä yli 100 kertaa esiintyviä seitsengrafeemisia sananmuotoja on vain kaksi, jälkeen ja voidaan, kaunokirjallisuuden kielessä ei yhtään ja tietokirjallisuuden kielessä taajuusjärjestyksessä seuraavat 15: voidaan, jälkeen, lisäksi, yleensä, jolloin, tällöin, samalla, silloin, pykälän, jumalan, enemmän, valtion, päivänä, saadaan, tavalla. Otokseen kertyi vähän yli 20 % perusjoukon sananmuodoista, mutta vain noin 10 % saman perusjoukon grafeemeista, ja tällä tavalla laskettujen grafeemien keskinäinen järjestys ja prosenttiosuus poikkeaa monella tavalla perusjoukon grafeemien systeemeistä. Suurtaajuisimpien sananmuotojen grafeemisto ei ilmeisesti voi aiheuttaa eri tyyliluokissa esiintyviä grafeemien taajuusvaihteluita.

Miksi a, i, t, n, e, s, l?

Saneenloppuisten johtimien ja päätteiden osuuteen suomen murteiden kirjainnosten äännemerkkien taajuusvaihtelussa kiinnittivät ensiksi huomiota Anneli Pajunen ja Ulla Palomäki Lauseopin arkiston tekstejä tutkiessaan. Oletettavasti tällaiset morfemaattiset (taivutusopillisia aineksia sisältävät) tekijät vaikuttavat grafeemien esiintymistaajuuksiin ja niiden vaihteluihin myös kirjasuomessa. Tämän selvittämiseksi olen laskenut aineistostani lehtikielen (LEH, 106 170 sanetta, joissa 804 842 grafeemia), kaunokirjallisuuden kielen (KAU, 46 934 sanetta, 300 093 grafeemia) ja tietokirjallisuuden kielen (TIE, 177 695 sanetta, 1 386 273 grafeemia) pääluokista saneen lopusta lukien neljässä viimeisessä positiossa esiintyvät grafeemit. Seuraavassa taulukossa esitän yleisimpien grafeemien (a + ä =) A, i, t, n, e, s ja l esiintymistaajuudet näissä asemissa pääluokittain. Luvut ovat prosentteja kunkin pääluokan saman grafeemin kaikista esiintymistä. Sarakkeessa (-1) on saneenloppuinen grafeemi, sarakkeessa (-2) toiseksi viimeinen, (-3) kolmanneksi viimeinen ja (-4) neljäs lopusta lukien.
         TAULUKKO 4. Lehtikielen, kaunokirjallisuuden kielen ja
         tietokirjallisuuden kielen saneiden neljässä
         viimeisessä positiossa saneen lopusta lukien esiintyvät
         grafeemit yleisyysjärjestyksessä verrattuna pääluokan
         saman grafeemin esiintymien kokonaismäärään.

(-1)    %         (-2)   %          (-3)   %          (-4)   %
LEH
1. n  50,98       e   23,33         s   25,54         i 20,12
2. A  29,48       t   17,80         l   19,52         e 16,37
3. i  12,18       l   16,39         t   13,77         A 10,51
4. t   9,46       s   14,89         n   11,04         t  9,84
5. e   8,56       A   13,30         i    8,86         s  8,09
6. s   4,60       i   12,80         e    7,82         l  7,98
7. l   0,22       n    5,03         A    7,23         n  6,70
KAU
1. n  49,50       e   24,77         s   24,37         i 20,84
2. A  31,36       l   21,76         l   23,17         e 17,83
3. i  21,72       t   19,82         t   16,33         A 11,55
4. t  14,25       s   19,24         n   14,56         t 11,06
5. e  12,66       A   15,82         i   11,25         l 10,63
6. s   5,78       i   14,40         e    9,55         s  9,63
7. l   0,28       n    7,91         A    8,44         n  7,23
TIE
1. n  52,82       e   24,27         s   25,55         i 19,60
2. A  29,09       t   16,99         l   18,11         e 16,42
3. i  11,03       l   15,45         t   13,72         t  9,87
4. t   8,34       s   13,74         n    9,26         A  9,10
5. e   6,31       A   12,67         i    8,44         s  8,68
6. s   4,61       i   12,43         e    8,03         l  7,35
7. l   0,29       n    4,59         A    7,23         n  5,88
Taulukko osoittaa siis, että kussakin pääluokassa grafeemin n kaikista esiintymistä noin puolet on saneen lopussa, A:sta samassa paikassa on noin 30 % ja i:stä luokissa LEH ja TIE noin 12 ja 11 %, mutta kaunokirjallisuuden luokassa peräti kaksinkertainen määrä eli yli 21 % luokan i koko määrästä. e:n kokonaismäärästä on huomattava osa (23,33 - 24,77 %) saneissa toiseksi viimeisenä, s:stä vastaavasti noin 25 % kolmanneksi viimeisenä ja vihdoin i:n esiintymistä noin 20 % saneissa neljänneksi viimeisenä.

Seuraavassa taulukossa esitän pääluokittain, kuinka monessa prosentissa pääluokan saneista seitsemän suurtaajuisinta grafeemia esiintyy neljässä viimeisessä positiossa. Luvut osoittavat siis prosentteja pääluokan saneiden määrästä. Samalla tavalla kuin edellisessäkin taulukossa on sarakkeessa (-1) saneenloppuinen grafeemi, sarakkeessa (-2) toiseksi viimeinen, (-3) kolmanneksi viimeinen ja (-4) neljäs lopusta lukien.

         TAULUKKO 5. Lehtikielen, kaunokirjallisuuden kielen ja
         tietokirjallisuuden kielen saneiden neljässä
         viimeisessä positiossa saneen lopusta lukien esiintyvät
         grafeemit yleisyysjärjestyksessä verrattuna pääluokan
         saneiden kokonaismäärään.

(-1)    %         (-2)   %          (-3)   %          (-4)   %
LEH
1. A  36,87       A   16,63         s   14,84         i 16,23
2. n  33,69       e   14,49         t   10,01         A 13,14
3. i   9,81       t   12,94         A    9,04         e 10,16
4. t   6,87       i   10,32         l    8,61         t  7,15
5. e   5,31       s    8,65         n    7,29         s  4,70
6. s   2,67       l    7,23         i    7,13         n  4,42
7. l   0,09       n    3,32         e    4,85         l  3,53
KAU
1. A  34,71       A   17,51         s   10,85         i 15,05
2. n  28,77       e   12,33         t    9,75         A 12,78
3. i  15,69       t   11,83         A    9,34         e  8,88
4. t   8,51       i   10,40         l    8,67         t  6,60
5. e   6,30       s    8,56         n    8,46         s  4,29
6. s   2,57       l    8,15         i    8,12         n  4,20
7. l   0,10       n    4,60         e    4,75         l  3,98
TIE
1. A  37,00       A   16,11         s   16,26         i 16,05
2. n  35,22       e   15,73         t   10,66         A 11,58
3. i   9,03       t   13,20         A    9,20         e 10,64
4. t   6,48       i   10,18         l    7,86         t  7,67
5. e   4,09       s    8,74         i    6,91         s  5,52
6. s   2,93       l    6,70         n    6,17         n  3,92
7. l   0,13       n    3,06         e    5,21         l  3,19
Taulukon osoittaman mukaisesti on siis A-loppuisia sananmuotoja kaikissa pääluokissa selvästi eniten (34,71 - 37,00 %). n-loppuisten saneiden määrä on lähes yhtä suuri (28,77 - 35,22 %), mutta i-loppuisten määrä on jo alle 10 % luokissa LEH ja TIE, kun taas luokassa KAU huomiota herättävästi peräti 15,69 %. Kaikissa pääluokissa on yleisin saneen loppu i s A A.

4. ja 5. taulukkoa tulkittaessa on otettava huomioon se, että positio (-1) on todella aina saneen viimeinen. Sen sijaan positioissa (-2), (-3) ja (-4) olevista grafeemeista osa on vastaavanpituisten saneiden alkugrafeemeja, jos kohta kunkin kuvatun kirjakielisen pääluokan saneiden keskipituus onkin lähellä seitsemää grafeemia (LEH 7,58; KAU 6,39 ja TIE 7,80). Taulukossa 4 esitetyt prosenttiluvut ovat tarkkoja arvoja, koska ne on laskettu kunkin kirjakielisen pääluokan vastaavan grafeemin esiintymien kokonaismäärästä, mutta 5. taulukon prosenttiluvut ovat vain likiarvoja, koska ne on laskettu saneiden esiintymien määrästä ottamatta huomioon saneiden pituutta, siis lyhyiden saneiden aiheuttamaa virhettä. Joka tapauksessa näinkin laskettuna ne antavat tietoa kirjakielemme saneenloppuisten grafeemijonojen rakenteesta sekä päätteissä, liitteissä ja johtimissa esiintyvien grafeemien taajuuksista.

Suomen kielen seitsemän suurtaajuisinta grafeemia ovat a, i, t, n, e, s, ja l. Nämä samat (+ ä) ovat useimmiten yleisimpiä myös saneiden lopussa neljässä viimeisessä positiossa. Fred Karlssonin mukaan ovat nominaalisessa sanastossamme perussanojen suosikkivartalot i- tai (a + ä =) A-loppuisia; varsin yleisiä ovat myös johtimien s, nen, jA, lA ja nA avulla muodostetut johdokset. Tyypillinen suomen kielen sijapääte koostuu useimmiten väljistä vokaaleista ja dentaalikonsonanteista; myös e ja i ovat niiden osina (A, llA, ltA, ssA, stA, tA, ttA, nA, lle, n, den, ten, tten, en, ksi, kse, Vn, hVn, seen, siin). Samaten persoonan ja omistuksen morfit, persoonaa ja omistajaa osoittavat kielenainekset, (n, t, mme, tte; mme, nne, nsA) sekä ajan, tavan ja luvun morfit (i, isi, ne, kO, kAA; i, t) muodostuvat pääosin näistä suurtaajuisista aineksista. Ilmeisesti huomattavimmat aineistoni kirjainmerkkien taajuusvaihtelut kuvastavat tällaisten sidonnaisten ilmimorfeemien tekstifrekvenssien vaihteluja erilaisissa ympäristöissä. Jos esimerkiksi kerrotaan menneistä ajoista tai tapahtumista käyttäen siihen useimmiten liittyvää aikaluokkaa, imperfektiä, nousee tällaisessa tekstissä i:n osuus yli keskimääräisen. Näyttää myös siltä, että saneenloppuiset grafeemijonot määräävät ainakin näiden suurtaajuisimpien grafeemien (ja suomen kielessä siis myös foneemien) keskinäisen yleisyysjärjestyksen. Päätteissä, liitteissä ja johtimissa yleisimmät grafeemit ovat myös yleisyystaulukon kärkisijoilla.


Tämä dokumentti kuuluu kokoelmaan "Ohjeita ja tietoa suomen kielestä (aineistoa Kielikello-lehdestä)"