Vinkkejä Nykysuomen sanakirjan digiversion käyttöön
Nykysuomen
sanakirjan
digitoitu versio julkistettiin 1.3.2021. Kuten
julkistusuutinen kertoo,
teos on verkossa vapaasti käytettävissä
PDF-muodossa tekstiskannattuna näköisjulkaisuna,
ja tämä mahdollistaa merkkijonohakujen tekemisen.
Käytännössä kirja on kuutena erittäin isona (577–723 megatavua)
tiedostona, joissa sivut ovat skannattuina hyvälaatuisina kuvina siten,
että ikään kuin kuvan päällä on näkymätön sisältö myös tunnistettuna (OCR-skannattuna)
tekstinä. Tämän takia kuvasta voi näennäisesti valita tekstiä hiirellä; todellisuudessa
tällöin valitaan vastaava näkymätön teksti, jonka sitten voi liittää
johonkin ohjelmaan näkyviin.
Pelkästään Nykysuomen sanakirjan lukemiseenkin digiversio on monin tavoin kätevämpi
kuin painettu kirja: se on aina saatavilla, teksti on luettavampaa kuin painetussa
kirjassa ja se on zoomattavissa.
Tiedostoista
- Tiedostot kannattaa ladata omaan koneeseen, mieluiten tietysti kiinteää
internet-yhteyttä käyttäen. Tällöin käyttö on paljon tehokkaampaa kuin jos
tiedosto latautui verkon kautta jokaisella käyttökerralla.
- Tiedostoja voi käyttää myös kannettavissa laitteissa,
myös puhelimissa.
- Tiedostot kannattaa sijoittaa omaan hakemistoonsa, jotta ne löytyvät helposti
ja jotta niitä voi käsitellä yhdessä.
- PDF-tiedoston
tekstisisällön voi tallentaa tiedostoon esimerkiksi Adobe Acrobat Readerin
Tiedosto-valikon toiminnolla ”Tallenna tekstinä”. Tallennus kestää jonkin aikaa,
mutta sen jälkeen on helppo hakea tekstiä minkä tahansa tekstiä käsittelevän
ohjelman hakutoiminnoilla.
Näin tallennetut tekstitiedostot ovat yli sata kertaa pienempiä
kuin PDF-tiedostot.
Tekstisisällöstä
Tekstiskannaus on tehty hyvin, mutta tuloksessa on virheitä.
Ne vaikuttavat myös tekstin löydettävyyteen hakutoiminnoilla.
Virheitä on muun muassa seuraavanlaisia:
- Skannaus ei aina ole tunnistanut sivun palstoitusta, vaan eri palstojen
rivit ovat yhtenä rivinä.
- Paikoitellen skannaus ei ole tunnistanut sanan jatkumista riviltä toiselle,
vaan osat esiintyvät kuin eri sanoina.
- Skannaus on tunnistanut merkkejä väärin eri syistä. Näin on voinut käydä
paitsi erikoismerkeille myös kirjaimille; esimerkiksi e:n tilalla saattaa olla c.
- Joitakin sanoja on jostain syystä jäänyt pois kokonaan.
Dokumentissa
Huomioita Nykysuomen sanakirjan verkkoversiosta
(Word-asiakirja) on tarkempia huomioita skannaus yms. virheistä.
Muun muassa kirjan alussa olevissa taivutuskaavoissa on sattunut virheitä,
ja lisäksi niiden taulukkomainen rakenne on hajonnut. Tämän takia olen tehnyt koosteet
Nominien taivutustyypit Nykysuomen sanakirjassa ja
Verbien taivutustyypit Nykysuomen sanakirjassa.
Vaikka tekstiä voi leikata ja liimata, tulos on syytä tarkistaa, jos
esimerkiksi halutaan esittää lainaus.
Myös lainaus- ja heittomerkit ja ajatusviivat on tarkistettava.
Lisäksi leikkaamalla saadaan mukaan
pelkkä teksti, ei muotoiluja (lihavointi, kursivointi,
kapiteeli, harvennus, ala- ja yläindeksit).
Hakutoiminnot
- Hakusana kannattaa yleensä etsiä haarukoimalla: valitse kirjan oikea osa,
avaa se PDF-lukuohjelmassa ja etsi se selaamista vastaavalla tavalla
liu’uttamalla vierityspalkkia. Hakutoiminnosta ei yleensä ole apua monestakaan syystä:
1) hakusanat eivät eroa muusta tekstistä, joten esimerkiksi iili-sanaa etsittäessä
löytyy ensin lukemattomia sanoja, joissa esiintyy tämä merkkijono,
2) hakusanan sisällä on hyvin usein |-merkki (esimerkiksi kiss|a, jossa merkki erottaa
sanan muuttumattoman alkuosan loppuosasta) ja 3) monet yhdyssanat
ovat muodossa, jossa sanasta on vain loppuosa (esimerkiksi kissankäpälä on
kissan|askel-kappaleen sisällä asussa -käpälä).
- Edellä mainittua |-merkkiä voi toisaalta myös käyttää hyväksi: hakusana on useimmiten
muodossa, jossa |-merkki erottaa muuttumattoman alkuosan loppuosasta, jossa tapahtuu
muutoksia astevaihtelun tai muun syyn takia. Esimerkiksi hakusana aakkonen
löytyy haulla aakko|, koska se on kirjassa asussa aakko|nen
(sillä |:n jälkeinen osa vaihtelee taivutuksessa, kuten aakkosta ja aakkoset).
- Adobe Acrobat Reader pitää hakutoiminnoissa a:ta ja ä:tä samana kirjaimena,
samoin o:ta ja ö;tä, s:ää ja š:ää jne.
Sen sijaan esimerkiksi Foxit Reader erottaa ne toisistaan, joskin sen asetuksista voi muuttaa tämän.
- Tavallisissa PDF-lukuohjelmissa voi
kohdistaa hakutoiminnon useisiin tiedostoihin. Tällaiset haut ovat
melko nopeita, vaikka tiedostot ovat isoja.
Esimerkiksi Adobe Acrobat readerin hakutoiminnon Etsi-ruudussa olevaa mutterikuvaketta
napsauttamalla voi avata ”täyden Reader-haun, jossa
voi valita haun kaikista tietyn hakemiston PDF-tiedostoista.
- PDF-lukuohjelmien hakutoiminnot ovat muutoin melko yksinkertaisia.
- Sen sijaan tekstieditoreissa (esimerkiksi
Notepad++) on usein monipuolisia
hakutoimintoja kuten ns. säännöllisten lausekkeiden (regular expressions) käyttö.
Tällä tavoin voi tekstimuodossa tallennetuista tiedostoista
hakea esimerkiksi lausekkeella c[^.], joka etsii sellaisia
c-kirjaimen esiintymiä, joita ei seuraa piste.
(Ks. Notepad++ User Manual,
kohta Searching,
alakohta Regex Special Characters.)
Digiversion sisällön ongelmia
Usein sanotaan, että Nykysuomen sanakirjan kaikki versiot ovat täysin identtisiä,
vaikka nidosasu onkin muuttunut. Tämä ei tarkkaan ottaen pidä paikkaansa.
Alkuperäisessä, vuosina 1951–1961 julkaistussa painoksessa, josta skannaus on
tehty, oli kunkin osan lopussa Oikaisuja-osasto ja viimeisen osan lopussa lisäksi Täydennyksiä-osasto.
Vuonna 1967 julkaistiin kolmena nidoksena ”lyhentämätön kansanpainos”.
Sen jälkeen julkaistiin useita painoksia, joista kuitenkin on
Kansallisbibliografiassa tietoa hyvin sekavasti.
Kaikki painokset lienee tehty samoilla painolaatoilla, joihin kuitenkin tehtiin muutoksia vuoden 1967 kansanpainoksessa siinä mielessä, että alkuperäisen julkaisun osien lopussa esitetyt oikaisut tehtiin itse tekstiin (ja osien lopusta tietysti poistettiin Oikaisuja-osastot) ja lisäksi Täydennyksiä-osasto otettiin huomioon siinä mielessä, että sanakirjan sisältöön lisättiin reunukseen merkinnät, joilla osoitetaan, mihin kohtiin on täydennyksiä.
Koska verkkoversio perustuu alkuperäiseen julkaisuun, se poikkeaa kaikista myöhemmistä: osien lopussa on suuri määrä korjauksia, jotka myöhemmin tehtiin varsinaiseen tekstiin
Lisäksi Täydennyksiä-osastoon ole viittauksia sisällössä.
Jos siis lukija haluaa varmistua esimerkiksi siitä, että jokin 1. osassa oleva kohta on oikein (siinä mielessä, että siihen ei ole oikaisua), hänen on käytävä läpi kaikkien osien Oikaisuja-osastot.
Lisäksi on tietysti mahdollista, että siihen on tullut täydennys, kuten lisäys sanan merkityksiin,
joka on viimeisen tiedoston lopussa olevassa Täydennyksiä-osastossa.