Kielimerkkaus, luku 5 Muita erityiskysymyksiä:

MS Word ja kielimerkkaus

MS Word sisältää monenlaista tukea eri kielille. Tosin tuen laajuus riippuu Wordin versiosta ja asennustavasta.

Kun esimerkiksi kirjoitetaan lainausmerkit tavallisen näppäimistön lainausmerkkinäppäintä käyttäen, Word pyrkii korvaamaan lainausmerkin oikealla kielikohtaisella lainausmerkillä. Usein tämä on hyvin hyödyllistä, joskus Word taas on arvannut kielen väärin tai muusta syystä tekee vääriä "korjauksia".

Word sisältää jonkinlaisen automaattisen kielentunnistuksen eli pyrkii kirjoitettaessa tunnistamaan, mitä kieltä teksti on. Tämä piirre voidaan poistaa käytöstä, mutta yleensä se on hyödyllinen. Jos Word on tunnistanut kielen väärin, voidaan "käsin" korjata tieto kielestä, maalaamalla teksti ja valitsemalla Työkalut-valikon Kieli-kohdan kautta haluttu kieli.

Tieto kielestä ilmeisesti tallentuu jossakin Wordin sisäisessä muodossa. Mutta jos leikataan ja liimataan selaimessa näkyvästä HTML-dokumentista tekstiä Wordiin, niin Word tunnistaa sen kielen HTML:ssä olevan kielimerkkauksen mukaiseksi. Siis jos sivulla on esimerkiksi <html lang="fi">, niin Word pitää kielenä suomea, jos taas <html lang="ru">, niin venäjää, jne. Näin riippumatta siitä, mitä kieltä teksti todellisuudessa on, eli Word "uskoo" tekstin venäjäksi vaikka se on latinalaisin kirjaimin ja selvää suomea.

Sama toimii toisinkin päin. Ja se toimii, tavallaan. Riippumatta siitä, onko Word itse tunnistanut kielen vai onko käyttäjä sen kertonut, Word "HTML-muotoon" tallentaessaan kirjoittaa mukaan lang-määritteet tyyliin
<p class=MsoNormal><span lang=FI>Tämä on testi.</span></p>
Vahinko vain, että Wordin tuottama "HTML-muoto" on kokonaisuutena erittäin sekavaa ja sisältää piirteitä, jotka tekevät sen Webiin huonosti sopivaksi. Ja valitettavasti HTML-Kit-ohjelma (tai sen sisältämä Tidy), joka muuten tekee hyvän työn peratessaan sitä moskaa, heittää lang-määritteet menemään pesuveden mukana.

Edellä (kohdassa Muita kielikoodijärjestelmiä) jo mainittiin, että RTF-muotoon tallentaessaan Word tallentaa myös kielitiedon, mutta Microsoftin omia koodeja käyttäen.


Kirjoittamisen ajankohta: 2002-06-23. Päivitetty viimeksi 2007-12-03.
Tämä sivu kuuluu Jukka "Yucca" Korpelan avoimeen tietosivustoon Datatekniikka ja viestintä.