Datatekniikka ja viestintä - Ohjelmistot ja dataformaatit:

PDF-muotoisten dokumenttien lukeminen
ja vähän niiden tekemisestäkin

PDF, Portable Document Format, on tiedostomuoto, jonka lukemiseen voidaan käyttää maksutonta Adobe Reader -ohjelmaa (vanhalta nimeltään Adobe Acrobat Reader). Tämä dokumentti selostaa lyhyesti, mistä kyseisen ohjelman saa, sekä antaa viitteitä ohjeisiin siitä ja lisätietoihin PDF-muodosta, myös PDF-dokumenttien tuottamisesta.

Web-sivuilla on varsin usein linkkejä PDF-muodossa oleviin dokumentteihin. Melko usein niihin liittyy erityinen kuvake, joka yrittää kertoa niiden olevan PDF-muotoisia. Tavallisimmin ne on tarkoitettu vain luettavaksi kuvaruudulta tai tulostettavaksi paperille, mutta esimerkiksi Patentti- ja rekisterihallitus (PRH) jakaa monia lomakkeita PDF-muodossa siten, että käyttäjä voi hakea lomakkeen omalle koneelleen, täyttää sen ja tulostaa sen täytettynä siististi paperille. Kansalaisen verkkolomakepalvelu sisältää suuren määrän lomakkeita eri muodoissa, usein niin, että vaihtoehtoina ovat PDF-muoto ja Word-muoto. Lisäksi PDF-muotoa käytetään yleisesti esimerkiksi ohjelmien mukana toimitettavissa käyttöohjeissa.

PDF-muotoisten dokumenttien katseleminen (ja tulostaminen) on helppoa, kunhan koneeseen on asennettu Adobe Reader, joka on saatavissa kaikkiin tavallisimpiin käyttöympäristöihin. Seuraavassa kuvataan lyhyesti, miten tämä tapahtuu.

Vaihtoehdoista mainittakoon, että PDF-muotoisia dokumentteja voi lukea myös esimerkiksi seuraavilla (maksuttomilla) ohjelmilla:

Voit kokeilla, onko koneessasi Adobe Reader (asennettuna siten, että käyttämäsi selain osaa sen käynnistää) tai jokin muu PDF-tiedostoja käsittelevä ohjelma: Seuraa linkkiä johonkin PDF-muotoiseen tiedostoon, esimerkiksi tätä: Internet-sanasto. (Kyseessä on Kolumbuksen sivuilla oleva sanasto, joka on kohtuullisen kokoinen, noin 200 kilotavua.)

Aika usein ison PDF-dokumentin avaaminen Web-selaimessa "jumittaa" selaimen, etenkin Internet Explorerin. Kun Web-sivuilta löytyy linkkejä PDF-dokumentteihin, onkin usein parempi tallentaa dokumentit omalle kovalevylle ja avata ne sieltä.

Käytännössä tämä tarkoittaa tyypillisesti sitä, että napsautetaan hiiren oikeanpuoleista painiketta linkin kohdalla ja valitaan "Save Target As..." tms.). Tämän jälkeen voit tallentaa PDF-dokumentin haluamaasi hakemistoon. Esimerkiksi Windows-koneessa voit sitten mennä kyseiseen hakemistoon ja napsauttaa PDF-dokumentin kuvaketta avataksesi sen.

Kun napsautat linkkiä vasemmanpuoleisella painikkeella, niin selaimet yleensä yrittävät avata PDF-dokumentin niin, että se se aukeaa selaimen ikkunaan. Todellisuudessa selain on tällöin yleensä käynnistänyt Adobe Reader -ohjelman ohjaten sen käyttämään selainikkunaa näyttöalueenaan. Jos haluat estää tämän eli saada PDF-dokumentin avautumaan uuteen ikkunaan, jonka Adobe Reader luo, toimi näin: Käynnistä Adobe Reader ja kirjoita control-K (tai vaihtoehtoisesti valitse File-valikosta Preferences-alivalikko ja sieltä vaihtoehto General. Sitten vain napsauta neliötä, joka on tekstin "Web Browser Integration" edessä, jolloin ruksi häviää neliöstä. Lopeta Acrobat Reader ja testaa.

Adobe Readerin hankkiminen

Adobe Readerin voi hankkia (ladata, "imuroida") monista eri lähteistä:

Yleisesti tietokoneohjelmia ei suinkaan saa vapaasti kopioida, mutta Adobe on myöntänyt yleisen oikeuden jakaa ja käyttää Adobe Readeriä. Tämän taustalla on se, että lukuohjelman vapaa jakelu luo markkinoita Adoben maksullisille ohjelmille, joilla PDF-muotoisia dokumentteja tuotetaan.

Adobe Readerin asennus

Itse asennus on suhteellisen yksinkertainen toimenpide, koska jakelupaketti on ns. itsestäänpurkautuva .exe, eli kun sen käynnistää ohjelmana, käynnistyy itse Adobe Readerin asennus. Riittää yleensä lukea ruudulle ilmestyvät ohjeet ja vastata kysymyksiin. Asennuksesta on lyhyitä suomen- ja ruotsinkielisiä ohjeita PRH:n sivulla Adobe Reader -ohjelman asennus, jolla muuten on myös eräitä vaihtoehtoisia linkkejä asennuspaketin lataamiseen.

Asennus ainakin Windows-koneissa yleensä tekee järjestelmään käyttöä helpottavia muutoksia, joiden ansiosta voit avata PDF-tiedoston klikkaamalla sen kuvaketta ja Web-selaimesi näyttää PDF-tiedostot automaattisesti joko selaimen omassa ikkunassa tai erillisessä uudessa ikkunassa. Huomaa, että tyypillisessä selaimessa voit silti käyttää linkkejä muutenkin kuin tavanomaisella klikkauksella. Voit esimerkiksi tallentaa linkin osoittaman PDF-tiedoston suoraan kovalevyllesi tai vaikka levykkeelle, avaamatta sitä missään ohjelmassa.

Adobe Readerin käyttö

Käyttö on perusteiltaan yksinkertaista. Alkeellisimmin Adobe Readeriä voi käyttää seuraavasti: ikkunassa ylhäällä on joukko painikkeita, joista oikealle osoittava nuoli vie seuraavalle sivulle. Ikkunan alaosassa on tieto siitä, millä sivulla ollaan (esim. "Page 2 of 4") ja sen oikealla puolella laatikko, jossa on suurennuslasin kuva ja pienennys- tai suurennussuhde; kun klikkaat kyseistä laatikkoa, pääset muuttamaan suhdetta eli esim. isontamaan tekstin. Havainnollinen esitys perusasioista on Optirocin PDF-ohje. Lomakkeiden käyttöön liittyvästä lomakepohjan tallentamisesta ks. verohallinnon laatimia PDF- ja Word-muodossa olevien lomakkeiden käsittelyohjeita. Tarkempia ohjeita Adobe Readerin käytöstä, tosin hiukan hämäävästi välillä myös MS Wordin käytöstä puhuen, on Kansalaisen verkkolomakepalvelun ohjesivulla.

Pari vinkkiä:

Seuraava kuva havainnollistaa, miten Adobe Readerilla luetaan sen omaa käyttöohjetta.

[Vasemmalla on ohjeen hakemisto, oikealla osa dokumentista.
Ylhäällä on valikko ja painikkeita, ja alhaalla on tietoja
suurennussuhteesta, sivunumerosta ym.]

Tässä on kyse todellakin kuvasta, joka on tehty "ruutukaappauksena", ei sellaisesta PDF-dokumentin upotuksesta osaksi sivua, jota käsitellään jäljempänä.


Teknisempiä lisätietoja

Nimet "Adobe Reader" ja "Acrobat"

Varsin yleisesti Adobe Readeriä kutsutaan lyhyesti nimellä Acrobat. Tämä on kuitenkin virheellistä, koska (Adobe) Acrobat on Adoben maksullisiin tuotteisiin kuuluva ohjelma, jolla tuotetaan PDF-muotoisia dokumentteja; toki sillä voi myös katsella niitä.

Tekstin ja kuvien kopiointi Acrobatista muualle

Jos haluat vain kopioida tekstinpätkän PDF-dokumentista muualle, esimerkiksi tekstinkäsittelyohjelmaan, niin voit tehdä sen Adobe Readerillä seuraavasti. Napsauta ensin työkalukuvakkeissa olevaa Text select toolia (T-kirjain, vieressä katkoviivainen suorakaide). Sitten voit tavanomaiseen tapaan hiirellä "maalata" halutun tekstin: kursori tekstin alkuun, hiiren nappi alas, vedä hiirellä kursoria halutun tekstin yli (jolloin sen taustaväri muuttuu), hiiren nappi ylös; sitten valitse File-valikosta Copy, tai käytä control-C:tä. Valittu kuva on nyt leikepöydällä, josta voit sitten paste-toiminnolla tai vastaavalla liittää sen mukaan tekstiin haluamassasi ohjelmassa.

Siitä, millaisessa ohjelmassa teet paste-toiminnon, riippuu se, paljonko tekstin muotoilusta kuten lihavoinnista ja erilaisten fonttien käytöstä säilyy. Asiaan vaikuttaa sekin, miten muotoilut on PDF-tiedostossa toteutettu. Esimerkiksi MS Word säilyttää suuren osan muotoiluista.

Koko tiedoston sisällön kopiointi sujuu usein vielä helpommin. Aluksi tarkistetaan, että Adobe Reader on tilassa, jossa se käsittelee dokumenttia yhtenä kokonaisuutena eli että View-valikosta on valittuna vaihtoehto Continuous. Sitten valitaan Edit-valikosta kohta Select All ja sitten samasta valikosta Copy (mitkä toiminnot hoituvat vielä sujuvammin näppäilyillä Control-A Control-C), minkä jälkeen sisältö on leikepöydällä ja voidaan paste-toiminnolla (tyypillisesti control-V:llä) jossakin ohjelmassa liittää käsiteltävään asiakirjaan.

Jos taas haluat kopioida kuvan PDF-dokumentista muualle, niin voit tehdä sen Adobe Readerillä näin: Vie ensin kursori edellä mainitun Text select toolin päälle ja pidä hiiren nappia alhaalla, kunnes esiin tulee pieni kuvakevalikko. Valitse sitten hiirellä siitä vaihtoehto, jossa on pieni valkea neliö ja musta ympyrä osittain sen päällä. Tämä on Graphic select tool. Nyt voit tavanomaiseen tapaan hiirellä valita suorakulmaisen alueen dokumentista: kursori alueen johonkin nurkkaan, hiiren nappi alas, kursori halutun alueen vastakkaiseen nurkkaan, hiiren nappi ylös; sitten valitse File-valikosta Copy, tai käytä control-C:tä. Valittu kuva on nyt leikepöydällä, josta voit sitten paste-toiminnolla tai vastaavalla ottaa sen johonkin kuvankäsittelyohjelmaan. Huomaa, että Graphic select tool jää "päälle" eli et voi valita tekstiä kopioitavaksi, ennen kuin vastaavalla tavalla kuin alussa vaihdat tilaan Text select tool.

Ville Voipio on huomauttanut: "Kyseinen työkalu tekee tasan bitmap-kopion valitusta alueesta. Näytön resoluutio ja alueen koko siis vaikuttavat siihen, minkälainen kopiosta tulee. Näyttötilan värimäärä määrää myös kuvan värit, ja mustavalkoisestakin kuvasta tulee helposti jatkuvasävyinen kirjasinten reunoja pehmentävän anti-aliaksen ansiosta. Yleensä jälki aiheuttaa pettymyksiä."

Muunnokset PDF:n ja muiden dataformaattien välillä

PDF-tiedostojen sisältämää dataa voi muuntaa eri muotoihin. Yleensä silloin häviää ainakin jotain muotoiluinformaatiota. Adoben Web-sivulla PDF Conversion by Simple Form on lomake, jolla voi muuntaa Webissä olevan PDF-dokumentin (jonkinlaiseen) HTML-muotoon.

PDF-muotoisia dokumentteja voi tuottaa muillakin kuin Adoben ohjelmilla, esim. PDFlib-kirjastolla, johon mm. PHP:n PDF-funktiot perustuvat. Esimerkiksi riittävän uudella GhostScriptin versiolla voi muuntaa tiedoston PostScript-muodosta PDF-muotoon seuraavantapaisella käskyllä:
gs -dNOPAUSE -dBATCH -sDEVICE=pdfwrite -sOutputFile=nimi.pdf nimi.ps
Ks. myös keskustelua ryhmässä sfnet.atk.grafiikka otsikolla PDF tiedostot 1999-11-03/07 sekä TeX-fakin kohtaa Making Acrobat documents from LaTeX.

PDFzone sisältää laajan kokoelman tietoja erilaisista PDF:ään liittyvistä ohjelmista, myös muunnosohjelmista (jotka konvertoivat eri muodoista PDF:ksi ja toisinpäin). Satunnaiseen tarpeeseen tuottaa esim. Word-dokumentista PDF-versio voi riittää Adoben muunnospalvelu Create Adobe PDF Online, jossa on rajoitettu maksuttoman kokeilun mahdollisuus.

Eräs tapa muuntaa erilaisia tiedostomuotoja PDF-muotoon Windows-koneissa on PDF995, joka on maksuton mutta näyttää mainoksia; mainokset saa pois kohtuullisella rekisteröintimaksulla. Ohjelman asennus on hiukan sekava, mutta asennuksen jälkeen voi eri ohjelmista tulostaa niiden normaalilla Print- tai Tulosta-toiminnalla PDF-tiedoston, kun valitsee tulostimeksi PDF-näennäiskirjoittimen. Valitettavasti tuloksissa voi olla pahojakin ongelmia, jos tiedostossa on rakenteita, joita ohjelma ei osaa käsitellä, mutta joihinkin tilanteisiin se voi sopia oikein hyvin.

Muista vastaavista ohjelmista mainittakoon (maksuton) CutePDF, jota monet ovat kiitelleet.

Muita Windows-ympäristöön saatavissa olevia maksuttomia ohjelmia:

Easy PDF on maksullinen mutta melko edullinen ohjelma; ks. Tietokone-lehden kuvausta Easy PDF:stä.

PDF ja esteettömyys (saavutettavuus, accessibility)

Koska PDF on suunniteltu ensi sijassa paperitulostusmuodoksi ja fyysistä esitysasua sääteleväksi, se saattaa aiheuttaa suuriakin ongelmia niille, jotka esimerkiksi näkövamman takia tarvitsevat suurta kirjasinlajia tai puhesynteesin kautta tapahtuvaa ääniesitystä. Esimerkiksi Adobe Reader" kyllä sallii erilaisia suurennoksia, mutta tällöin dokumentti kokonaisuudessaan suurenee eikä rivinpituus mukaudu käytettävissä olevaan leveyteen. Puhesynteesille taas PDF-muoto muodostaa aika huonon lähtökohdan. Sivusto access.adobe.com käsittelee eräitä tähän liittyviä ratkaisuja.

PDF-muoto on myös huono lähtökohta Webin hakujärjestelmien (search engines) kannalta, koska niiden toiminta perustuu dokumenttien tekstisisällön poimimiseen erilleen. Eräät hakujärjestelmät, kuten Google, pystyvät nykyisin kuitenkin käsittelemään myös PDF-muotoisia dokumentteja ja myös tarjoamaan View as HTML -linkin, jonka kautta saatava muoto on kuitenkin usein sekava ja virheellinenkin.

W3C-konsortion piirissä selvitellään, miten PDF:n käyttöä Webissä voitaisiin kehittää esteettömämmäksi. Aihetta käsittelee mm. luonnos PDF Techniques for Web Content Accessibility Guidelines 1.0 and 2.0.

Toisaalta PDF-muoto ei yleisesti sovi ainoaksi muodoksi, jossa tieto pannaan saataville Webiin. Tunnettu käytettävyysasiantuntija Jakob Nielsen kirjoittaa, sivulla jolla hän myös antaa käytännön neuvoja PDF:ään liittyvien ongelmien lieventämisestä:

Forcing users to browse PDF files makes usability approximately 300% worse compared to HTML pages. Only use PDF for documents that users are likely to print.
Lähde: Avoid PDF for On-Screen Reading

Mediatyyppi ja "tyyppimerkintä" .pdf

Lähes aina PDF-muotoisen tiedoston nimi loppuu merkkeihin .pdf muun muassa siksi, että Internet Explorer tunnistaa tiedoston PDF-muotoiseksi tämän perusteella. Periaatteessa se, mikä on ratkaisevaa Webissä, meilin liitetiedostoissa ym., on datalle ilmoitettu mediatyyppi (MIME-tyyppi). PDF-tiedostoille varattu mediatyyppi on application/pdf. Näillä asioilla on merkitystä mm. silloin, kun PDF-dokumentti halutaan panna saataville Webiin.

PDF-tiedostojen koko

PDF-tiedostot ovat usein varsin isoja. Tällä on merkitystä etenkin pantaessa niitä esim. saataville Webin tai FTP-palvelimen kautta ja kopioitaessa levykkeelle. PDF:ää tuottavissa ohjelmissa on yleensä mahdollisuus ns. deflate-pakkaukseen, joka voi olennaisesti pienentää kokoa. Toissijaisesti voi harkita jokin tiivistysmenetelmän käyttöä. Esimerkiksi zippaus saattaa pienentää datan määrän kolmasosaan ja allekin, joten esim. useankin megatavun PDF-dokumentin (ellei se ole sisäisesti pakattu) saa usein mahtumaan tavalliselle levykkeelle, kunhan pakkaa sen esim. WinZipillä.

PDF-dokumentit Webissä

PDF-dokumentti on mahdollista myös upottaa osaksi HTML-dokumenttia niin, että se näkyy erillisessä alueessa sen sisällä. Tähän kuitenkin liittyy monia ongelmia mm. siksi, että selainten tuki eri upotusmenetelmille (lähinnä iframe, embed ja object) on varsin kirjava. Joka tapauksessa on yleensä parasta liittää upotuksen yhteyteen linkki kyseiseen PDF-dokumenttiin, jolloin käyttäjä voi hyödyntää linkkiä, jos upotus ei toimi tai toimii epätyydyttävästi.

On mahdollista järjestää asiat niin, että joihinkin PDF-dokumentin kohtiin voi viitata linkeillä tai yleisemmin sanottuna URLeilla. Tämä ilmeisesti aiemmin vaati "kohdeankkurin" erityistä asettamista PDF-dokumenttiin, ks. Don Lancasterin dokumenttia Two-Way Linking of HTML and Acrobat Files, mutta saattaa onnistua nykyisin URLin kautta annettavan komennon (Adobe action command) kautta; katso kohtaa Link to a PDF page sivustossa All My FAQs ja dokumenttia Link to PDFs from HTML. Esimerkiksi seuraava linkki viittaa erään PDF-muotoisen dokumentin (nimittäin edellä mainitun Internet-sanaston) kolmannelle sivulle:
http://download.kolumbus.fi/oppaat/mivt99sanastoweb.pdf#page=3
Se, onnistuuko viittaus halutulla tavalla, riippuu kuitenkin paitsi käyttäjän ohjelmista myös oletettavasti siitä, miten PDF-tiedosto on tuotettu.

Lisää PDF:stä tekniseltä kannalta

Diffuse-hankkeen tuottama dokumentti Document Interchange Standards sisältää englanninkielisen yleiskuvauksen PDF:stä, jossa on myös viittauksia teknisiin dokumentteihin aiheesta.

PDF-tiedostomuodon tarkka kuvaus on dokumentissa PDF Reference (noin 4,3 megatavua, PDF-muotoinen).

PDF-muodon merkityksestä digitaalisessa ("elektronisessa") julkaisemisessa, mm. eduista ja haitoista muihin muotoihin verrattuna, puolestaan kertoo Elektra-projektin loppuraportin osa Elektronisen julkaisemisen tiedostomuodot ja ohjelmistot.

Perl-ohjelmoijia voi kiinnostaa CPANissa oleva PDF-111-moduli PDF-muotoisen datan käsittelyä varten.

Muita PDF:ää koskevan tiedon lähteitä ovat mm. AcroBuddies (Web-pohjainen keskustelujärjestelmä) ja nyyseissä (Usenetissä) ryhmä comp.text.pdf.

PDF-muotoa on pidetty turvallisena (tietoturvan mielessä, ks. Tieken tietoturvaopasta), mutta elokuussa 2001 havaittiin PDF-tiedostojen kautta leviävä virus tai oikeammin sanottuna mato, nimeltään Peachy. Tosin se perustuu maksullisen Adobe Acrobatin turva-aukkoon eli pelkän lukuohjelman, Adobe Readerin, käyttäjä on siltä tiettävästi turvassa. Aiheesta kertoo lisää F-securen kuvaus Peachy Worm.