Unicode-merkistön lohkot ja niiden suomenkieliset nimet

Unicode-merkistö jakautuu lohkoihin (blocks). Tässä luetellaan ne käyttäen virallisia englannin­kielisiä nimiä (Unicode-standardiin kuuluvan tiedoston Blocks.txt mukaan) sekä kirjoittajan ehdottamia suomennoksia. Mukana on Unicoden Basic Multilingual Plane (BMP, koodipaikat U+0000…U+FFFF).

Unicodessa lohko on koodialue eli joukko peräkkäisiä koodipaikkoja. Lohkojen koot vaihtelevat. Lohkoihin jakaminen heijastaa Unicoden kehitystä, jossa merkki­valikoimaa on useissa vaiheissa laajennettu. Siksi jako ei noudata mitään yksin­kertaista ja yhtenäistä peri­aatetta. Esimerkiksi latinalaiseen kirjaimistoon kuuluvia merkkejä on useissa eri lohkoissa.

Lohkot on tässä ryhmitelty alueiksi (area) Unicode-standardin 2. luvussa General Structure esitetyn jaon mukaisesti. Alueiden nimet eivät ole varsinaisesti erisnimiä, vaan sama nimi voi esiintyä useasti.

Seuraavassa taulukossa englanninkielinen nimi on linkki lohkon kuvaukseen Unicode-standardissa, osassa Charts (merkistö­kartat). Suomen­kielisen nimen jäljessä voi olla sulkeissa oleva selitys, joka ei siis ole ehdotetun nimen osa.

Englanninkielinen nimiSuomenkielinen nimi Microsoft-suomennos Koodialue
ASCII & Latin-1 Compatibility Area – Ascii ja Latin-1 -yhteensopivuusalue
Basic Latin Latinalainen perusmerkistö (Ascii)Latinalainen, perus 0000…007F
Latin-1 Supplement Latinalaisen merkistön täydennys Latin-1:ksi (Latin-1:n yläosa) Latinalainen-1 (lisä) 0080…00FF
General Scripts Area – Yleinen kirjoitusjärjestelmien alue
Latin Extended-A Latinalaisen merkistön laajennus A Latinalainen, laajennettu-A 0100…017F
Latin Extended-B Latinalaisen merkistön laajennus B Latinalainen, laajennettu-B 0180…024F
IPA Extensions IPA-täydennyksiä (foneettisia merkkejä) IPA-laajennukset 0250…02AF
Spacing Modifier Letters Tarkekirjaimia (tarkkeen näköisiä erillisiä merkkejä) Välinmäärityskirjaimet 02B0…02FF
Combining Diacritical Marks Yhdistyviä tarkkeitaYhdistetään diakriittiset merkit. 0300…036F
Greek and Coptic Kreikkalaisia ja koptilaisia merkkejä Kreikkalaiset ja koptilaiset merkit0370…03FF
CyrillicKyrillisiä merkkejäKyrillinen 0400…04FF
Cyrillic SupplementKyrillisen merkistön täydennysKyrillinen (lisä) 0500…052F
Armenian Armenialaisia merkkejäArmenia 0530…058F
General Scripts Area (RTL) – Yleinen oikealta vasemmalle luettavien kirjoitusjärjestelmien alue
Hebrew Heprealaisia merkkejäHeprea 0590…05FF
Arabic Arabialaisia merkkejäArabia 0600…06FF
Syriac Syyrialaisia merkkejäSyyria 0700…074F
Arabic Supplement Arabialaisen merkistön täydennysArabia (laajennus) 0750…077F
Thaana ThaanaThaana 0780…07BF
NKo N’koN'Ko 07C0…07FF
Samaritan Samarialaisia merkkejä? 0800…083F
Mandaic Mandealaisia merkkejä? 0840…085F
Syriac Supplement Syyrialaisen merkistön täydennys? 0860…086F
Arabic Extended-A Arabialaisen merkistön laajennus A? 08A0…08FF
Devanagari DevanagariDevanagari 0900…097F
Bengali Bengalilaisia merkkejäbengali 0980…09FF
Gurmukhi GurmukhiGurmukhi 0A00…0A7F
Gujarati Gudžaratilaisia merkkejäGudzarati 0A80…0AFF
Oriya Orijalaisia merkkejäOrija 0B00…0B7F
Tamil Tamililaisia merkkejäTamili 0B80…0BFF
Telugu Telugulaisia merkkejäTelugu 0C00…0C7F
Kannada Kannadalaisia merkkejäKannada 0C80…0CFF
Malayalam Malajalamilaisia merkkejäMalajalam 0D00…0D7F
Sinhala Sinhalilaisia merkkejäSinhala 0D80…0DFF
Thai Thailaisia merkkejä Thai 0E00…0E7F
Lao Laolaisia merkkejäLao 0E80…0EFF
Tibetan Tiibetiläisiä merkkejäTiibet 0F00…0FBF
Myanmar Burmalaisia merkkejäMyanmar 1000…109F
Georgian Georgialaisia merkkejäGeorgia 10A0…10FF
Hangul Jamo Hangulin jamo-merkkejäHangul (Jamo) 1100…11FF
Ethiopic Etiopialaisia merkkejäEtiopia 1200…137F
Ethiopic Supplement Etiopialaisen merkistön täydennysEtiopia (laajennus) 1380…13FF
Cherokee Cherokeelaisia merkkejäCherokee 13A0…13FF
Unified Canadian Aboriginal Syllabics Kanadalaisten alkuperäiskansojen yhtenäistettyjä tavumerkkejä Kanadan alkuperäiskansojen tavutus 1400…167F
Ogham OghamOgham 1680…169F
Runic RiimukirjaimiaRiimukirjoitus 16A0…16F0
Tagalog Baybayin (tagalogin aik. kirjoitusjärjestelmä)Tagalog 1700…171F
Hanunoo Hanunó’olaisia merkkejäHanunoo 1720…173F
Buhid Buhidilaisia merkkejäBuhid 1740…174F
Tagbanwa Tagbanwalaisia merkkejäTagbanwa 1760…177F
Khmer Khmeriläisiä merkkejäKhmer 1780…17FF
Mongolian Mongolialaisia merkkejäMongoli 1800…18AF
Unified Canadian Aboriginal Syllabics Extended Kanadalaisten alkuperäiskansojen yhtenäistetyn tavumerkistön laajennus? 18B0…18FF
Limbu Limbulaisia merkkejäLimbu 1900…194F
Tai Le Tailelaisia merkkejäTai le 1950…197F
New Tai Lue Uusi tailuelainen merkistöUusi tai lue 1980…19DF
Khmer Symbols Khmeriläisiä symbolejaKhmer-merkit 19E0…19FF
Buginese Bugilaisia merkkejäBufi 1A00…1A1F
Tai Tham Taithamilaisia merkkejä? 1A20…1AAF
Combining Diacritical Marks Extended Yhdistyvien tarkkeiden laajennus? 1AB0…1AFF
Balinese Balilaisia merkkejä? 1B00…1B7F
Sundanese Sundalaisia merkkejä? 1B80…1BBF
Batak Batakilaisia merkkejä? 1BC0…1BFF
Lepcha Lepchalaisia merkkejä? 1C00…1C4F
Ol Chiki Ol Chiki? 1C50…1C7F
Cyrillic Extended-C Kyrillisen merkistön laajennus C? 1C80…1C8F
Georgian Extended Georgialaisen merkistön laajennus? 1C90…1CBF
Sundanese Supplement Sundalaisen merkistön täydennys? 1CC0…1CCF
Vedic Extensions Vedalaisia laajennuksia? 1CD0…1CFF
Phonetic Extensions Foneettisia laajennuksiaFoneettiset laajennukset 1D00…1D7F
Phonetic Extensions Supplement Foneettisten laajennusten täydennysFoneettiset laajennukset (laajennus) 1D70…1DBF
Combining Diacritical Marks Supplement Yhdistyvien tarkkeiden täydennysYhdistävät diakriittiset merkit (laajennus) 1DC0…1DFF
Latin Extended Additional Latinalaisen merkistön lisälaajennuksia Laajennettu latinalainen (lisä) 1E00…1EFF
Greek Extended Kreikkalaisen merkistön laajennus Laajennettu kreikkalainen 1F00…1FFF
Punctuation and Symbols Area – Välimerkkien ja symbolien alue
General Punctuation Yleisiä välimerkkejä Yleiset välimerkit 2000…206F
Superscripts and Subscripts Ylä- ja alaindeksejä Ylä- ja alaindeksit 2070…209F
Currency Symbols ValuuttasymboleitaValuuttamerkit 20A0…20CF
Combining Diacritical Marks for Symbols Symbolien yhdistyviä tarkkeita Yhdistävät diakriittiset merkit symboleille 20D0…20FF
Letterlike Symbols Kirjaimenkaltaisia symboleitaKirjainmerkit 2100…214F
Number Forms Lukujen esitysmuotojaNumeromuodot 2150…218F
Arrows NuoliaNuolet 2190…21FF
Mathematical Operators Matemaattisia operaattoreitaMatemaattiset operaattorit 2200…22FF
Miscellaneous Technical Sekalaisia teknisiä merkkejäMuut tekniset 2300…23FF
Control Pictures Ohjausmerkkien symboleitaOhjauskuvat 2400…243F
Optical Character Recognition OCR-merkkejä (helposti optisesti luettavia)OCR 2440…245F
Enclosed Alphanumerics Ympäröityjä alfanumeerisia merkkejäLiitetyt aakkosnumeeriset 2460…24FF
Box Drawing ViivapiirrosmerkkejäKehyksenpiirtomerkit 2500…257F
Block Elements LohkoalkioitaLohkon osat 2580…259F
Geometric Shapes Geometrisia muotojaGeometriset kuviot 25A0…25FF
Miscellaneous Symbols Sekalaisia symboleita Muut symbolit 2600…26FF
Dingbats Dingbat-merkkejäDingbat-merkit 2700…27BF
Miscellaneous Mathematical Symbols-A Sekalaisia matemaattisia symboleita AMuut matemaattiset symbolit - A 27C0…27EF
Supplemental Arrows-A Lisänuolia ANuolet, laajennettu - A 27F0…27FF
Braille Patterns Braille-merkkejäSokeainkirjoitus 2800…28FF
Supplemental Arrows-B Lisänuolia BNuolet, laajennettu - B 2900…297F
Miscellaneous Mathematical Symbols-B Sekalaisia matemaattisia symboleita B Muut matemaattiset symbolit - B 2980…29FF
Supplemental Mathematical Operators Täydentäviä matemaattisia operaattoreita Matemaattiset operaattorit (laajennus) 2A00…2AFF
Miscellaneous Symbols and Arrows Sekalaisia symboleita ja nuolia Muut symbolit ja nuolet 2B00…2BFF
General Scripts Area – Yleinen kirjoitusjärjestelmien alue
Glagolitic Glagolitsa (glagoliittinen kirjoitus)Glagolitsa 2C00…2C5F
Latin Extended-C Latinalaisen merkistön laajennus C ? 2C60…2C7F
Coptic Koptilaisia merkkejäKoptinen 2C80…2CFF
Georgian Supplement Gruusialaisen merkistön täydennys? 2D00…2D2F
Tifinagh TifinaghTifinagh 2D30…2D7F
Ethiopic Extended Etiopialaisen merkistön laajennusLaajennettu etiopia 2D80…2DDF
Cyrillic Extended-A Kyrillisen merkistön laajennus A? 2DE0…2DFF
Supplemental Punctuation Area – Täydentävien välimerkkien alue
Supplemental Punctuation Välimerkkien täydennysVälimerkit (laajennus) 2E00…2E7F
CJK Miscellaneous Area – Sekalaisten CJK-merkkien alue (CJK = Chinese-Japanese-Korean = kiinalais-japanilais-korealainen)
CJK Radicals Supplement CJK-juurimerkkien täydennysCJK-radikaalit (laajennus) 2E80…2EFF
Kangxi Radicals Kangxi-juurimerkkejäKangxi-radikaalit 2F00…2FD5
Ideographic Description Characters Logografisia kuvailumerkkejäIdeografiset kuvausmerkit 2FF0…2FFB
CJK Symbols and Punctuation CJK-symboleita ja -välimerkkejäCJK-symbolit ja välimerkit 3000…303F
Hiragana HiraganaHiragana 3040…309F
Katakana KatakanaKatakana 30A0…30FF
Bopomofo Bopomofo (kiinan aakkoskirjoitus)Bopomofo 3100…312F
Hangul Compatibility Jamo Hangulin jamo-yhteensopivuusmerkkejäHangul-yhteensopiva Jamo 3130…318F
Kanbun KanbunKanbun 3190…319F
Bopomofo Extended Bopomofon laajennusLaakennettu bopomofo 31A0…31BF
CJK Strokes CJK-merkkien vetojaCJK-piirrot 31C0…31EF
Katakana Phonetic Extensions Katakanan foneettisia laajennuksiaKatakana, foneettiset laajennukset 31F0…31FF
Enclosed CJK Letters and Months Ympäröityjä CJK-kirjaimia ja ‑kuukausimerkkejäLiitetyt CJK-kirjaimet ja kuukaudet 3200…32FF
CJK Compatibility CJK-yhteensopivuusmerkkejäCJK-yhteensopiva 3300…33FF
CJKV Unified Ideographs Area – CJKV-logogrammien alue (CJKV = Chinese-Japanese-Korean-Vietnamese = kiinalais-japanilais-korealais-vietnamilainen)
CJK Unified Ideographs Extension A Yhtenäistettyjen CJK-logogrammien laajennus A Yhdistetyt CJK-käsitemerkit, laajennus A 3400…4DBF
Yijing Hexagram Symbols Yijing-heksagrammisymboleitaYijing-heksagrammisymbolit 4DC0…4DFF
CJK Unified Ideographs Yhtenäistettyjä CJK-logogrammejaYhdistetyt CJK-käsitemerkit 4E00…9FFF
General Scripts Area (Asia & Africa) – Yleinen aasialaisten ja afrikkalaisten kirjoitusjärjestelmien alue
Yi Syllables Yi-tavumerkkejäJi-tavut A000…A48F
Yi Radicals Yi-juurimerkkejäJi-radikaalit A490…A4CF
Lisu LisuLisu A4D0…A4FF
Vai VaiVai A500…A63F
Cyrillic Extended-BKyrillisen merkistön laajennusKyrillinen, laajennettu - BA640…A69F
BamumBamum?A6A0…A6FF
Modifier Tone LettersToonikirjaimiaSävynmäärityskirjaimetA700…A71F
Latin Extended-DLatinalaisen merkistön laajennus D?A720…A7FF
Syloti NagriSyloti nagriSyloti nagriA800…A82F
Common Indic Number FormsYleisintialaisia lukumerkkejä?A830…A83F
Phags-paPhags-paPhags-paA840…A87F
SaurashtraSaurashtra?A880…A8DF
Devanagari ExtendedDevanagarin laajennus? A8E0…A8FF
Kayah LiKayah Li?A900…A92F
RejangRejang?A930…A95F
Hangul Jamo Extended-AHangulin jamo-merkkien laajennus A?A960…A97F
JavaneseJaavalaisia merkkejä?A980…A9DF
Myanmar Extended-BBurmalaisten merkkien laajennus B?A9E0…A9FF
ChamCham?AA00…AA5F
Myanmar Extended-ABurmalaisten merkkien laajennus A?AA60…AA7F
Tai VietTai Viet?AA80…AADF
Meetei Mayek ExtensionsMeetei Mayekin laajennuksia?AAE0…AAFF
Ethiopic Extended-AEtiopialaisen merkistön laajennus A?AB00…AB2F
Latin Extended-ELatinalaisen merkistön laajennus?AB30…AB6F
Cherokee SupplementCherokeelaisten merkkien laajennus?AB70…ABBF
Meetei MayekMeetei Mayek?ABC0…ABFF
Hangul Syllables Area – Hangul-tavumerkkien alue
Hangul Syllables Hangul-tavumerkkejäHangul-tavut AC00…D7A3
Hangul Jamo Extended-BHangulin jamo-merkkien laajennus B?D7B0…D7FF
Surrogates Area – Laajennuskoodien alue
High Surrogates Laajennuskoodien ykkösosia - D800…DB7F
High Private Use Surrogates Laajennuskoodien ykkösosat sopimuskäyttöön- DB80…DBFF
Low Surrogates Laajennuskoodien kakkososia- DC00…DFFF
Private Use Area – Sopimuskäytön alue
Private Use Sopimuskäytön lohko (käyttö sopimuksen mukaan)Yksityiskäyttöalue E000…F8FF
Compatibility and Specials Area – Yhteensopivuusmerkkien ja erikoiskoodien alue
CJK Compatibility Ideographs CJK-yhteensopivuuslogogrammejaCJK-yhteensopivat käsitemerkit F900…FAFF
Alphabetic Presentation Forms Kirjainten esitysmuotojaAakkoselliset esitysmuodot FB00…FB4F
Arabic Presentation Forms-A Arabialaisten merkkien esitysmuotoja AArabialaiset esitysmuodot - A FB50…FDFF
Variation Selectors Glyyfinvalitsimia (valitsee määrätyn ulkoasun edeltävälle merkille) Muunnosvalitsimet FE00…FE0F
Vertical Forms Pystysuoran kirjoituksen muotoja Pystolomakkeet FE10…FE1F
Combining Half Marks Yhdistyviä puolikastarkkeitaYhdistävät puolimerkit FE20…FE2F
CJK Compatibility Forms CJK-merkkien yhteensopivuusmuotojaCJK-yhteensopivat muodot FE30…FE4F
Small Form Variants Pienikokoisia muunnelmiaPienimuotoiset muunnokset FE50…FE6F
Arabic Presentation Forms-B Arabialaisten merkkien esitysmuotoja BArabialaiset esitysmuodot - B FE70…FEFF
Halfwidth and Fullwidth Forms Puoli- ja täyslevyisiä esitysmuotojaKapeat ja leveät muodot FF00…FFEF
Specials ErityiskoodejaErikoismerkit FFF0…FFFF

Lohkojen nimet Word-ohjelmassa

Tämä sivu on laadittu lähinnä siksi, että Microsoftin käyttämistä suomennoksista monet ovat harhaanjohtavuudessaan kelvottomia. Microsoftin suomennokset näkyvät esimerkiksi silloin, kun tarpeeksi uudella MS Wordillä kirjoitetaan erikois­merkkejä Lisää-valikon Merkki-kohdan kautta ja on tehty lisä­valinta ”Lisää merkkejä”. Lohkojen nimet näkyvät Osajoukko-valikossa. Nimissä on jonkin verran vaihtelua Windowsin eri versioiden ja eri ohjelmienkin välillä.

Se, mitä lohkojen nimiä näkyy tässä tilanteessa, riippuu käytössä olevasta fontista: Word näyttää vain ne lohkot, joiden merkkejä kyseisessä fontissa on.)

Windowsin Merkistö-ohjelmassa (CharMap) voidaan valita merkkien ryhmittely­perusteeksi ”Unicode-alialue”. Tämä ei suoraan vastaa Unicode-lohkoa, vaan alialueeseen on saatettu yhdistää useita samaan kirjoitus­järjestelmään liittyviä lohkoja. Esimerkiksi kaikki latinalaisen merkistön lohkot on koottu Latinalainen-alialueeksi.

Selityksiä

Lohkojen nimille ei ole standardoituja suomen­kielisiä nimiä. Sellaiset nimet saatetaan jossain vaiheessa lisätä CLDR-tietokantaan (Common Locale Data Repository), jossa suomen­kielisten nimien kokoelma sisältää jo muun muassa laajasti kielten nimiä ja kirjoitus­järjestelmien (scripts) nimiä. Tässä esitetyt lohkojen nimet on muodostettu yhteen­sopiviksi mainittujen nimistöjen kanssa.

Kuitenkin Filippiineillä puhutun tagalogin historiallisesta kirjoitus­järjestelmästä käytetään tässä nimitystä baybayin, jolla siihen yleisesti viitataan. (Nykyisin tagalogia kirjoitetaan latinalaisilla kirjaimilla.)

Nimet on tässä pyritty valitsemaan käytännöllisiksi, niin että ne mahdollisuuksien mukaan vastaisivat käytössä olevia nimiä tai olisivat sellaisten pohjalta ymmärrettävissä. Tarkoitus on, että lohkon niminä ne olisivat erisnimiä, jotka siis kirjoitetaan isolla alkukirjaimella ja mahdollisesti erityisellä kirjasinlajilla, esim. Latinalaisen merkistön laajennus A, tai lainausmerkkeihin.

Nimissä on vältetty nominatiivimuotoja kuten ”merkit” ja käytetty partitiiveja kuten ”merkkejä”. Esimerkiksi ”Yleiset välimerkit” voisi antaa sen virheellisen käsityksen, että kaikki yleisiksi välimerkeiksi laskettavat kuuluisivat kyseiseen lohkoon. Esimerkiksi piste ja pilkku eivät kuulu! Lisäksi muoto ”merkkejä” on perusteltu senkin takia, että se jättää avoimeksi, kuuluuko johonkin merkistöön myös sellaisia merkkejä, joita ei (vielä) ole otettu Unicodeen. Esimerkiksi kiinalaisista merkeistä vain osa on Unicodessa.

Kiinalaisperäisten merkkien yleisnimitys on hankala ongelma. Vaikka englannin­kielisessä nimessä on sana ”ideograph”, kyseiset merkit eivät enimmäkseen ole ideografeja eli ideogrammeja eli käsitemerkkejä, vaan (yksitavuisen) sanan merkkejä. ”Sanamerkki” sopisi suomen kieleen paremmin, mutta sen haittana on ensinnäkin, että se tarkoittaa myös sellaista tavara­merkkiä; joka on sana. Tosin Nykysuomen sanakirja kuvaa sanaa ”sanamerkki” näin: ”kokonaista sanaa tarkoittava kirjoitusmerkki” ja esittää ensimmäisenä esimerkkilauseena seuraavan: ”Suurimmissa kiinan sanakirjoissa on n. 50.000 sanamerkkiä.” CJK-merkit eivät kuitenkaan varsinaisesti ole sana­merkkejäkään, vaan suurin osa niistä koostuu äännettyä tavua vastaavan symbolin ja merkitystä tarkentavan symbolin yhdistelmästä. Siksi tässä on käytetty sanaa ”logogrammi”. Vaikka sen voi tulkita tarkoittavan sana­merkkiä ahtaassa mielessä, sitä on käytetty myös laajemmassa merkityksessä.