Metatieto
Metatieto (metadata, liitännäistieto, kuvailutieto) on tietoa tiedosta eli kuvailevaa ja määrittävää tietoa jostakin tietovarannosta tai sisältöyksiköstä.[1] Esimerkiksi tyypillistä metatietoa ovat CD-levyn tiedot (levyn nimi, esittäjä, säveltäjä, päivämäärä) tai tekstidokumentin tiedot (viimeksi tallennettu, omistaja, versio, sijainti, julkaisupäivämäärä jne.).[2]
Liitännäistietojen kehittämisellä pyritään tehostamaan tietovarannon käyttöä, koska ne voivat helpottaa tietojärjestelmien välisiä tiedonsiirtoja ja eri paikoissa olevien sisältöjen yhdistämistä. Täten laadukkaat metatiedot voivat myös parantaa informaation löydettävyyttä niin, että hakukoneet pystyvät etsimään tietoa tarkemmin ja monipuolisemmin.[3]
Metatiedon merkitys on kasvanut World Wide Webin myötä. Liitännäistiedon merkitys esimerkiksi tiedon automaattisessa järjestelyssä on olennainen, sillä niitä parantamalla pystytään kehittämään monia asioita, esimerkiksi versionhallintaa, prosessien toimintaa, asiankäsittelyä tai tietojen arkistointia. Liitännäistietoa voi olla tallennettuna myös jostain tiedosta, jota ei enää ole olemassa.[3]
Metatiedot käytännössä
Tyypillisin metatieto, johon tietokoneen käyttäjä yleensä törmää, on tiedostonimi jossain tiedostojärjestelmässä. Toinen tyypillinen päivittäisessä käytössä esiintyvä metatieto on tiedostojen tiedostopääte, joka määrittelee, minkä tyyppinen tiedosto on kyseessä ja millaisella ohjelmalla tiedostoa voi käsitellä.[4] Perinteisten tiedostojärjestelmien "metatietojärjestelmä" perustuu yleensä juuri hakemistorakenteisiin ja kuvaaviin tiedostonimiin. Tiedostojärjestelmissä käytettävien tiedostonimien käyttöä voi vakioida vaikka sopimalla nimeämiskäytänteistä. Eräs yleinen tyyli on vuosi-asiayhteys-kirjoittaja-tiedostotunniste (esim. "2002-kuusamonkokous-virtanen-antti.odf"). Lisätarkkuutta tiedostojärjestelmään voidaan saada esimerkiksi koostekansioilla ja luokituksilla.[5]
Tiedostojen metatieto voi olla tallennettuna itse tiedostoon tai erilliseen tietokantaan keskitetysti. Esimerkiksi kuva- ja musiikkitiedostoissa on usein tiedostoihin sisällytettynä paljon lisätietoa tekijästä, kohteesta, tiedostokoosta, laadusta tai albumista. Monet kuvankäsittely- ja musiikkiohjelmat toisaalta tallentavat metatietoja myös "mediakirjastoonsa" tai "albumitietokantaansa".[1][2] Jos metatiedot on tallennettu keskitetysti, eivät ne yleensä siirry mukana tiedostoja siirrettäessä toisaalle esimerkiksi ladattaessa musiikkia kannettavaan soittimeen. Tiedostoon sisällytettyjä liitännäistietoja taas on tiedostoformaatista riippuen hyvin vaihteleva määrä, ja monien tiedostoformaattien ongelma epäyhteensopivuus muiden ohjelmien kanssa tai rajalliset metatiedon tallennusmahdollisuudet.[3]
Metatietojen hyödyllisyys esimerkiksi hakukoneille vaihtelee. Vaikkapa monet tunnetut Internetin hakukoneet eivät juurikaan hyödynnä tiedostojen virallista liitännäistietoa vaan käyttävät tilastollisia analyyseja, sisältöanalyyseja, ulkopuolisten linkkien ja niiden kuvauksien antamaa tietoa.[1]
Erilaisia luokitteluja
Erilaisia luokitteluja metatiedoille on useita. Melko yleinen, mutta kovin karkea luokittelu esimerkiksi jakaa metatiedot kolmeen luokkaan. Luokittelussa metatietoa on kolmenlaista:
- Itseisarvoista (tiedoston nimi tai koko)
- Kuvailevaa (aihe, otsikko, yleisö, jne.)
- Hallinnollista (viimeksi tallennettu, tarkastettu, omistaja, jne.)
Toisenlaisen kolmen kategorian luokittelun on esittänyt esimerkiksi Salminen (2005):
- Semanttinen metatieto, jota on sisällön merkitystä kuvaava tieto, esimerkiksi asiasanat, asiakirjan nimeke, aihe, tiivistelmä
- Rakennemetatieto, jota on sisältöyksikön fyysistä tai loogista rakennetta tai sisällön kieltä kuvaavaa tietoa
- Kontekstuaalinen metatieto, joka kuvaa sisältöyksiköiden ympäristöä jossain tietyssä tilanteessa, esimerkiksi sisältöyksikön luomisaika, tuottaja, käyttäjä ja suhteet muihin sisältöyksiköihin.
Salminen (2005) on myös todennut, että metatietoja voidaan luokitella mitä erilaisimmilla keinoilla. Muun muassa pysyvyydeltään metatiedot voidaan luokitella staattisiksi tai dynaamisiksi, tallennustavoittain upotetuiksi tai ulkoisiksi ja organisoinniltaan hajautetuiksi tai keskitetyiksi.[3]
Metatiedon tuottaminen ja kehittäminen
Metatietoa voidaan tuottaa automaattisesti tai manuaalisesti:
- automaattisesti
- dokumenttien ominaisuustiedoista tai rakenteisista dokumenteista erottelemalla
- manuaalisesti
- kirjoittamalla dokumentille erillisiä kuvaustietoja.
Perinteisiä metatietojen kehittämismenetelmiä ovat mm.:
- korteilla ryhmätyönä tehtävä luokittelu
- olemassa olevien sisältöjen analysointi.
Nykyisin kuvailutietoja kehitetään usein automaattisesti erilaisilla tietokoneohjelmilla analysoimalla olemassa olevia sisältöjä, mutta yhtä lailla tärkeätä on edelleen myös ihmisten tekemä luokittelu, asiasanoittaminen ja kuvailu.[3][1][6]
Valmiita sanastoja
Metatiedon yhteensopivuutta parannetaan hyödyntämällä valmiita sanastoja, joilla voidaan saavuttaa parempaa järjestelmien yhteentoimivuutta. Niillä kohennetaan yleensä tietojärjestelmien semanttista yhteensopivuutta.[3]
Valmiita sanastoja ovat mm.
- Dublin Core
- IPTC
- RDF (Resource Description Framework)
- OWL (Web Ontology Language).
Toimialakohtaisia valmiita sanastoja sisältyy myös esimerkiksi elektronisen liiketoiminnan määritysperheisiin, kuten RosettaNet ja ebXML.[3]
Yleisiä ongelmia metatietojen hyödyntämisessä
- Luonnollisten kielien runsaus ja monimutkaisuus
- Koneellisen tulkinnan vaikeudet
- Ongelmat sanastojen käytössä ja kehittämisessä
- Ohjelmat tallentavat metatiedot sellaisessa muodossa, ettei niitä ole mahdollista hyödyntää ilman kyseistä ohjelmaa.
Esimerkiksi tyypillinen yksittäisen käyttäjän kokema ongelma metatiedoista on, että tietokoneohjelmat kyllä tallentavat paljon metatietoa erilaisista tiedostoista ja sisällöistä omaan käyttöönsä, mutta eivät kykene jakamaan tätä metatietoa muille ohjelmille. Esimerkiksi Microsoft Wordin tuottamat dokumentit sisältävät yleensä paljon metatietoa asiakirjan tallennuksista, versioista, muokkauksista, muokkaajista sekä dokumentin muotoilusta, rakenteesta ja kirjasimista. Lähetettäessä sama asiakirja sähköpostitse toiselle henkilölle, jolla ei kuitenkaan ole vastaavaa ohjelmaa, ei tätä kaikkea dokumenttiin tallennettua metatietoa pystytä hyödyntämään. Tämänkin ongelman ratkaisemiseksi on kehitetty OpenDocument-tiedostomuoto.[7]
Toisentyyppinen ongelma on, että tiedostoon tallennettu metatieto saattaa loukata yksityisyyttä tai esimerkiksi liikesalaisuuksia. Jos tieto on suljetussa formaatissa, käyttäjä ei voi tiedostoa toiselle lähettäessään varmistaa, että joukossa ei ole ongelmallista tietoa.[2]
Katso myös
- Informaatioarkkitehtuuri
- OpenDocument-tiedostomuoto (ODF)
- Dokumenttien luokittelu
- Semanttinen verkko
- ID3
Lähteet
- Lappalainen, Heikki: Metatieto dokumenttien hallinan tukena (s. 14-18) Opinnäytetyö. 23.3.2006. Viitattu 25.03.2018.
- Viljanen, Vesa: Tiedostojen metatieto Yksityisyyden suoja. 2013–2017. Arkistoitu 25.3.2018. Viitattu 25.03.2018.
- Salminen, Airi: Metatiedot organisaatioiden sisällönhallinnassa, s. 4–13. Ilmestynyt julkaisussa Lehtinen, A., Salminen, A., Nurmeksela, R., Metatiedot suomalaisen lainsäädäntöprosessin tiedonhallinnassa. RASKE2-projektin II väliraportti. Helsinki: Eduskunnan kanslia, 2005. Teoksen verkkoversio. (Arkistoitu – Internet Archive)
- Rasmussen, Henning Dadkhah: Käytännöllinen niksi: Näytä tiedostotunnisteet Kotimikro. 18.4.2017. Viitattu 25.03.2018.
- Tiedostojen ja hakemistojen ominaisuudet Opiskelijan digitaidot. Viitattu 25.03.2018.
- Hallitut metatiedot ‑sarakkeen luominen Support Office. Viitattu 25.03.2018.
- OpenDocument-tekstiasiakirjan (.odt) avaaminen ja tallentaminen Wordissa Support Office. Viitattu 25.03.2018.
Aiheesta muualla
- Kuvia tai muita tiedostoja aiheesta Metatieto Wikimedia Commonsissa