Avointa tietoa Atlantin takaa

Obaman hallinto julkaisi toukokuussa kiinnostavan raportin siitä, miten tiedon “älykäs” avaaminen (smart disclosure) digitaalisena, koneluettavana datana on toteutunut Yhdysvalloissa. Tässä yhteenvetoa raportin sisällöstä:

Taustaa

Datan julkaisemisella Yhdysvallat pyrkii edistämään erityisesti kuluttajien asemaa ja päätöksentekoa, mutta laajemmin markkinoiden toimivuutta, talouskasvua ja työpaikkojen lisääntymistä. “Äly” viittaa siis siihen, että kuluttaja, yhteiskunta ja markkinat kokonaisuutena toimisivat paremmin.

Dataa ovat avanneet paitsi julkinen hallinto niin myös (lain velvoittamana) yritykset ja muut hallinnon ulkopuoliset toimijat. Julkaistut datat jakaantuvat kahteen pääryhmään: 1) avoin tieto tuotteista ja palveluista sekä 2) henkilökohtainen avoin tieto, jossa kuluttaja pääsee käsiksi itseään koskevaan tietoon.

Tietojen yksi tärkeimmistä julkaisupaikka on Yhdysvaltojen julkishallinnon datakatalogi, data.gov, mutta dataa julkaistaan myös esimerkiksi organisaatioiden omilla verkkosivuilla.

Siltoja ja muuta tietoa Yhdysvalloista. Data.gov-verkkopalvelu 6.7.2013.
Siltoja ja muuta dataa Yhdysvalloista Data.gov-verkkopalvelussa (6.7.2013).

Dataa ja sovelluksia

Kansalaisen kannalta data ei yleensä ole sellaisenaan käyttökelpoista vaan tarvitaan sovelluksia, jotka muuttavat tiedon käyttökelpoiseksi arkipäivän käyttöön. Raportti mainitsee mm. seuraavat sovellukset ja niiden taustalla olevat datat:

Opinnot. Kouluihin, yliopistoihin ja opiskeluun liittyvää dataa on avattu paljon, joiden avulla esimerkiksi vanhemmat voivat valita lapselleen parhaiten sopivat opinahjot. Myös omat opintosuoritukset voi ladata koneluettavassa muodossa (oppilaitoskohtaisia eroja löytyy). Tietoja on esimerkiksi saatavilla osoitteesta education.data.gov, (jossa äsken vilkaistessa on esimerkiksi tilastoja siitä, miten paljon opiskelijoita milläkin opinahjolla on, miten moni osallistuu aamiaiselle ja mitkä ovat eri kampusten rikostilastot).

Energia ja ympäristö. Dataa on julkaistu esimerkiksi tuotteiden ja palveluiden energiatehokkuuteen, veden laatuun, saasteisiin ja jätteisiin liittyen. Yksi tärkeä toimintamuoto on “Green Button”, jonka avulla kuluttaja voi ladata itselleen oman energiakulutuksensa ja esimerkiksi kilpailuttaa sähköyhtiönsä.

Talous. Yrityksiin, sijoittamiseen, talouspalveluihin ja muihin talouden yksityiskohtiin liittyen on julkaistu paljon dataa.    Finanssisijoitustietoihin liittyen löytyy esimerkiksi palvelu, joka vertailee kuluttajien tekemiä sijoituksia ja tekee näiden pohjalta suosituksia ostoista ja myynneistä. Henkilökohtaiset luottokorttitiedot voi puolestaan pistää automaattitarkkailuun (tähän löytyy oma startup-verkkopalvelunsa), jotta saisi hälytyksen mikäli luottokorttiveloituksissa on epäilyttäviä veloituksia. Palvelu pohjautuu muiden kuluttajien tekemiin reklamaatioihin, joista on avoin tietokanta saatavilla.

Ruoka. Ravintoon, ravitsevuuteen, elintarvikkeiden turvallisuuteen liittyvää dataa ja paikkatietoa on julkaistu, josta jälkimmäinen sisältää esimerkiksi lähiruoan myyntipisteiden koordinaatit. Yksi sovellus ruokadatalle on ruokaympäristökartta “Food Environment Atlas”, joka on karttavisualisointi ruokavaihtoehdoista eri puolella Yhdysvaltoja. Kartasta selviää esimerkiksi, että New York Cityssä on tuhatta asukasta kohden 0,76 ruokakauppaa kun taas Las Vegasissa (ja lähialueella) vastaava luku on 0,15.

Kulkeminen. 78 % internetin käyttäjistä käyttää hakukoneita tietojen hakemiseen tuotteista ja palveluista, joita he harkitsevat ostavansa. Yksi tärkeä sovellustyyppi ovat tämän vuoksi valinta-automaatit (“choice engine”), jotka auttavat kuluttajia tekemään valintoja palveluihin ja tuotteisiin liittyen huomioiden monipuolisesti tuotteista saatavilla olevaa tietoa kuten tietoja tuotteiden vaaroista ja mahdollisista huonoista kokemuksista tuotteeseen liittyen. Esimerkiksi lentomatkaa ostaessa lentoyhtiöiden ajantasaisuustieto voi vaikuttaa siihen, millä yhtiöllä haluaa matkustaa.

Terveys. Raportin mukaan 80 % aikuisista käyttää internetiä hakeakseen terveyteen liittyvää tietoa. Terveyteen liittyvää tietoa on julkaistu paljon osoitteessa healthdata.gov. Omat terveystietonsa lataamalla itselleen (“Blue button”) voi esimerkiksi kilpailuttaa finanssipalveluitaan kuten (amerikkalaisen terveys)vakuutuksensa.

Turvallisuus. Kuluttajien ja kansalaisten turvallisuuden edistämiseksi on julkaistu dataa liittyen esimerkiksi liikkumiseen, lasten leluihin, terveystuotteisiin ja muihin kuluttajatuotteisiin, työpaikkoihin ja ympäristöön sekä tietoa tuotteiden takaisinkutsuista (esimerkiksi autojen viat).

Tietoliikenne. Dataa on saatavilla esimerkiksi laajakaistayhteyksien saatavuudesta eri puolilla Yhdysvaltoja.

Kuluttajien valitukset. Monet viranomaistahot keräävät tietoa kuluttajien valituksista esimerkiksi lentoihin, autoihin, kuluttajatuotteisiin ja taloustuotteisiin liittyen.

Yhdistelmät. Raportissa myös todetaan, että loppukäyttäjän kannalta vieläkin kiinnostavampia sovelluksia voi syntyä yhdistelemällä esimerkiksi edellä mainittuja tietoja toisiinsa. Esimerkiksi asuinpaikan valintaan voi vaikuttaa koulupalveluiden saatavuus, vapaa-ajanviettomahdollisuudet, ympäristön tila ja laajakaistan saatavuus. Datan yhdistämisen helpottamiseksi tavoitteena on raportin mukaan edistää esimerkiksi hyviä id-käytäntöjä, jossa esimerkiksi yrityksille annettaisiin pysyvä, yksilöivä tunnus (“Legal Entity Identifier” eli LEI) sen sijaan että tiedot yhdistettäisiin yritysten nimen perusteella, joissa on vaihtelevia kirjoitusasuja ja muita ongelmia.

data.gov-datasets-2013-07-06
75 716 tietokokoelmaa ladattavissa juuri nyt. (data.gov, 6.7.2013)

Amerikan oppeja

Raportissa luetellaan myös erilaisia asioita, joita tiedon julkaisemiseen liittyen on havaittu ongelmaksi tai hyviksi käytännöiksi. Tässä muutamia:

Koneluettavuus. Tiedot on pyritty julkaisemaan mahdollisimman käyttökelpoisessa, uudelleenkäytettävässä muodossa: koneluettavana (eksplisiittinen skeema), linkitettynä, metatiedoilla varustettuna ja ohjelmointirajapintojen (API) muodossa. Käytännön toteutukset vaihtelevat. Tietoja on ilmeisesti julkaistu ainakin XML:nä, RDF:nä, CSV:nä, Excel-tiedostoina ja tekstitiedostoina.

Yhteentoimivuus. Teknisiä standardeja (esim. skeemoja) on pyritty noudattamaan ja jossain määrin myös kehittämään eteenpäin (vaikka raportissa todetaankin, että standardointi ei ole Yhdysvalloissa julkisen hallinnon rooli.) Hallinnon eri osien tuottamien tietojen yhteentoimivuutta on pyritty edistämään esimerkiksi siten, että eri hallinnon haarat ovat yhteistyössä päättäneet missä muodossa tietoa julkaistaan.

Yksityisyys. Jokaisen julkaistun datan osalta yksityisyys on pitänyt huomioida. Osassa aineistoa tämä ei ole ongelma, osaa aineistosta on muokattu poistamalla henkilötiedot ja muut yksilöivät tiedot. Osa aineistosta on puolestaan saatavilla vain henkilölle itselleen (josta käytin edellä termiä “yksityinen avoin tieto”).

Tiedon laatu. Yksi raportissa mainittu lähestymistapa tiedon laadun varmistamiseen on ollut se, että kansalaiset ja muut toimijat voivat ilmoittaa huomaamansa puutteet tiedon julkaisijalle, jotta ne voidaan korjata. Eräänlaista yhteisöllistä tiedon laadun parantamista. Raportissa myös todetaan, että tieto voi olla alunperin tuotettu tiettyyn käyttötarkoitukseen, mutta kun tietoa käytetään johonkin muuhun käyttötarkoitukseen niin laadun kriteerit voivat muuttua.

Priorisointi. Kun hallinto päättää mitä tietoja julkaistaan – sisältäen ehkä erityisesti hallinnon ulkopuoliset tahot kuten yritykset, joita voidaan velvoittaa julkaisemaan tietoja – yksi tärkeä priorisointikeino on ollut seurata kuluttajien valituksia ja erilaisten sidosryhmien toiveita.

Käytön edistäminen. Julkishallinto on edistänyt erilaisin tapahtumin, kuten työpajojen, hackhatonien (poliittisesti korrektisti “code-a-thon”, kuten raportti asian ilmaisee) ja kilpailujen avulla datan käyttöä sovelluksissa, jotta mahdollisimman moni huomaisi saatavilla olevia tietoja ja innostuisi hyödyntämään sitä uusien palveluiden tarjoamiseksi kansalaisille.

Kustannukset. Datojen julkaisemisesta on syntynyt hallinnolle tapauksesta riippuen joko nettosäästöä tai -kustannuksia. Raportissa ei eritellä tämän tarkemmin tuloja ja menoja.

Julkaisunopeus. Tiedon julkaiseminen datana saattaa jossain tapauksissa nopeuttaa tiedon keräämisen ja julkaisemisen välisen ajanjakson lyhentämistä.

Raportin yhteenvetona todetaan, että tiedon saatavuus datana edistää kansalaisten etua arkipäivän päätöksenteossa. Tämän takia tietojen avaamista tulisi jatkaa, laajentaa ja tehostaa. Raportissa suositellaan, että tiedon avaamisen tulisi olla osa hallinnon organisaatioiden ydintoimintatapoja ja mainitaan, että julkaistut tiedot tulee linkittää ja kuvailla metatiedolla datakatalogeissa (kuten data.gov).

Lähde: Smart Disclosure and Consumer Decision Making: Report of the Task Force on Smart Disclosure. Executive Office of the President – National Science and Technology Council, 2013.

Globaalin kylän lapset

1960-luvun kulttisarja The Prisonerin tapahtumat sijoittuvat suljettuun kylään, jossa ihmiset kokevat elävänsä onnellisena siitä huolimatta, että heidät on numeroitu ja heitä tarkkaillaan. Vain yksi heistä, numero 6, ei suostu tähän vaan haluaa olla individuaali – vapaa ihminen, ilman numeroa, ilman kylän rajoja.

Prisonerissa tieto kasaantui johtajille (numerot 1 ja 2) kun taas todellisen maailman kylässä tieto hajaantuu asukkaiden kesken. Kylässä kyllä tiedetään kuka kukin on. Jos teet jotain poikkeuksellista – hyvässä tai pahassa – naapurin rouva, koulun vahtimestari tai lihakauppias kyllä huomaa ja puuttuu peliin. Suurkaupungissa olet puolestaan anonyymimpi ja voit usein olla enemmän oma itsesi. Ihmisiä on liikaa, jotta heitä voisi kasvattaa yhteisiin normeihin. Kaupungissa löytyy ehkä myös herkemmin muita samanhenkisiä – myös oudoille linnuille.

Sanotaan, että lapsen kasvattamiseen tarvitaan koko kylä. Millaisia ihmisiä kylä tuottaa? Millaisia suurkaupunki? Kumpi on parempi?

Digitalisoituminen helpottaa elämää. Samalla se tarkoittaa sitä, että sisimmät ajatuksemme, sosiaalinen kanssakäyntimme, liikkumisemme, ostoksemme, terveydentilamme ja kiinnostuksen kohteemme tallentuvat puheluiden, sähköpostien, paikkatiedon, transaktioiden ja muissa muodoissa isoille kovalevyille eri puolelle planeettaamme.

Mitä enemmän tietoa meistä tallentuu, sitä lähempänä olemme globaalia kylää, jossa kuka tahansa tai ainakin joku tietää meistä hyvin paljon. Vain ääneen lausumattomamme ajatuksemme ovat vielä yksityisiä – toistaiseksi.

Millaiseksi ihminen muuttuu kun hänet tallennetaan täysin? Millaisia ovat globaalin kylän lapset?

Kylä. Lähde: Wikipedia.
Kylä tarkkailee sinua. Lähde: Wikipedia.

Vapaus kylän keskellä

Mitä sitten pitäisi tehdä, jos haluaisi saavuttaa “suurkaupungin” anonymiteetin digitaalisen tiedon ja tarkkailun keskellä?

Käytännössä tämä tarkoittaisi sitä, että alkuun pitäisi päästä eroon tai vaihtaa kaikki sellaiset tunnisteet, joilla sinut on tallennettu tietokantoihin: nimi, puhelinnumero, osoite, henkilötunnus, pankkitilien ja luottokorttien numerot, työpaikan henkilönumerosi, käyttäjätunnuksesi, sähköiset kulkukorttisi jne. Lisäksi olisi hyvä vaihtaa kaikki fyysiset piirteet ja tunnisteet, DNA, sormenjäljet, iirikset, käsiala, kävelytyyli, puhetyyli, ulkonäkö…

Jotta et heti paljastuisi, niin luonnollisesti kanssakäyntiä kenenkään nykyisten perheenjäsenten, ystävien ja tuttavien kanssa pitäisi täydellisesti välttää, koska heitä tarkkaillaan jo. Älä myöskään sano tai kirjoita mitään. Hengittäminenkin on vähän siinä ja siinä.

Päänsisäiset ajatukset ovat sallittuja. Toistaiseksi.

PS. Ehkäpä tästä voisi muotoilla Prisonerin jalanjälkiä seuraavan yhteiskunnallisen kokeen ja reality-tv-sarjan, jossa joukko vapaaehtoisia yrittäisivät saavuttaa anonyymiyden suorittamalla täydellisen katoamisen digitaalisen kyläyhteisön piiristä vuodeksi siten, että he kuitenkin pystyvät elämään päivittäistä elämäänsä fyysisesti keskuudessamme. Eristäytymistä tundralle ei hyväksytä.

Avoin, suljettu, luovutettu, varastettu

Viime aikojen tietovuodoista voi jälleen todeta, että digitaalisen tiedon (data) vahvuuksia ja haasteita on se, että jos tieto on olemassa, sitä aletaan käyttämään tavoilla, joita alunperin ei tullut mieleenkään. Tätä pyritään valjastamaan niin hyvään ja pahaan.

Avoin. Avoimen tiedon ideana on julkaista julkisin varoin tuotetut tiedot vapaasti kaikkien saataville, jotta maksimoitaisiin uusien oivallusten määrä, joka datasta on tehtävissä. Tämän toivotaan edistävän yhteiskunnan toimivuutta ja tuovan myös verotuloja valtion kassaan. Samansuuntaisia ajatusmalleja siitä, että yleisen hyvän edistämiseksi tiedon tulee olla vapaasti saatavilla ovat edustaneet jo pidempään esimerkiksi Wikipedia ja sitäkin huomattavan paljon pidemään esimerkiksi kirjastolaitos ja tiedeyhteisö.

Nyky-yhteiskunnan toimivuuden kannalta on myös välttämätöntä, että osa tiedoista on julkisia, kuten esimerkiksi juna-aikataulut, kartat ja appelsiinien hinnat. (Toisessa maailmansodassa liittoutuneet tarkkailivat Pariisin appelsiinien hintoja ja päättelivät tästä ovatko rautateiden pommitukset onnistuneet.)

Suljettu. Samalla kun julkishallinnot eri puolilla maailmaa avaavat tietojaan niin ne myös (salaisesti) imevät käyttöönsä yhä enemmän ihmisiin ja organisaatioihin liittyvää yksityistä tietoa esimerkiksi puheluiden metatietojen, Facebook-postausten ja sähköpostien muodossa. Yksityinen tieto muuttuu eräänlaiseksi avoimeksi tiedoksi – julkishallinnon omaan käyttöön.

Yhteiskuntarauhan ylläpito sekä rikollisuuden ja terrorismin estäminen ovat tärkeitä asioita. Samalla voi luottavaisesti varautua siihen, että kaikki mitä arkielämässään tekee päätyy isoveljen tai naapurin syyniin ennemmin tai myöhemmin.

Puhelin vuodelta 1896.
Kenelle sinä olet soitellut tänään? Lähde: Wikimedia.

Tiedon kertyminen on osittain teknologinen välttämättömyys. Esimerkiksi digitaalinen puhelinliikenne kännyköihin ei voi toimia, ellei järjestelmä jatkuvasti tiedä minkä maston alueella mikäkin puhelin sijaitsee. Sähköposti ei voi päätyä perille, mikäli sähköpostissa ei lue vastaanottajan osoitetta. Tämä ei kuitenkaan pakota tallentamaan lokitiedostoihin vuosien ajaksi tietoa siitä, kenelle kukakin soitti – ainakaan sen jälkeen kun puhelinlasku on maksettu – tai kenelle sähköposti lähetettiin.

Luovutettu. Osittain tietoa taas kertyy, koska uudet digitaaliset liiketoimintamahdollisuudet kuten sosiaalinen media perustuvat siihen, että käyttäjät luovuttavat hieman enemmän tietojan itsestään saadakseen uudenlaisia palveluita itselleen. Yritys voi tämän jälkeen myydä käyttäjätietoja hyödyntäen esimerkiksi paremmin kohdennettuja mainospaikkoja kolmansille osapuolille (esim. Google, Facebook) tai parantaa omaa palveluaan ylivoimaiseksi kun se tietää mistä käyttäjät ovat kiinnostuneita (esim. Netflix).

Varastettu. Välillä tietoa myös vuodetaan ja varastetaan niin valtioiden, rikollisten kuin yksittäisten kansalaisten toimesta. Lopputuloksena on se, että jokin uusi taho saa tietää sellaista, mitä sillä ei aiemmin ollut. Kun tieto on kerran lähtenyt liikkeelle ei sitä pysty enää pysäyttämään, koska jollain saattaa aina olla kopio.

…jonka jälkeen kaikilla on sama haaste: mitä tiedolla tehtäisiin?

Kaikki digitaalisen tiedon kanssa tekemisissä olevat pohtivat samoja peruskysymyksiä: Millaisia säännönmukaisuuksia ja yhteyksiä tiedosta on löydettävissä? Mitä poikkeamia on havaittavissa? Mitä tietoa puuttuu? Mitä uutta voi päätellä yhdistelemällä eri tietolähteitä toisiinsa? Miten isoista tietomääristä kaivetaan oleellinen tehokkaasti?

Miten esimerkiksi säätietoja, valtion budjettidataa tai kaupungin puurekisteriä voisi hyödyntää poliittisten päämäärien tai rikollisten etujen edistämiseksi? Miten puolestaan puhelumetatietoja, sähköposteja, terveystietoja ja Facebook-postauksia voitaisiin analysoida yleisen hyvän, yhteiskunnan eduksi tai liiketoiminnan edistämiseksi?

Ero avoimen, yksityisen, luovutetun ja varastetun tiedon välillä on teknisesti olematon, vaikkakin laillisesti ja moraalisesti usein merkittävä. Kaikki digitaalinen tieto muuttuu julkiseksi – ennemmin tai myöhemmin, vahingossa tai tarkoituksella.

Älä keksi leijonaa uudelleen!

Luen parhaillaan Louis Rosenfeldin ja Peter Morvillen vuosituhannen vaihteessa kirjoittamaa klassikkoteosta “Information Architecture for the World Wide Web” (O’Reilly, 2002). Kirja käsittelee sitä, miten isojen verkkosivustojen (kuten vaikkapa Amazon.com) sisällöt järjestetään siten, että sisällön löydettävyys ja sivuston käytettävyys maksimoidaan huomioiden esimerkiksi käyttäjien tarpeet, liiketoiminnan tavoitteet ja sisällöntuotannon reunaehdot.

Informaatioarkkitehtuurin kysymyksiä ovat esimerkiksi navigaatiohierarkiat, hakutoiminnot, mitä metatietoa sisältöön liittyen tuotetaan, millaisia luokituksia sisällön kuvailuun käytetään, millaisia sisällöntuotantoprosesseja tarvitaan ja miten kaikki saadaan toimimaan. Informaatioarkkitehtuuria tehdään yhteistyössä käyttöliittymä-, ulkoasu-, sisältö-, liiketoiminta- ja teknologia-asiantuntijoiden kanssa. Tavoitteena on luoda toimivia ja kestäviä perusperiaatteita, joiden varaan sivuston muodostama sisällöllinen korttitalo kasataan.

icebergOivallinen kiteytys informaatioarkkitehtuurin eri ulottuvuuksista
(Lähde: What is Information Architecture)

Kirja on hyvä ja suosittelen lukemaan. Nimestään huolimatta “Information Architecture for the World Wide Web”-kirja käsittelee kuitenkin vain yksittäisten verkkosivujen informaatioarkkitehtuuria, ei koko webin. Millainen olisi koko webin informaatioarkkitehtuuri?

Verkkosisällöt yhteismitalliseksi

Semanttinen web on (vuonna 2001 esitetty) visio tulevaisuuden webistä, jossa eri sivustoilla olevat sisällöt  kytketään yhteen linkitetyksi tiedoksi siten, että samaa tarkoittavat asiat linkitetään toisiinsa yhteismitalliseksi, verkkomaiseksi tietorakenteeksi.

Esimerkiksi Suomen kulttuurisisältö on hajautuneena monenlaisten eri organisaatioiden syövereihin. Kullervo löytyy maalattuna Ateneumista, kirjoitettuna Suomalaisen kirjallisuuden seuran arkistoista, laulettuna Ylen arkistoista ja Lönnrotin koti Lohjalta. Näihin liittyy käsitteitä kuten Kalevala, Kullervo, Lohja ja Lönnrot, jotka liittyvät toisiinsa eri tavoin. Ihmiselle näiden eri asioiden yhdistäminen on luontaista, mutta tietokoneelle vaikeampaa.

Linkitetty tieto, avoin tieto ja semanttinen web ovat eri tulokulmia samaan asiaan: eri tietokannoissa ja verkkosivuilla sijaitsevan tiedon hyödynnettävyyden parantamista. Vaikka alkuinnostus semanttisesta webistä on jo laantunut, niin perusidea semanttisesta webistä on yhä kiinnostava. Lisäksi se on vaivihkaan muuttumassa todeksi.

Suomen julkishallinnossa ollaan parhaillaan ottamassa käyttöön semanttisen webin toimintaperiaatteita (kts. esiselvitys Julkishallinnon metatietopalvelusta, ontologiapalvelu Onki), jonka tavoitteena on edistää kuntien, valtion ja muiden tahojen satoihin tai tuhansiin eri verkkosivuihin ja tietojärjestelmiin hajautuneen tiedon löydettävyyttä ja yhteiskäyttöä sekä tietojen julkaisemista avoimena tietona.

Jaetut käsitteistöt (ontologiat ja sanastot) ja olemassa olevat linkitetyt tietokokoelmat tarjoavat informaatioarkkitehtuurin kiintopisteitä, joihin eri tiedontuottajat voivat kytkeä sisältöjään. Esimerkiksi miljoonia eri asioita käsittelevä Wikipedia toimii kansainvälisen linkitetyn tiedon pilven keskipisteenä. Jos haluat puhua leijonista, niin viittaa Wikipedian leijoniin.

Lion_waiting_in_Namibia
Tämä leijona on lainattu Wikipediasta matkakulujen säästämiseksi ja toisteisen työn vähentämiseksi.

Semanttinen informaatioarkkitehtuuri

Informaatioarkkitehtien kannalta semanttisen webin ideat sekä helpottavat että vaikeuttavat työtä.

Yksittäisen verkkosivuston (tai tietojärjestelmän) informaatioarkkitehtuurissa voidaan hyödyntää valmiita luokitteluita ja käsitteitä, joka säästää aikaa. Samalla tiedon yhteismitallisuus paranee, jos eri järjestelmissä käytetään samoja tunnisteita tiedon kuvaamiseen.

Yhteismitallisuus parantaa myös tiedon hyödynnettävyyttä, jos tieto julkaistaan avoimen tietona. (Avoin linkittämätön tieto vaatii käyttäjältään enemmän toimenpiteitä, joten sen käyttöarvo on pienempi kuin pidemmälle jalostettu linkitetty tieto. Toki jossain tapauksissa linkittämätön tieto on täysin riittävää ja parempi sekin kuin ei tietoa laisinkaan.)

Yhä tärkeämpää on myös osata hyödyntää valmiiksi saatavilla olevia avoimia sisältöjä, sanastoja jne, jotta oma työ suuntautuu lisäarvon luomiseen eikä toisteisen työn tekemiseen. Jos esimerkiksi Wikipediassa on jo jokin tieto valmiina, niin tätä avointa tietoa kannattaa käyttää hyödykseen.

Vaikeutta puolestaan lisäävät se, että jaettuja käsitteistöjä ja linkitettyä tietoa hyödyntäessä tulee samalla pohtia ovatko oman sivuston tarpeet ja näkökulmat yhteensopivat jaetun tiedon kanssa. Esimerkiksi lääketieteellinen sanasto on yleensä luotu lääkäreiden näkökulmasta pohjautuen tieteelliseen tutkimukseen, jota tavis ei ymmärrä vaikka yrittäisi. Todennäköisesti  selkokielisempi lähestyminen sisältöön tuottaa paremman käyttökokemuksen, jos kohderyhmänä ovat lääketieteen yksityiskohtiin perehtymättömät henkilöt.

Voittajia ovat ne verkkopalvelut, joissa parhaiten ymmärretään käyttäjän tarpeet, miten käyttäjälle tuotetaan ainutlaatuista lisäarvoa ja miten tämä arvo tuotetaan kustannustehokkaasti. Jos saman sisällön ja hyödyt saa muualta helpommin, nopeammin ja halvemmalla, niin edellytykset pärjäämiselle lienevät heikot.

Kilpailukykyisen verkkopalvelun suunnittelun avainasemassa saattavatkin siis tulevaisuudessa olla semanttiset informaatioarkkitehdit, jotka luovat yhteentoimivia verkkosisältöjä hyödyntäen omia ja verkosta saatavia, olemassa olevia sisältöjä jalostaen samalla oman palvelunsa ainutlaatuisia menestystekijöitä ja lisäarvoa.

PS. Teknologian vaikutuksia liioitellaan usein lyhyellä tähtäimellä ja vähätellään pitkällä tähtäimellä. Ehkä semanttinen web tulee sittenkin – mutta vasta sitten kun useimmilta loppui jo usko?

Tiedon säilyttämisen tuskaa

Avokelanauha pyörii vaan ei sammaloidu.
Avokelanauha pyörii vaan ei sammaloidu.
(Lähde: Yle Armi)

Keskiviikkona kävin tutustumassa Yleisradion kellareihin ja takahuoneisiin, joissa on tuhansia kuutiometrejä Suomen audiovisuaalista jalanjälkeä – siten kuin se on Ylen linssien ja mikrofonien kautta tallentunut. Valokuvia, filmejä, ääninauhoja, cd-levyjä, videonauhoja ja dokumentteja jopa 1800-luvulta lähtien, mutta pääosa materiaalista on noin 1930-luvulta eteenpäin.

Ylen kellareissa Suomi sotii ja itsenäistyy, kansainvälistyy ja levittää rauhaa, voittaa Euroviisuja ja jääkiekkoa, valitsee uusia presidenttejä ja hautaa edellisiä sekä soittaa lukemattomia tunteja toivottua ja epätoivottua musiikkia. Sieltä löytyy vaikkapa avokelanauha, jolla Mannerheim ja Hitler keskustelevat Immolan kentän lähettyvillä vuonna 1942. Jotensakin jännää hypistellä tällaista nauhaa kädessään.

Digitaaliseen tietoon tottuneelle fyysiset arkistot ovat järkytys. Sen sijaan, että tieto olisi tarjolla milloin tahansa nappia painamalla kovalevyltä tai pilvestä, niin tieto onkin tallennettuna pääosin analogisessa muodossa fyysiselle ja herkälle materiaalille, jota pitää helliä sopivalla lämpötilalla, kosteudella, valaisulla ja oikeilla käsittelytavoilla. Milloin tahansa aineisto voi tuhoutua – tai ainakin siltä minusta tuntuu.

Digitointi.

Materiaalia siirretään fyysisestä muodosta digitaaliseksi kovaa vauhtia, mutta työ kestää vielä vuosikymmeniä.

Tiedonhaku fyysisessä arkistossa tarkoittaa sitä, että ensin paikallistetaan muistiinpanoista (fyysinen kortisto tai digitaalinen tietokanta) millä nauhalla tai muuhun objektiin tieto on tallennettu, missä varastossa se sijaitsee, kävellään sinne, haetaan hyllykilometrien keskeltä oikea kohta, otetaan objekti käteen, puhdistetaan pölyt ja roskat, otetaan käyttöön sopiva lukuväline (esimerkiksi videonauhoja on erilaisia, kullekin oma nauhurinsa), säädetään erilaiset analogiset tasot ja mittarit kuntoon, painetaan play… jolloin ruudulle ponnahtaa kuvaa ja ääntä vaikkapa 1950-luvun Suomesta.

Ei digitaalisuus ole sinänsä ongelmatonta. Digitaalisuus mahdollistaa virheettömien kopioiden tekemisen, joka helpottaa tiedon säilyttämistä ja siirtämistä, mutta hankaluutena on se, että tiedostoformaatteja on lukemattomia ja niitä keksitään jatkuvasti lisää. Jos joskus tulevaisuudessa kävisi niin, että digitaalisen arkiston formaattia ei pystyisi enää avaamaan, olisi jäljellä vain käyttökelvoton digitaalinen mössö. “Nauhuri” olisi hukassa.

Tulevaisuudessa tiedon säilyvyyden kannalta lienee siis tarpeellista tehdä paitsi varmuuskopioita niin myös säännöllisiä formaattimuutoksia vanhemmasta digiformaatista tuoreempaan, yhteentoimivuuden varmistamiseksi.

Digitointi ei siis poista tiedon säilyttämisen tuskaa – tuskanhiki vain muuttaa muotonsa analogisesta digitaaliseen. Arkistohommista tulee nörttihommia.

PS. Teknisesti yksi jännimmistä vempaimista Ylen arkistoissa on nauharobotti, johon ladataan jopa 40 BetacamSP-nauhaa kerrallaan. Robotti syöttää nauhoja nauhureihin ja digitoi automaattisesti nauhojen sisällöt talteen. Myös avokelanauhojen digitoinnissa käytetään rinnakkaisprosessointia: neljä nauhaa digitoidaan rinnakkain ja laatua tarkkaillaan pistokokein.