Avointa dataa hyödyntävä väestöennustegeneraattori täydentää Tilastokeskuksen ennustetta

Joka kolmas vuosi Tilastokeskus päivittää kuntakohtaisen väestöennusteensa. Tällä hetkellä tuorein käytössä oleva ennuste alkaa vuodesta 2019, ja seuraava päivitys on vasta vuonna 2021. Tämä Tilastokeskuksen tuottama aineisto on käytössä ja hyödynnettävissä valtakunnallisesti. 

Voisiko väestöennustetta generoida myös muulla tavoin ja tiheämmin kuin joka kolmas vuosi? Ainakin teknologisesta näkökulmasta katsottuna se on mahdollista. Turun kaupungilla työskentelevä datakehityspäällikkö Tuomas Poukkula on vastikään koodannut Tilastokeskuksen avointa dataa lukevan uuden väestöennustegeneraattorin, joka parhaimmillaan täydentää Tilastokeskuksen omaa ennustetta.  

Mistä idea generaattoriin sai alkunsa? ”Lähdin pohtimaan sitä, millä tavoin väestöennustetta voitaisiin tuottaa yksinkertaisesti ja jakaa avoimesti”, Poukkula kertoo. ”Oma työtaustani väestöennusteiden kehittämisessä koneoppimisen avulla ja toisaalta avoimen teknologian hyödyntäminen mahdollisti idean toteuttamisen.” 

Varsinainen palvelu oli pystyssä muutaman päivän työn jälkeen. Generaattorin koneoppimisen kehittäminen otti kuitenkin reilusti enemmän aikaa. Myös väitöskirjaa Turun yliopistolle valmisteleva Poukkula kertoo, että koneoppimisen hyödyntäminen väestöennusteen tekemisessä haastaa kokonaisvaltaisesti perinteisemmän tavan tuottaa tilastotietoa. ”Koneoppiminen on useammilla tutkimusaloilla ennustamisen valtavirtametodologia, mutta väestön ennustamisessa vielä melko vähän käytetty. Perinteinen väestöennusteen tekemistapa perustuu väestön useiden demografisten muuttujien perusteella luotuihin sääntöihin. Koneoppimisessa tekoäly päättelee itse säännöt historiadatan perusteella”, Poukkula tarkentaa. 

Koneoppivassa ennustamisessa ei siis tarvita niin paljon väestön lukumäärän kehitystä selittäviä muuttujia kuin perinteisissä malleissa. Sen sijaan tarvetta on datalla itse väestön lukumäärästä ja sen muutoksesta aiemmilta vuosilta. ”Selittävien muuttujien lukumäärä ei välttämättä korreloi ennusteen laadun kanssa, kuten intuitiivisesti voisi ajatella”, Poukkula muistuttaa. ”Tekoälypainotteisessa tutkimuksessa painopiste onkin enemmän ennusteen laadun arvioinnissa kuin sääntöjen kehittämisessä.” 

Poukkulan kehittämän generaattorin avulla kunnat siis pääsevät kokeilemaan, miten tekoäly tukee väestöennusteen tekoa. ”Erityisesti pienet kunnat, joilla on vähän resursseja kehittää itse omia digiratkaisuja, saavat näin helposti lähestyttävän ja ilmaisen tavan hyödyntää tekoälyä väestönsä ennustamisessa”, Poukkula arvelee. ”Väestön lukumäärän arvioinnista on esimerkiksi hyötyä silloin, kun tietyille ikäryhmille suunnitellaan palveluja ja tarvitaan tietoa ikäryhmän koosta.” 

Poukkulan generaattorin tuloksia voi palvelussa soveltuvin osin myös verrata toteutuneeseen väestöön sekä Tilastokeskuksen tekemään väestöennusteeseen. ”Näin tulosten laatua on entistä parempi itse arvioida”, Poukkula lisää. ”Myös sovelluksen lähdekoodi on jaossa avointa jatkokehitystä varten.” 

Tuomas Poukkulan väestöennustegeneraattoria voi kokeilla osoitteessa: http://vaestometsa.herokuapp.com/ 

Poukkula on kehittänyt myös covid-19 -tartuntojen määrää ennustavan generaattorin, joka löytyy osoitteesta: http://koronalasso.herokuapp.com/ 

Tagit