tiistai 20. joulukuuta 2016

Trafin avoin data

Trafi julkaisee aina kvartaaleittain Suomessa rekisteröityjen ajoneuvojen tilaston. Jokainen voi itse tutkia aineistoa ja esimerkiksi vertailla montako tiettyä pyörää on Suomessa sillä hetkellä liikenteessä. Alkuun selailin näitä parilta harrastesivustolta, mutta niissä on päivitykset loppuneet, joten piti alkaa itse näitä kaivelemaan ja opettelemaan.

Tässä palikkaohjeet ja vinkkejä ei niin tietokonehenkiseltä tavikselta, jolla aineiston saa luettavaan muotoon. Varmasti muitakin tapoja on, mutta tämä on toiminut omilla koneilla hyvin. Ongelmia helposti aiheuttaa parikin seikkaa:
- data on .csv -muodossa eli sellaisenaan vain kelvotonta merkkijonoa
- dataa on niin iso tiedosto, että esim Excel ei suoraan sitä saa avattua ja osa tiedoista ei mahdu Exceliin (jonka rajoitus on jotain n. miljoonan rivin luokkaa)
- data sisältää vain liikennekäytössä olevat ajoneuvot. Moottoripyörille liikennekäytöstäpoisto tuli marraskuussa 2015, joten sen jälkeen tiedot ovat aina puutteellisia, koska pyörät on poistettuna liikenteestä. Erityisesti talven aineistot ovat pieniä tästä johtuen.
- data on virheellistä. Kyseessä on ns. raakadata ja siellä on katsastusmiehet joskus kirjailleet väärillä tiedoilla, tai tietoja puuttuu. Tästä johtuen tiettyä pyörämallia kannattaa opetella hakemaan rajaamalla ns. varmoja tietoja.

Halusin selvittää paljonko Suomessa on todellisuudessa Honda VTR 1000 SP-1 ja SP-2 pyöriä. Alla olevalla tavalla pääsin melko tarkkaan lopputulokseen. Halutun pyörämallin osalta kannattaa vähän tutkia tilavuutta, tehoa, mallinimiä jne. koska yksillä ainoilla arvoilla jää paljon pyöriä haun ulkopuolelle.

1) Lataa uusin avoin data, versio 4.7 Trafin sivuilta. Vanhoja datapaketteja löytyy googlella esim. hakusanoilla "Trafi avoin data 4.3". Versiot menevät näin:
4.7 julkaistu Q3/2016
4.6 julkaistu Q2/2016
4.5 julkaistu Q1/2016
4.4 julkaistu Q4/2015
4.3 julkaistu Q3/2015 jne.

Näistä erityisesti versio 4.3 on hyvä moottoripyörien kannalta, koska se on viimeisin ennen em. liikennepoistouudistusta. 4.4:ssa jo näkyy muutaman "early birdin" tekemä poisto, sen jälkeisissä vieläkin enemmän. Sitä ennenhän pyörät oli kaikki "rekisterissä" vaikka ne oli seisonnassa. Tämä on melkein paras aineisto etsiä vanhempia pyöriä, koska sen jälkeen aineistossa näkyy liikennepoistojen määrä selvästi.

2) Pura ladattu zip-tiedosto ja avaa se Access-ohjelmalla (Tiedosto->Avaa->). csv:n saa lukukelpoiseksi kun valitsee soluerottajaksi puolipisteen, sen jälkeen vain koko roska auki. Tarkempia ohjeita löytää googlella esim. "open csv access". Access siksi, koska Excel ei vielä osaa käsitellä tiedostoa kokonaisuudessaan.

3) Suodata dataa. Kannattaa aloittaa rajaaminen vain "varmoilla" hakuehdoilla. Aina kannattaa myös valita haetun tiedon lisäksi tyhjä arvo, koska kyseinen data voi puuttua jonkun yksilön kohdalta.
- Ensin valitsen vain L3 ja L3e ajoneuvoluokat (kenttä 1). Tämä sisältää vain mp:t ja jättää autot jne massan pois ja tiedosto on täten helpompi käsitellä pienempänä.
- Suodata merkin mukaan: Honda (kenttä 25)
- Suodata kuutiotilavuuden (cc) mukaan: 999 (kenttä 20)
- Suodata tehon (kW) mukaan joko tyhjä, 97 tai 99. 97kW oli SP-1 teholukema ja 99kW SP-2:sen (kenttä 21)
- Suodata vielä mallinimen mukaan. Näitä on kaksi kenttää: kentät 26 ja 29. Molemmista mukaan tyhjä, sekä kaikki VTR1000SP.... versiot, sekä RVT1000 versio (USA-malli).
- jäljelle jää enää vain n. 4-5 muuta kuin SP-1 tai SP-2 pyörää ja ne on helppo poistaa painon, käyttöönoton jne perusteella.

4) Tässä vaiheessa kopioin Accessissa näkyvät solut Exceliin koska jotenkin sitä on jouhevampi käyttää, helppo säätää sarakeleveydet kuntoon, tehdä tarvittavia kaavoja jne. Ja otsikkoriville on hyvä laitta suodattimet jokaiselle sarakkeelle. Helpottaa hakua.

5) Data sisältää myös kuntatiedon numeroina (kenttä 33) . Sen saa luettavaksi hakemalla kuntanumerot vaikka Wikipediasta ja kopioimalla listauksen erilliselle välilehdelle. Sitten lisäämällä uuden sarakkeen ja Excelin PHAKU-kaavalla saa haettua kaikki kuntanumerot tekstiksi, jotta on helpompaa tutkailla paikkakuntia.

6) Taulukkoa on nyt helppo lukea. Mielenkiintoisia on tietysti käytetyt mallinimet (kentät 26 ja 29). Tässä tapauksessa niitä on esim (tyhjän lisäksi):
VTR1000SP-1-SC45A/999
VTR1000SP-2-SC45A/999
VTR1000SP-1-SC45A
VTR1000R-SC45E/999
VTR1000-SC45
RVT1000R-SC45A/999
VTR1000SP-1-SC45A/999 999cm3
VTR1000SP-2-SC45A/999  999cm3
VTR1000
VTR1000SP
VTR SP1

VTR 1000 SP-1

Muutama yksilö on kokonaan ilman mallitietoja, mutta mallin saa varmennettua teknisillä tiedoilla helposti.

Myös käyttöönottopvm (kenttä 7) ja ensirekisteröintiovm  (kenttä 2) on arvokkaita. Käyttöönottopvm on luonnollisesti päiväys jolloin pyörä on otettu ensimmäisen kerran käyttöön Suomessa tai ulkomailla. Ensirekisteröinti taasen kertoo koska pyörä oli Suomeen rekisteröity. Näiden erotus paljastaa käytettynä maahantuodut pyörät. Ns. Suomi-pyörissä molemmat pvm-tiedot on samat. Tästä myös näkee miten minäkin vuonna on näitä uutena myyty Suomessa.

Taulukosta näkee myös paino, pituus, korkeus tms. tietoja, mutta monen kohdalta ne on puuttuvia. Samoin kentän 31 kertova tyyppihyväksyntänumero voi olla tarpeellinen jossain tilanteessa.

Enimmillään Trafin tiedoissa (versiossa 4.3 eli Q3/2015 tilanne) on ollut yhteensä 78kpl SP-1 ja SP-2 pyöriä. Näistä SP-1:siä on 56kpl ja SP-2:sia 22kpl. Listalta voi puuttua vielä joku yksittäinen pyörä puuttuvien tietojen vuoksi sekä tietysti rata/kisapyörät joita ei ole koskaan rekisteröity (tai poistettu lopullisesti rekisteristä), sekä tietysti maahantuodut pyörät, joita ei ole vielä tuolloin rekisteröity. Katsoin vielä Tullin sivuilta vuosien 2015 ja 2016 maahantuodut pyörät eikä niissä ole yhtään SP-1 tai SP-2 maahantuotuna ja verotettuna, joten tuo 78kpl enimmillään kilvissä on aika lähellä totuutta.

Pienimmillään em. malleja on ollut tällä hetkellä uusimmassa 4.7 versiossa. Yhteensä 50kpl.

Minusta avoin data on hyödyllinen erityisesti niille malleille, joita on Suomessa vähän. Netissä ja bensa-asemalla aina törmää juttuihin miten sitä ja tätä mallia on vain se 1 kpl Suomessa, mutta listalla on kyllä todella harvinaisia pyöriä useita. Suomessa vaan tahdotaan pitää tiedot omina ja kateellisille naapureille ei mitään kerrota.




Ei kommentteja:

Lähetä kommentti