Yksi tärkeimmistä syistä investoida Alteryxin ja Tableaun edistyneen ja visuaalisen analytiikan työkaluihin on vähentää manuaalista datan syöttämistä, muokkausta, yhdistelyä, laskentaa ja jakamista. Huolimatta näistä helppokäyttöisistä moderneista ohjelmistoista, tulee vastaan tilanteita, joissa datan syöttämiseen ja valmisteluun tarvitaan Excelin tai Google Sheetsin kaltaisia taulukkolaskentaohjelmia. Ikävä kyllä, monet ongelmat data-analytiikassa johtuvat huonosta datan laadusta, joka taas johtuu manuaalisen datan käsittelyn virheistä. Yksi tyypillisimpiä virheitä on, että dataa luodaan ja käsitellään vain itseä tai ihmissilmää varten eikä oteta huomioon data-analytiikan ja konelukemisen vaatimuksia.

Alteryxilla raakadatan muokkaaminen on helppoa muodosta ja laadusta riippumatta. Tableau taas on riippuvaisempi raakadatan laadusta, joten datan luomiseen ja järjestelyyn tulee kiinnittää huomiota. Tarjoamme tähän tarpeeseen tehokasta Data Management -koulutusta, jossa perehdytään Desktopin ja Serverin arkkitehtuuriin, datayhteyksiin, datan muotoon ja järjestämiseen, dataekstraktien toimintaan, hallintaan ja julkaisuun, ja useiden datalähteiden kanssa työskentelyyn. Kurssikuvauksen voit ladata täältä.

Broman & Woo (2017) ovat kirjoittaneet yhden parhaista lukemistamme taulukkolaskentaohjelmia ja datan laatua koskevista artikkeleista: Data Organization in Spreadsheets (The American Statistician, DOI: 10.1080/00031305.2017.1375989). Akateemisesta lähteestään huolimatta artikkeli on helppolukuinen ja tarjoaa hyvin käytännönläheistä oppia. Olemme tiivistäneet artikkelin tärkeimmän sisällön alle helpoksi listaksi, mutta suosittelemme artikkeliin tutustumista jokaiselle excel-käyttäjälle. Tämän artikkelin sisällön pitäisi olla nykypäivänä jo osa peruskoulun opetussuunnitelmaa!

12+1 perusteesiä hyvän datan laadun varmistamiseksi

  1. Ole johdonmukainen luodessasi ja muokatessasi dataa
  2. Valitse edustavat ja ymmärrettävät nimet ja koodaukset
  3. Luo päivämäärät muodossa YYYY-MM-DD
  4. Älä jätä taulukkoon tyhjiä soluja
  5. Kirjaa vain yksi asia yhteen soluun
  6. Tee yhdelle sivulle vain yksi taulukko, jossa otsikot ovat ekalla rivillä ja data alla riveittäin
  7. Luo aina datastasi erillinen mäppäys/hakemisto
  8. Älä tee laskentoja raakadataan
  9. Älä käytä värejä tai muotoiluja datan kategorisointiin
  10. Varmuuskopioi riittävän usein
  11. Varmista, että syöttämäsi data on sarakkeen otsikon mukaista
  12. Tallenna valmis datasetti CSV-tiedostona

+1. Tilaa Solutiven Data Management -kurssi! Ota yhteyttä!

Artikkeli: Broman & Woo (2017): Data Organization in Spreadsheets, The American Statistician; DOI: 10.1080/00031305.2017.1375989
on ladattavissa PDF:nä mm. täältä: https://www.tandfonline.com/doi/full/10.1080/00031305.2017.1375989

Get Free Widget