Data

Tuloksellista analyytiikkaa varten datan tulee olla saatavilla helppokäyttöisessä ja tietoturvallisessa muodossa. Kaikki alkaa tarkoituksenmukaisen data-arkkitehtuurin suunnittelusta, datan muotoilusta ja varastoinnista analytiikkaa varten.

Data-arkkitehtuuri

Tiedon hyödyntämisen kannalta on tärkeää tulkita ja jäsentää saatavilla oleva data informaatioksi. Tietojen väliset yhteydet ja prosessit, joilla data saadaan kerättyä, selvitetään ja dokumentoidaan. Informaatioon liittyvät käsitteet, termistöt ja säännöt läpikäydään. Näiden perusteella voidaan rakentaa perustus, johon koko tietojärjestelmän polttoaineena toimiva data saadaan järjestettyä selkeään ja montaa käyttötarkoitusta palvelevaan muotoon.

Loogisen tietomallin pohjalta rakennetaan varsinainen tietovarastomalli, jossa määritellään konkreettisemmin, kuinka tiedot talletetaan, jotta ne ovat analysoinnin ja hyödyntämisen kannalta ovat järkevässä muodossa. Ratkaisu pyritään rakentamaan siten, että se palvelee kaikkien käyttäjäryhmien tarpeita, myös tulevaisuudessa tulevia, ja on suorituskyvyltään, tietoturvaltaan ja muilta ominaisuuksiltaan tarkoitustaan vastaava.

Modernit tiedon varastointiratkaisut, kuten tietoaltaiden (datalake) ja muiden pilvipohjaisten ratkaisujen hyödyntäminen, on avainasemassa, kun mietitään uusia, ketteriä ratkaisuja erilaisiin analytiikkatarpeisiin. Käymme asiakkaidemme kanssa läpi erilaisia arkkitehtuurivaihtoehtoja, joista voidaan valita tarkoitukseen sopivat komponentit.

Datan muotoilu ja muokkaus

Saatavilla oleva data ei monestikaan ole sellaisenaan hyödynnettävissä. Tyypillisiä ongelmia ovat numeroiden ja päivämäärien erilaiset merkintätavat, erilaiset merkistöt ja kenttien erotinmerkit. Data saattaa myös olla semistrukturoidussa muodossa, kuten json ja xml, joka vaatii rakenteen purkua ennen analysointia. Joskus data on järkevämpi aggregoida, kuten summata, jolloin myöhemmissä vaiheissa käsiteltävän datan määrää saadaan rajoitettua.

Datan esikäsittelyprosessoinnissa monesti yhdistetään useaa datalähdettä, joiden formaatit eivät suoraan ole yhteensopivia tai tiedot lasketaan kaavalla olemassa olevista tiedoista.

Edellä mainitut ja monet muut vastaavat haasteet voidaan onneksi hoitaa moderneilla työvälineillä varsin ketterästi. Tableau Prep ja Alteryx Designer työvälineet ovat kehitetty omatoimiseen datan käsittelyyn, mutta samalla tarjoavat laajat mahdollisuudet aina data scientistien vaatimuksiin saakka. Näiden välineiden avulla on mahdollista hyödyntää analytiikan tarpeisiin aivan uusia tietolähteitä, kuten avoimia datalähteitä tai muita palvelurajapinnan (REST/SOAP) kautta käytettäviä palveluita.

Datan varastointi

Asiakkaidemme datan talletustarpeet vaihtelevat suuresti, tyypillisesti organisaation koosta riippuen. Pienemmässä mittakaavassa riittävät tiedostot verkkolevyllä, mutta tietojen yhdistely ja analysointi on hankalaa, tietoturvaan liittyvistä kysymyksistä puhumattakaan. Tiedostojen automaattisella siirrolla tietovarastoon saadaan lukuisia hyötyjä, etenkin datan sisällön parempi hyödyntäminen nykyisissä ja tulevissa analytiikatarpeissa.

Modernin tietovaraston tulee taipua kaikentyyppisten tietojen tallettamiseen, kustannustehokkaasti, tietoturvallisesti ja yksinkertaisen hallinnoinnin kautta. Tietojen hyödyntäminen voi tapahtua suoraan tietovarastosta tai tietokantaan jalostettuna.
Käytämme johtavaa pilvipalvelujen tarjoajaa Amazonia ja alustan päälle rakennettuja palveluja. Näiden palvelujen avulla voimme rakentaa asiakaskohtaisesti valituista komponenteista joustavan ja helposti skaalautuvan ratkaisun kuhunkin tilanteeseen. Tyypillisesti käyttämiämme komponentteja ovat S3, Glue, Athena, Aurora, Redshift tai Snowflake.

Ota yhteyttä