Azure Data Analyst -akatemia

5.4.2017, 15:46 in Azure, Yleinen by Sakari Kouti

Taustaa

Alkuvuodesta 2017 me Soveltossa aloimme miettiä uudentyyppisiä pitkäkestoisia Azure-valmennuksia. Azure on kuitenkin niin laaja kokonaisuus, joka muuttuu jatkuvasti, että perinteisellä lyhyellä luokkakurssilla sitä on hankala kattaa kuin pieneltä osin.

Päätimme tehdä valmennukset kaikille Azuren parissa työskenteleville toimenkuville, eli arkkitehti, infra-ammattilainen, sovelluskehittäjä ja Data Analyst. Viimeksi mainituille työstimme Azure Data Analyst -akatemian.

Lähtökohtamme Akatemian suunnittelussa oli, että Big Data on nykypäivän kuumimpia trendejä ja monet organisaatiot jo hyödyntävät sitä, tai miettivät, miten voisivat hyödyntää. Niinpä tämän alueen osaajille on kova kysyntä. Toisaalta taas Azure-pilviteknologia tarjoaa uusia työkaluja toteuttaa näitä hankkeita.

Sisältö

Jaoimme Akatemian neljään osa-alueeseen, jotka samalla kuvastavat tietojen analysointimenetelmiä ja visualisointitapoja Microsoftin tekniikoilla, ja lisäksi alussa käydään läpi Big Data Big Picture. Osa-alueet ovat:

  • Big Datan käsittely Azure HDInsightilla. HDInsight on Hadoop Azuressa, eli monipuolinen datan käsittely- ja analysointiklusteri, joka sisältää implementaatiot useista eri klusterityypeistä (mm. Hadoop, Storm, Spark, R Server, jne.) ja tekniikoista (Map-Reduce, Hive, Pig, Sqoop, Mahout, jne.)
  • Big Datan analysointi R-kielellä. R-kieli on johtava tilastomatemaattinen ohjelmointikieli datan käsittelyyn. Microsoftin R Serveristä löytyy yli 8000 valmista Open Source R-pakettia suoraan hyödynnettäväksi omissa analysoinneissa.
  • Azure Machine Learning on tietojen analysointia pilvessä, jossa toteutetaan ennustemalleja. ML perustuu ennustavaan analytiikkaan algoritmien avulla (petosten havainnointi, ostoskorianalyysi, myynnin ennustaminen, jne.). Analyysiratkaisut toteutetaan ML-studiolla hyödyntäen valmiita moduuleita tai itse tehtyjä (esim. R-kielisiä) algoritmeja.
  • Datan analysointi ja visualisointi Power BI:llä. Power BI on puolestaan helppokäyttöinen tietojen analysointi- ja erityisesti visualisointialusta, jolla voidaan luoda näyttäviä koontinäyttöjä esim. Azure-palveluiden tuottamasta datasta.

Azure Data Analyst -rakenne

Puitteet

Päätimme rytmittää Akatemian niin, että kukin neljästä osa-alueesta vastaa yhtä etäjaksoa, jonka kesto on muutaman viikon. Näiden väleihin olemme sijoittaneet lähipäivät. Kussakin sellaisessa käydään läpi menneen jakson harjoitustyö sekä esitellään seuraavan jakson tekniikat ja uusi harjoitustyö.

Näin Akatemian yhteiskestoksi tulee muutama kuukausi ja arvioimme, että kunkin etäjakson aikana osallistujan täytyisi käyttää omaa tai työnantajansa aikaa 15-20 tuntia. Kun neljän etäjakson ympärillä on lähipäivät, ja alussa kaksipäiväinen aloitus, niin lähipäiviä kertyy yhteensä kuusi. Lähipäiviin annamme mahdollisuuden osallistua myös online-muodossa, samaan tapaan kuin Sovelton tavallisillekin kursseille.

Kurssimateriaali on monimuotoista, eli osa on luento- ja osa itseopiskelumateriaalia, osa luettavaa ja osa videomuodossa. Kieleltään ne ovat osin suomeksi, osin englanniksi.

Osallistujan sopiva tausta on mielestämme BI Developer, sovelluskehittäjä, tietokanta-asiantuntija, Report Developer tai infra-asiantuntija. Pakollisia esitietoja emme vaadi, mutta jos ennestään osaat vähän SQL-kieltä ja muuta ohjelmointia, esim. C# tai PowerShell, niin siitä on luultavasti apua.

Alla vielä asia pähkinänkuoressa.

Pekka Korhonen ja Sakari Kouti
Sovelto

Akatemian rakenne

  • Akatemia koostuu neljästä aihepiiristä, joista kuhunkin on noin 3 – 4 vk etäjakso:
    • Big Datan käsittely Azure HDInsightilla
    • Big Datan analysointi R-kielellä
    • Azure Machine Learning
    • Datan analysointi ja visualisointi Power BI:llä
  • Kunkin etäjakson aikana on itseopiskelua ja harjoitustyö, ja päätteeksi lähipäivä, jossa on harjoitustyön purku ja seuraavan jakson alustus. Jaksot päättäviin neljään lähipäivään suositellaan osallistumaan Helsingissä paikan päällä, mutta myös online-osallistuminen on mahdollista.
  • Akatemia alkaa 2 pv kickoffilla, jossa käydään Big Data Big Picture sekä alustetaan ensimmäinen etäjakso. Kickoffiin osallistutaan paikan päällä.
  • Lähipäiviä on yhteensä 2 + 4 = 6, ja akatemian rakenne on
  • 2 pv, etäjakso, 1 pv, etäjakso, 1 pv, etäjakso, 1 pv, etäjakso, 1 pv