Så får du värde ur en Data Lake

Det första man måste komma fram till är: behöver vi verkligen en Data Lake? Det finns några variabler som måste uppfyllas för att behovet ska finnas: Har ni som organisation automatiskt genererade behavioristiska data där ni vill att ML-algoritmer utvinner underlag på hur eller vilka kunder eller kundsegment som ska få ta del av något eller behandlas olika? Är er data också ostrukturerade/semistrukturerade och så pass otympligt att den, av praktiska skäl inte kan läsas in i ett Data Warehouse. Ja - då är er organisation i behov av en data lake. Annars är det Data Warehouse som passar er.

Läsa in big data i Data Lake

Data behöver vara ostrukturerad eller semistrukturerad för att kunna kategoriseras som big data. Big data är väldigt otympligt att läsa in i en traditionell databas och det bästa alternativet är en data lake.

Big data är data i rörelse (data in motion) – och är ofta strömmande data (IOT, GA, loggfiler och liknande) som samplas från ett system, till skillnad från data som lagras i ett affärssystem. Ju större sampling som används desto bättre underlag finns tillgängligt för den analys som ska genomföras.

Olika krav på data ställer olika krav på vilken teknik som ska lagra data

Det är helt olika krav på datakvalitet mellan ett Data Warehouse och en Data Lake. För en data lake är det inte hela världen om samplingen från en viss period, säg februari 2021, inte finns med i dataunderlaget för hela 2021. De analyser som görs blir givetvis påverkade men det går fortfarande att göra analyser även om de blir av sämre kvalitet. För ett Data Warehouse är det en katastrof om data saknas för en period – om underlaget till exempel ska användas för myndighetsrapportering och alla händelser för en specifik månad saknas så riskerar organisationen böter.

Dålig datakvalitet i data lake

Det är en missuppfattning att alla data som hamnar i en data lake skulle vara rådata. Den kan ha blivit utsatt för processer innan den hamnar i en data lake och därmed finns det risk att data redan gått förlorade. Om data exempelvis utvinns från ett affärssystems databas och skrivs till en data lake så är inte längre datan i råformat. Ett stort problem i data lake-projekt är att man ofta skriver in data i en data lake utan att testa om data går att använda för analys. Sedan när analys ska påbörjas så har projektets data lake redan bristfälliga data inladdat.

Läsa in strukturerade data i ett Data Warehouse

För att lagra och konsolidera strukturerade data på bästa sätt så är det Data Warehouse som gäller, inte data lake. De system som är källa för ett Data Warehouse håller sin data i ett strukturerat format, processen som hämtar data hämtar alla tillgängliga data som finns i ett affärssystem. Det är alltså inte någon samplingsprocess, som används för big data, utan en process som efterfrågar vad som ligger i ett affärssystems databas. Ett Data Warehouse kan återskapa, likt en backup, hur ett affärssystem såg ut givet en viss tidpunkt. Den viktigaste funktionen med ett Data Warehouse är att den data som lagras är exakt återgiven som den var i affärssystemet, detta brukar kallas för Zero data loss. Zero data loss är en förutsättning för att data i ett Data Warehouse ska kunna användas oavsett användningsområde.

Vill du läsa mer om varför data lake-projekt inte går som det ska? Se artikeln här.

‍

Så får du värde ur en Data Lake

Läsa in big data i Data Lake

Olika krav på data ställer olika krav på vilken teknik som ska lagra data

Dålig datakvalitet i data lake

Läsa in strukturerade data i ett Data Warehouse

Dela artikeln

Mer läsning

Bulbul Automation Tool – så här gjorde vi

Varför misslyckas Data Lake-projekt?

Bulbul Automation Tool – varför utveckla ett eget verktyg?

Kontakta oss

Följ oss på LinkedIn