what is data lake data warehouse vs data lake
Denna handledning förklarar allt om Data Lake inklusive dess behov, definition, arkitektur, fördelar och skillnader mellan Data Lake och Data Warehouse:
Termen 'Data Lake' används ganska ofta i dagens IT-värld. Har du någonsin undrat vad det är och var termen exakt kommer ifrån?
I informationsteknologiåldern där data förstärks dag och natt i många former blir begreppet data lake verkligen viktigt och användbart.
Låt oss utforska vad en datasjö är och vilka fördelar, användningsområden osv. Finns här i detalj.
Vad du kommer att lära dig:
- Vad är en datasjö och hur fungerar den?
- Slutsats
Vad är en datasjö och hur fungerar den?
En datasjö är ett system eller centraliserat databas som gör att du kan lagra alla dina strukturerade, halvstrukturerade, ostrukturerade och binära data i dess naturliga / naturliga / råa format.
Strukturerad data kan innehålla tabeller från RDBMS; halvstrukturerad data inkluderar CSV-filer, XML-filer, loggar, JSON, etc .; ostrukturerad data kan inkludera PDF-filer, orddokument, textfiler, e-post, etc. och binära data kan inkludera ljud-, video-, bildfiler.
Den följer en platt arkitektur för lagring av data. Generellt lagras data i form av objektblobar eller filer.
[bild källa ]
Med en datasjö kan du lagra allt ditt företag på ett enda ställe, utan att först behöva strukturera data. Du kan direkt utföra olika typer av analyser på den inklusive maskininlärning, realtidsanalys, lokal datarörelse, realtids datarörelse, instrumentpaneler och visualiseringar.
Den håller all information i den i originalformen och förutsätter att analysen kommer att ske senare, på begäran.
Analogy Of Data Lake
[bild källa ]
Termen Data Lake myntades av James Dixon, dåvarande CTO i Pentaho. Han definierar datamart (en delmängd av ett datalager) som liknar en vattenflaska fylld med rent, destillerat vatten, förpackat och strukturerat för direkt och enkel användning.
Å andra sidan är det analogt med en vattenkropp i sin naturliga form. Data strömmar från strömmarna (olika affärsfunktioner / källsystem) till sjön. Konsumenter av datasjö, dvs. användare har tillgång till sjön för att analysera, undersöka, samla prover och dyka in.
Precis som vattnet i sjön tillgodoser olika behov hos människor som fiske, båtliv, dricksvatten etc., tjänar datasjöarkitekturen på flera sätt flera syften.
bästa gratis videokonverterare för Windows 7
En datavetare kan använda den för att utforska data och skapa en hypotes. Det ger en möjlighet för dataanalytiker att analysera data och upptäcka mönster. Det ger ett läge för affärsanvändare och intressenter att utforska data.
Det ger också en möjlighet för rapporterande analytiker att utforma rapporter och presentera dem för verksamheten. Tvärtom har datalagret förpackat data för väldefinierade ändamål precis som en bisleri-flaska som endast kan användas för dricksvatten.
Data Lake Market - Tillväxt, trender och förutsägelser
Datasjömarknaden är uppdelad på grundval av produkt (lösning eller tjänst), distribution (lokalt eller moln), kundindustrin (detaljhandel, bank, verktyg, försäkring, IT, sjukvård, telekom, publicering, tillverkning) och geografisk regioner.
Enligt rapporten publicerad av Mordor Intelligence, nedan är ögonblicksbilden för data lake:
[bild källa ]
# 1) Sammanfattning av marknaden
Data Lakes Market uppskattades till 3,74 miljarder USD 2019 och beräknas beröra 17,60 miljarder USD år 2025, till en CAGR (Compound Annual Growth Rate) på 29,9% under prognosperioden 2020 - 2025.
Dessa datareservoarer blir alltmer ett ekonomiskt alternativ för många organisationer över datalager. I motsats till datasjöar kräver datalagring ytterligare bearbetning av data innan du går in i lagret.
Kostnaden för att hantera en datasjö är mindre jämfört med ett datalager på grund av mycket bearbetning och utrymme krävs för att skapa databasen för lager.
# 2) Stora spelare
Det förutspås att Data Lake-marknaden kommer att vara en konsoliderad marknad som domineras av de fem nyckelaktörerna, vilket framgår av bilden nedan.
# 3) Nyckeltrender
- Användningen förväntas växa avsevärt inom banksektorn. Banker antar datasjöar för att leverera på språnganalys. Det hjälper också till att upplösa många silor i banksektorn.
- Eftersom det finns en enorm ökning av digitala betalningar / användning av mobilplånböcker över hela världen ökar möjligheterna för stor dataanalys och därmed möjligheten för dem.
- Det förväntas att Nordamerika kommer att ha höga antagande för datasjöar. En studie utförd av Capgemini säger att över 60% av finansiella organisationer i USA tycker att big data-analys fungerar som en differentierare för företag och ger dem en konkurrensfördel. Över 90% av organisationerna anser att investeringar i stora dataprojekt ökar chanserna för framgång i framtiden.
- De krävs för användning av smarta mätartillämpningar och i USA förväntas det att cirka 90 miljoner smarta mätare kommer att installeras 2021. Det finns därför en förutsagd hög efterfrågan på dem.
Varför krävs Data Lake?
Syftet med en datasjö är att ge en obearbetad bild av data (data i sin renaste form).
Exempel
Numera har många stora företag inklusive Google, Amazon, Cloudera, Oracle, Microsoft och några fler data-sjö-erbjudanden.
Många organisationer använder molnlagringstjänster som Azure Data Lake eller Amazon S3. Företag använder också ett distribuerat filsystem som Apache Hadoop. Konceptet med en persondatasjö som låter dig hantera och dela dina egna stora data har också utvecklats.
Om vi pratar om industriella användningsområden, är det en mycket lämplig passform för vårdområdet. På grund av det ostrukturerade formatet för mycket data inom sjukvården ( Till exempel, Läkaranteckningar, kliniska data, patientens sjukdomshistoria, etc.) och kravet på realtidsinsikter, en datasjö är ett utmärkt alternativ över datalager.
vad är systemtest med exempel
Det erbjuder flexibla lösningar även inom utbildningssektorn där uppgifterna är mycket stora och mycket råa.
Inom transportsektorn, främst inom supply chain management eller logistik, hjälper det till att göra förutsägelser och realisera kostnadsbesparande fördelar.
Luft- och elkraftsindustrin använder också datasjöar.
Ett exempel på dess implementering är GE Predix (utvecklad av General Electric) som är en industriell datasjöplattform som erbjuder starka datastyrningskompetenser för att skapa, distribuera och styra industriella applikationer som länkar till industriella tillgångar, samlar in och analyserar data och ger realtid insikter för att förbättra industriell infrastruktur och processer.
Skillnaden mellan Data Warehouse Vs Data Lake
Ofta har människor svårt att förstå hur en sjö skiljer sig från ett datalager. De hävdar också att det är detsamma som datalagret. Men detta är inte verkligheten.
Det enda som är gemensamt mellan datasjön och datalagret är att båda är datalagringsförvar. Vila, de är olika. De har olika användningsfall och syften.
Skillnaderna förtydligas nedan:
Data Lake | Datalager | |
---|---|---|
Analytics | En datasjö kan användas för maskininlärning, dataprofilering av datainsamling och prediktiv analys. | Ett datalager kan användas för Business Intelligence, visualiseringar och batchrapportering. |
Data | En Data Lake kommer att innehålla alla rådata. Det kan vara strukturerat, ostrukturerat eller halvstrukturerat. Det kan vara möjligt att en del av informationen i datasjön aldrig ska användas. | Ett datalager innehåller endast den information som behandlas och förfinas, dvs. strukturerad data som krävs för rapportering och lösning av specifika affärsproblem. |
Användare | Generellt är användarna av en datasjö datavetare och datautvecklare. | Generellt sett är användarna av datalagret affärspersoner, operativa användare och affärsanalytiker. |
Tillgänglighet | Datasjön är lättillgänglig och enkel och snabb att uppdatera eftersom de inte har någon struktur. | I datalagret är uppdatering av data en mer komplicerad och kostsam operation eftersom datalager är strukturerade efter design. |
Schema | Schema-på-skriv. Designad före DW-implementeringen. | Schema vid läsning. Skriven vid tidpunkten för analysen. |
Arkitektur | Platt arkitektur | Hierarkisk arkitektur |
Ändamål | Syftet med rådata som lagras i datasjöar är inte fast eller är obestämt. Ibland kan data flyta in i en datasjö med en viss framtida användning i åtanke eller bara för att ha informationen till hands. Datasjön har mindre organiserad och mindre filtrerad data. | De bearbetade data som lagras i datalagret har ett specifikt och bestämt syfte. En DW har organiserat och filtrerat data. Därför kräver det mindre lagringsutrymme än datasjön. |
Lagring | Designad för låg förvaring. Datasjöns hårdvara skiljer sig mycket från hårdvaran i datalagret. Den använder hylla-servrar i kombination med billig lagring. Detta gör datasjön ganska ekonomisk och mycket skalbar till terabyte och petabyte. Detta görs för att hålla all data i en datasjö så att du kan gå tillbaka till tiden när som helst för att göra analys. | Dyrt för stora datamängder. Datalagret har dyrt lagringsutrymme för att göra det högpresterande. Därför, för att spara utrymmet, förenklas datamodellen och endast de data som verkligen krävs för att fatta affärsbeslut sparas i datalagret. |
Stöd för datatyper | En Data Lake stöder mycket väl de icke-traditionella datatyperna som serverloggar, sensordata, sociala nätverksaktiviteter, text, bilder, multimedia osv. All data sparas oberoende av källa och struktur. | Generellt består ett datalager av data som hämtas från transaktionssystem. Det stöder inte särskilt bra de icke-traditionella datatyperna. Att lagra och konsumera icke-traditionell data kan vara dyrt och svårt med datalagret. |
säkerhet | Säkerheten för datasjöar är i ett 'moget' skede eftersom detta är ett relativt nytt koncept än datalagret. | Säkerheten för datalager är i det ”mogna” skedet. |
Rörlighet | Mycket smidig konfigurera och konfigurera om efter behov. | Mindre smidig fast konfiguration. |
Data Lake Architecture
Arkitektur diagram
Ovan är det konceptuella arkitekturdiagrammet för datasjön. Till vänster ser du att vi har datakällorna som kan vara strukturerade, halvstrukturerade eller ostrukturerade.
Dessa datakällor kombineras i ett rådatabutik som använder data i sin råa form, dvs. data utan några transformationer. Detta är billig, permanent och skalbar lagring.
Därefter har vi analytiska sandlådor som kan användas för datainsamling, undersökande dataanalys och prediktiv modellering. I grund och botten används detta av dataforskare för att utforska data, bygga ny hypotes och definiera användningsfall.
Sedan finns det en batchbearbetningsmotor som bearbetar rådata till konsumentanvändbar form dvs i ett strukturerat format som kan användas för rapportering till slutanvändare.
Sedan har vi en realtidsbearbetningsmotor som tas i strömmande data och omvandlar den.
Viktiga egenskaper hos Data Lake
För att klassificeras som Data Lake bör ett big data repository ha följande tre attribut:
# 1) Ett enda gemensamt datalager som vanligtvis är inrymt i ett distribuerat filsystem (DFS).
Hadoop-data sparar data i sin ursprungliga form och registrerar ändringar av data och relativ semantik under datalivscykeln. Detta tillvägagångssätt är särskilt fördelaktigt för efterlevnadskontroller och interna revisioner.
Detta är en förbättring ovanför det konventionella Enterprise Data Warehouse, där när data går genom omvandlingar, aggregeringar och modifieringar är det svårt att sätta data som en helhet när det behövs, och företag strävar efter att ta reda på källan / ursprunget till data.
# 2) Innehåller planerings- och jobbschemaläggningsfunktioner (till exempel genom vilket schemaläggningsverktyg som Garn etc.).
Arbetsbelastningskörning är ett viktigt behov för företag Hadoop och YARN erbjuder resurshantering och en central plattform för att tillhandahålla konstanta processer, säkerhet , och datastyrningsverktyg i Hadoop-kluster, så att analytiska arbetsflöden har den nödvändiga nivån på datatillgång och datorkraft.
# 3) Omfattar den uppsättning verktyg och funktioner som krävs för att konsumera, bearbeta eller arbeta med data.
Enkel och snabb tillgänglighet för användare är en av de viktigaste egenskaperna hos en datasjö, på grund av att organisationer lagrar data i sin ursprungliga eller rena form.
Oavsett vilken form data är dvs strukturerad, ostrukturerad eller halvstrukturerad, infogas den som den är i datasjön. Det tillåter dataägare att kombinera kund-, leverantörs- och driftsdata genom att bli av med tekniska eller politiska hinder för datadelning.
Fördelar
[bild källa ]
- Mångsidig : Kompetent nog för att lagra alla typer av strukturerad / ostrukturerad data, allt från CRM-data till sociala nätverksaktiviteter.
- Mer flexibilitet i schemat : Behöver inte planering eller förkunskaper om dataanalys. Den lagrar all data som den är i originalform och förutsätter att analysen kommer att ske senare, på begäran. Detta är mycket användbart för OLAP. Till exempel, Hadoop-datasjön tillåter dig att vara schemafri där du kan koppla bort schema från data.
- Realtidsbeslutsanalys : De åtnjuter fördelen med en enorm mängd konsekventa data och algoritmer för djupinlärning för att nå beslutsanalys i realtid. Kan erhålla värde från obegränsade datatyper.
- Skalbar: De är mycket mer skalbara än traditionella datalager och de är också billigare.
- Avancerad analys / kompatibilitet med SQL och andra språk: Med datasjöar finns det många sätt att fråga informationen. Till skillnad från traditionella datalager som endast stöder SQL för enkel analys ger de dig många andra alternativ och språkstöd för att analysera data. De är också kompatibla med maskininlärningsverktyg som Spark MLlib.
- Demokratisera data: Demokratiserad tillgång till data genom en enda, integrerad datavy i hela organisationen samtidigt som man använder en effektiv datahanteringsplattform. Detta säkerställer tillgängligheten av data överallt.
- Bättre kvalitet på data: Sammantaget får du bättre kvalitet på data med datasjöar genom tekniska fördelar som datalagring i eget format, skalbarhet, mångsidighet, schemaflexibilitet, stöd för SQL och andra språk och avancerad analys.
Utmaningar och risker
Datasjöar erbjuder många fördelar. Men ja, det finns också några utmaningar och risker förknippade med dem som en organisation behöver ta itu med.
Dom är:
- Om de inte är ordentligt utformade kan de förvandlas till datasumpar. Ibland hamnar organisationer bara på att dumpa obegränsad data i dessa sjöar utan någon strategi och syfte i åtanke.
- Ibland har analytikerna som vill använda informationen ingen kunskap om hur man gör det, eftersom det är ganska utmanande att göra gruvdrift i datasjöar. Således förlorar de relevans och fart efter en tid. Organisationer måste arbeta för att ta bort denna barriär för analytiker.
- Eftersom vi har mycket oorganiserad data i datasjöar är den inte tillräckligt färsk eller aktuell för att kunna användas i produktionen. Följaktligen förblir data i dessa sjöar i pilotläge och sätts aldrig i produktion.
- Ostrukturerad data kan leda till oanvändbar data.
- Ibland upplever organisationer att det inte har någon betydande inverkan på verksamheten med avseende på de investeringar som gjorts. Detta kräver en tänkesändring. För att effekter ska kunna inträffa måste företag uppmuntra chefer och ledare att fatta beslut baserat på den analys som härrör från dessa datareservoarer.
- Säkerhet och åtkomstkontroll är också en av riskerna när du arbetar med dem. Vissa av de uppgifter som kan ha sekretess och föreskrivna regler placeras i datasjöar utan någon tillsyn.
Genomförande
I ett företag är det ganska förnuftigt att genomföra datasjöimplementeringen på ett smidigt sätt.
Det vill säga att för att först implementera en Data Lake MVP får den testas av användarna med avseende på kvalitet, enkel åtkomst, lagring och analytiska funktioner, ta emot återkopplingar och sedan lägga till de komplexa kraven och funktionerna för att ge mervärde till sjön.
Generellt går en organisation igenom nedanstående fyra grundläggande genomförandesteg:
[bild källa ]
Steg 1:
Basic Data Lake: I detta skede slår laget sig ner på den grundläggande arkitekturen, tekniken (molnbaserad eller äldre) och säkerhets- och styrmetoder för datasjön. Den är gjord för att kunna lagra all rådata från olika företagskällor och kombinera intern och extern data för att leverera berikad information.
Steg 2:
Sandlådan: förbättring av analytisk förmåga: I detta skede får dataforskarna tillgång till datareservoaren för att utföra preliminära experiment för att använda rådata och utforma analytiska modeller för att möta affärsbehov.
Steg 3:
mest populära operativsystem för persondatorer
Datalager och Data Lake-samarbete: I det här skedet börjar organisationen använda datasjön i synergi med befintliga datalager. Data med låg prioritet skickas till dem så att lagringsgränsen för datalager inte överskrids.
Det ger en möjlighet att producera insikter från kall data eller fråga det för att upptäcka information som inte indexeras av konventionella databaser.
Steg 4:
Slut till slut antagande av Data Lake: Detta är det sista steget och mognadsförvärvet där det förvandlas till ett nyckelelement i organisationens dataarkitektur och effektivt direkt sökning. Vid den här tiden skulle datasjön ha ersatt EDW och de blir den enda källan till all företagsdata.
En organisation kan göra följande genom datasjön:
- Skapa komplexa datamodellerings- och analyslösningar för olika affärsbehov.
- Designa interaktiva instrumentpaneler som konsoliderar förståelser från datasjön plus olika applikations- och datakällor.
- Implementera avancerade analys- eller robotprogram, eftersom det hanterar beräkningsoperationer.
Vid denna tidpunkt har den också starka säkerhets- och styråtgärder.
Data Lake Vendors
Det finns olika leverantörer som tillhandahåller data lake-verktyg i branschen.
[bild källa ]
Om vi tittar på de stora företagen:
- Datoranvändning tillhandahåller ett intelligent data lake-verktyg. BDM (Big Data Management) 10.2.2 är den senaste tillgängliga versionen.
- Det finns en leverantör som heter snygging som också tillhandahåller verktyget.
- Företaget Talend vilket är populärt för deras ETL-verktyg ger också Data Lake-verktyget.
- Sedan har vi ett open source-verktyg som heter Kylo från Teradata företag. Teamet ”Think Big” i Teradata-företaget har utvecklat detta verktyg.
- Företaget Cask-data Inc tillhandahåller också dessa tjänster.
- Från Microsoft , du kan hitta Azure data sjö finns i branschen.
- Hvr-programvara erbjuder också lösningar för konsolidering av data.
- Podiumdata, ett Qlik-företag tillhandahåller verktygsprodukter som data lake pipelines, multi-zone data lake.
- Snöflinga har också en data lake-produkt.
- Zaloni är ett datasjöföretag som hanterar enorma data med Big Data.
Så alla är de populära tjänsteleverantörerna såväl som leverantörer av sådana verktyg.
Om du letar efter att öva och bygga din kunskap om datasjöar kan du gå till Informatica eller Kylo. Om du letar efter en molnbaserad tjänst kan du välja Looker, Informatica och Talend. Dessa tre leverantörer tillhandahåller AWS molndatasjöar. Du kan också få en 1-månaders gratis provperiod från Kylo.
Slutsats
I den här handledningen diskuterade vi begreppet datasjön i detalj. Vi gick igenom grundidén bakom datasjön, dess arkitektur, viktiga egenskaper, fördelar, tillsammans med dess exempel, användningsfall etc.
Vi såg också hur en datasjö skiljer sig från datalagret. Vi täckte också de bästa leverantörerna som tillhandahåller relaterade tjänster.
Glad läsning!!
Rekommenderad läsning
- Data Warehouse Testing Tutorial med exempel | ETL Testguide
- Topp 10 test- och valideringsverktyg för strukturerad data för SEO
- Data Mining: Process, Techniques & Major Issues In Data Analysis
- Data Mart Tutorial - Typer, exempel och implementering av Data Mart
- Topp 10 populära datalagerverktyg och testtekniker
- Dimensionell datamodell i datalager - handledning med exempel
- 10+ bästa datainsamlingsverktyg med datainsamlingsstrategier
- Data Pool-funktion i IBM Rational Quality Manager för testdatahantering