data mart tutorial types
Denna handledning förklarar begrepp för datamart inklusive implementering av datamarts, typer, struktur samt skillnader mellan datalager mot datamark:
I denna Komplett datalagerutbildningsserie , vi tittade på de olika Datalagringsscheman i detalj.
Denna handledning hjälper dig att lära dig Data Mart-koncept i detalj tillsammans med enkla exempel.
Vi får se Vad är en datamart? När behöver vi en datamart? Kostnadseffektiv datamarkering, Kostnad för en datamarknad, Typer av datamärken, Steg för att implementera en datamarknad, Strukturen för en datamarknad, När är en pilotdatamart användbar? Datamart nackdelar och skillnaderna mellan Data Warehouse vs Data Mart.
Målgrupp
- Datalager / ETL-utvecklare och testare.
- Databasproffs med grundläggande kunskap om databaskoncept.
- Databasadministratörer / Big data-experter som vill förstå datalager / ETL-koncept.
- Högskoleexamen / nybörjare som letar efter datalagerjobb.
Vad du kommer att lära dig:
- Vad är en datamart?
- Jämförelse av datalager mot data Mart
- Typer av datamärken
- Implementation Steps Of A Data Mart
- Uppbyggnad av en datamart
- När är en pilotdatamart användbar?
- Nackdelar med Data Mart
- Slutsats
Vad är en datamart?
En datamart är en liten del av datalagret som huvudsakligen är relaterad till en viss affärsdomän som marknadsföring (eller) försäljning etc.
De data som lagras i DW-systemet är enorma, därför är datamärken utformade med en delmängd av data som tillhör enskilda avdelningar. Således kan en specifik grupp användare enkelt använda dessa data för sin analys.
Till skillnad från ett datalager som har många användarkombinationer kommer varje datamart att ha en viss uppsättning slutanvändare. Det mindre antalet slutanvändare resulterar i bättre svarstid.
Datamärken är också tillgängliga för Business Intelligence (BI) -verktyg. Datamärken innehåller inte duplicerade (eller) oanvända data. De uppdateras regelbundet. De är ämnesorienterade och flexibla databaser. Varje team har rätt att utveckla och underhålla sina datamarknader utan att ändra datalager (eller) andra datamartsdata.
En datamart är mer lämplig för småföretag eftersom det kostar mycket mindre än ett datalagersystem. Tiden som krävs för att bygga en datamart är också mindre än den tid som krävs för att bygga ett datalager.
Bildrepresentation av flera datamärken:
När behöver vi Data Mart?
Baserat på nödvändigheten, planera och utforma en datamart för din avdelning genom att engagera intressenterna, eftersom driftskostnaden för datamart kan vara hög vissa gånger.
Tänk på skälen nedan för att bygga en datamart:
- Om du vill partitionera data med en uppsättning strategi för användaråtkomstkontroll.
- Om en viss avdelning vill se frågeresultaten mycket snabbare istället för att skanna enorma DW-data.
- Om en avdelning vill att data ska byggas på andra programvaruplattformar för hårdvara (eller).
- Om en avdelning vill att data ska utformas på ett sätt som är lämpligt för dess verktyg.
Kostnadseffektiva uppgifter Mart
En kostnadseffektiv datamarknad kan byggas enligt följande steg:
- Identifiera de funktionella delarna: Dela organisationsdata i varje datamartsspecifik (avdelnings) specifik information för att uppfylla dess krav, utan ytterligare organisatoriskt beroende.
- Identifiera krav för användaråtkomstverktyg: Det kan finnas olika användaråtkomstverktyg på marknaden som behöver olika datastrukturer. Datamärken används för att stödja alla dessa interna strukturer utan att DW-data störs. En datamart kan associeras med ett verktyg enligt användarens behov. Datamärken kan också tillhandahålla uppdaterade data till sådana verktyg dagligen.
- Identifiera problem med åtkomstkontroll: Om olika datasegment i ett DW-system behöver sekretess och bör nås av en uppsättning auktoriserade användare kan all sådan information flyttas till datamärken.
Kostnad för datamart
Kostnaden för datamart kan beräknas enligt följande:
- Hårdvaru- och programvarukostnad: Nytt tillagd datamart kan behöva extra hårdvara, programvara, processorkraft, nätverk och lagringsutrymme för att arbeta på frågor som slutanvändarna begär. Detta gör datamarkering till en dyr strategi. Därför bör budgeten planeras exakt.
- Nätverkstillgång: Om platsen för datamart är annorlunda än för datalagret, bör all information överföras med laddningsprocessen för datamarknaden. Således bör ett nätverk tillhandahållas för att överföra stora datamängder som kan vara dyra.
- Tidsfönsterbegränsningar: Tiden det tar för dataprocessens laddningsprocess beror på olika faktorer som komplexitet och datamängder, nätverkskapacitet, dataöverföringsmekanismer etc.
Jämförelse av datalager mot data Mart
S. nr | Datalager | Data Mart |
---|---|---|
ett | Komplex och kostar mer att implementera. | Enkelt och billigare att genomföra. |
två | Fungerar på organisationsnivå för hela verksamheten. | Räckvidden är begränsad till en viss avdelning. |
3 | Att fråga DW är svårt för företagsanvändare på grund av enorma databeroenden. | Fråga efter datamart är lätt för företagsanvändare på grund av begränsad data. |
4 | Implementeringstiden är längre kan vara i månader eller år. | Implementeringstiden är mindre kan vara i dagar, veckor eller månader. |
5 | Samlar in data från olika externa källsystem. | Samlar in data från några centraliserade DW (eller) interna (eller) externa källsystem. |
6 | Strategiska beslut kan fattas. | Affärsbeslut kan fattas. |
Typer av datamärken
Datamärken klassificeras i tre typer, dvs. beroende, oberoende och hybrid. Denna klassificering baseras på hur de har fyllts i, dvs. antingen från ett datalager (eller) från andra datakällor.
Extraction, Transformation and Transportation (ETT) är den process som används för att fylla i datamartsdata från alla källsystem.
Låt oss ta en titt på varje typ i detalj !!
# 1) Beroende datamart
I en beroende datamarknad hämtas data från det existerande datalagret själv. Detta är ett uppifrån och ner-tillvägagångssätt eftersom den del av omstrukturerad data i datamarken extraheras från det centrala datalagret.
En datamart kan använda DW-data antingen logiskt eller fysiskt enligt nedan:
- Logisk vy: I det här scenariot är datamartsdata inte fysiskt separerade från DW. Det refererar till DW-data genom virtuella vyer (eller) tabeller logiskt.
- Fysisk delmängd: I det här scenariot är datamartsdata fysiskt separerade från DW.
När en eller flera datamärken har utvecklats kan du låta användarna endast få åtkomst till datamärkena (eller) för att få åtkomst till både datamärken och datalager.
ETT är en förenklad process när det gäller beroende datamärtor eftersom de användbara uppgifterna redan finns i den centraliserade DW. Den exakta uppsättningen sammanfattade data ska bara flyttas till respektive datamärken.
En bild av beroende data Mart visas nedan :
# 2) Oberoende Data Mart
En oberoende datamart är bäst lämpad för små avdelningar i en organisation. Här hämtas inte data från det befintliga datalagret. Den oberoende datamarknaden är varken beroende av företagets DW eller andra datamärken.
Oberoende datamärken är fristående system där data extraheras, transformeras och laddas från externa (eller) interna datakällor. Dessa är lätta att designa och underhålla tills de stöder enkla avdelningsvisa affärsbehov.
Du måste arbeta med varje fas i ETT-processen i händelse av oberoende datamarkeringar på liknande sätt som hur data har bearbetats till centraliserad DW. Antalet källor och data som fylls i till datamärkena kan dock vara mindre.
Bildrepresentation av en oberoende datamart :
dimensionell modellering i datalager med exempel
# 3) Hybrid Data Mart
I en hybrid datamark är data integrerad från både DW och andra operativa system. Hybriddatamärtor är flexibla med stora lagringsstrukturer. Det kan också hänvisa till andra data marts data.
Bildrepresentation av en Hybrid Data Mart:
Implementation Steps Of A Data Mart
Implementeringen av Data Mart som anses vara lite komplex förklaras i nedanstående steg:
- Design: Eftersom den tid affärsanvändare begär en datamart innefattar designfasen kravinsamling, skapande av lämplig data från respektive datakällor, skapande av logiska och fysiska datastrukturer och ER-diagram.
- Konstruktion: Teamet kommer att designa alla tabeller, vyer, index etc. i datamartsystemet.
- Befolkning: Data extraheras, transformeras och laddas in i datamart tillsammans med metadata.
- Åtkomst: Data Mart-data finns tillgängliga för slutanvändarna. De kan fråga informationen för analys och rapporter.
- Hanterar: Detta involverar olika hanteringsuppgifter som användaråtkomstkontroller, finjustering av datamartsprestanda, underhåll av befintliga datamärken och skapande av datamartåterställningsscenarier om systemet misslyckas.
Uppbyggnad av en datamart
Strukturen för varje datamart skapas enligt kravet. Data Mart-strukturer kallas Star joins. Denna struktur kommer att skilja sig från en datamart till en annan.
Stjärnanslutningar är flerdimensionella strukturer som bildas med fakta- och dimensionstabeller för att stödja stora mängder data. Stjärnanslutning kommer att ha ett faktatabell i mitten omgiven av dimensionstabellerna.
Respektive faktatabeldata är associerade med dimensionstabeldata med en främmande nyckelreferens. Ett faktatabell kan omges av 20-30 dimensionstabeller.
I likhet med DW-systemet, i stjärnfogar också, innehåller faktatabellerna endast numeriska data och respektive textdata kan beskrivas i dimensionstabeller. Denna struktur liknar ett stjärnschema i DW.
Bildrepresentation av en Star Join Structure.
Men de detaljerade uppgifterna från den centraliserade DW är basen för alla datamartsdata. Många beräkningar kommer att utföras på normaliserade DW-data för att omvandla dem till flerdimensionella datamarknadsdata som lagras i form av kuber.
Detta fungerar på samma sätt som hur data från äldre källsystem omvandlas till en normaliserad DW-data.
När är en pilotdatamart användbar?
En pilot kan distribueras i en liten miljö med ett begränsat antal användare för att säkerställa om distributionen lyckas före den fullfjädrade distributionen. Detta är dock inte nödvändigt hela tiden. Pilotdistributionerna kommer inte att vara till nytta när syftet är uppfyllt.
Du måste ta hänsyn till nedanstående scenarier som rekommenderar för pilotdistribution:
- Om slutanvändarna är nya i datalagersystemet.
- Om slutanvändarna vill känna sig bekväma att hämta data / rapporter själva innan de går till produktion.
- Om slutanvändarna vill ha hands-on med de senaste verktygen (eller) teknikerna.
- Om ledningen vill se fördelarna som ett bevis på konceptet innan de gör det som en stor release.
- Om teamet vill om alla ser till att alla ETL-komponenter (eller) infrastrukturkomponenter fungerar långt före släppet.
Nackdelar med Data Mart
Även om datamärken har vissa fördelar jämfört med DW, har de också några nackdelar som förklaras nedan:
- Oönskade datamärken som har skapats är svåra att underhålla.
- Datamärken är avsedda för småföretagens behov. Att öka storleken på datamärken kommer att minska dess prestanda.
- Om du skapar fler antal datamärken bör ledningen ta hand om deras version, säkerhet och prestanda.
- Datamärken kan innehålla historiska (eller) sammanfattade (eller) detaljerade data. Uppdateringar av DW-data och data-mart-data kan dock inte ske samtidigt på grund av inkonsekvens med data.
Slutsats
Många organisationer är inriktade på datamarknader ur ett kostnadsbesparande perspektiv. Därför har denna handledning fokuserat på de tekniska aspekterna av datamärken i datalagersystemet.
Metadata i ETL förklaras i detalj i vår kommande handledning.
=> Besök här för att se utbildningsserien för datalagring för alla.
Rekommenderad läsning
- Data Warehouse Testing Tutorial med exempel | ETL Testguide
- Python-datatyper
- C ++ datatyper
- Dimensionell datamodell i datalager - handledning med exempel
- Apriori-algoritm i datautvinning: implementering med exempel
- Exempel på datautvinning: De vanligaste tillämpningarna av datautvinning 2021
- Grundläggande om datalagring: En ultimat guide med exempel
- Volymtesthandledning: Exempel och volymtestverktyg