data warehousing fundamentals
Lär dig allt om grundläggande datalagring. Den här djupgående guiden förklarar vad som är datalagring tillsammans med dess typer, egenskaper, meriter och nackdelar:
Ett datalager är den senaste lagringstrenden i dagens IT-bransch.
Denna handledning kommer att förklara Vad är ett datalager? Varför är datalagring avgörande? Typer av datalagerapplikationer, kännetecken för ett datalager, fördelar och nackdelar med datalagring.
Lista över handledningar för datalagring i denna serie:
Handledning nr 1: Grundläggande för datalagring
Handledning nr 2: Vad är ETL-process i datalager?
Självstudie 3: Datalagertestning
Självstudie 4: Dimensionell datamodell i datalager
Handledning nr 5: Schematyper i datalagermodellering
Självstudie nr 6: Data Mart Tutorial
Handledning nr 7: Metadata i ETL
Översikt över handledning i den här datalagringsserien
Tutorial_Num | Vad du kommer att lära dig |
---|---|
Handledning nr 7 | Metadata i ETL Denna handledning förklarar rollen för metadata i ETL, exempel och typer av metadata, metadata Repository & utmaningar i metadatahantering. |
Handledning nr 1 | Grundläggande för datalagring Lär dig allt om datalagringskoncept från den här självstudien. Den här djupguiden förklarar vad datalagring är tillsammans med dess typer, egenskaper, meriter och nackdelar. |
Handledning nr 2 | Vad är ETL-process i datalager? Denna djupgående handledning om ETL-process förklarar Process Flow & Steps Involved in the ETL (Extraction, Transformation, and Load) Process in Data Warehouse. |
Handledning nr 3 | Datalagertestning Mål och betydelse för datalagertestning, ETL-testansvar, fel i DW och ETL-distribution i detalj i denna handledning. |
Handledning nr 4 | Dimensionell datamodell i datalager Denna handledning förklarar fördelarna och myterna med dimensionell datamodell i datalager. Du lär dig också om dimensionstabeller och faktabord med exempel. |
Handledning nr 5 | Schematyper i datalagermodellering Denna handledning förklarar olika typer av datalagringsscheman. Lär dig vad som är Star Schema & Snowflake Schema och skillnaden mellan Star & Snowflake Schema. |
Självstudie nr 6 | Data Mart Tutorial Denna handledning förklarar begrepp för Data Mart inklusive Data Mart Implementation, Typer, struktur samt skillnader mellan Data Warehouse Vs Data Mart. |
Vad du kommer att lära dig:
Grundläggande om datalagring: En komplett guide
Målgrupp
- Datalager / ETL-utvecklare och testare.
- Databasproffs med grundläggande kunskap om databaskoncept.
- Databasadministratörer / Big data-experter som vill förstå begrepp för datalagring.
- Högskoleexaminerade / nybörjare som letar efter datalagerjobb.
Vad är datalagring?
Ett datalager (DW) är ett förråd med enorm mängd organiserad data. Dessa data konsolideras från en eller flera olika datakällor. DW är en relationsdatabas som huvudsakligen är utformad för analytisk rapportering och i tid beslutsfattande i organisationer.
Uppgifterna för detta ändamål isoleras och optimeras från källtransaktionsdata, vilket inte kommer att ha någon inverkan på huvudverksamheten. Om en organisation introducerar någon affärsförändring används DW för att undersöka effekterna av den förändringen, och därför används DW också för att övervaka processen utan beslut.
Datalageret är mestadels ett skrivskyddat system eftersom operativa data är mycket separerade från DW. Detta ger en miljö för att hämta den högsta mängden data med bra frågeskrivning.
Således kommer DW att fungera som backend-motorn för Business Intelligence-verktyg som visar rapporterna, instrumentpanelerna för affärsanvändarna. DW används i stor utsträckning inom bank, finans, detaljhandel etc.
Varför är datalagring avgörande?
Nedan listas några av anledningarna till att Data Warehouse är avgörande.
- Datalager samlar all operativ data från flera heterogena källor med 'olika format' och genom processen för att extrahera, transformera och ladda (ETL) laddar den data in i DW i ett 'standardiserat dimensionellt format' över en organisation.
- Datalager underhåller både 'aktuella data och historiska data' för analytisk rapportering och faktabaserat beslutsfattande.
- Det hjälper organisationer att ta ”smartare och snabba beslut” om att sänka kostnaderna och öka intäkterna genom att jämföra kvartals- och årsrapporter för att förbättra deras resultat.
Typer av datalagerapplikationer
Business Intelligence (BI) är en gren av datalagring utformad för beslutsfattande. När data i DW har laddats spelar BI en viktig roll genom att analysera data och presentera den för företagsanvändarna.
Praktiskt taget innebär termen 'datalagerapplikationer' i hur många olika typer data kan bearbetas och användas.
Vi har tre typer av DW-applikationer som nämns nedan.
- Informationsbearbetning
- Analytisk bearbetning
- Data mining som tjänar syftet med BI
# 1) Informationsbehandling
Detta är en typ av applikation där datalagret tillåter direkt en-en-kontakt med de data som lagras i den.
Eftersom data kan bearbetas genom att skriva direkta frågor om data (eller) med en grundläggande statistisk analys av data och slutresultaten kommer att rapporteras till företagsanvändarna i form av rapporter, tabeller, diagram eller grafer.
DW stöder följande verktyg för informationsbehandling:
(i) Frågeställningar: Verksamheten (eller) analytikern kör frågorna med hjälp av frågeverktyg för att utforska data och generera utdata i form av rapporter eller grafik enligt affärsbehovet.
(ii) Rapporteringsverktyg: Om företaget vill se resultaten i något definierat format och på schemalagd basis, dvs. dagligen, veckovis eller månadsvis, kommer rapporteringsverktyg att användas. Den här typen av rapporter kan sparas och granskas när som helst.
(iii) Statistikverktyg: Om företaget vill göra en analys av en bred bild av data kommer statistiska verktyg att användas för att generera sådana resultat. Företag kan göra slutsatser och förutsägelser genom att förstå dessa strategiska resultat.
# 2) Analytisk bearbetning
Detta är en typ av applikation där ett datalager möjliggör analytisk bearbetning av data som lagras i det. Data kan analyseras med följande operationer som Slice-and-Dice, Drill Down, Roll Up och Pivoting.
(i) Slice-and-Dice : Datalager gör det möjligt för skiv-och-tärningsoperationer att analysera data som nås från många nivåer med en kombination av olika perspektiv. Slice-and-tice-funktionen använder internt drill-down-mekanismen. Skivning fungerar på dimensionell data.
Som en del av affärsbehovet, om vi fokuserar på ett enda område analyserar skivning dimensionerna för det specifika området enligt kraven och ger resultaten. Dicing fungerar på analytiska operationer. Dicing zoomar för en specifik uppsättning attribut över alla dimensioner för att ge olika perspektiv. Dimensionerna betraktas från en eller flera skivor i följd.
(ii) Borra ner : Om företaget vill gå till en mer detaljerad nivå av något sammanfattningsnummer, så är drill down en operation för att navigera ner den sammanfattningen till mindre detaljerade nivåer. Detta ger en bra uppfattning om vad som händer och var verksamheten måste fokuseras närmare.
Borra ner spår från hierarkinivån tills den mindre detaljnivån för grundorsaksanalysen. Detta kan lätt förstås med ett exempel, eftersom försäljning kan gå ner från Landsnivå -> Regionnivå -> Statlig nivå -> Distriktsnivå -> Butiksnivå.
(iii) Rulla upp : Rulla upp arbeten mittemot borrningen. Om företaget vill ha några sammanfattade data, kommer roll-up till bilden. Det aggregerar detaljerna på detaljnivå genom att flytta uppåt i dimensionshierarkin.
Roll-ups används för att analysera systemets utveckling och prestanda.
Detta kan förstås med en Exempel som i en försäljningsupprullning där totalen kan rullas upp från Stadsnivå -> Statsnivå -> Regionnivå -> Landsnivå .
(iv) Pivot : Pivoting analyserar måttdata genom att rotera data på kuberna. Till exempel, raddimensionen kan bytas in i kolumndimensionen och tvärtom.
# 3) Data Mining
Detta är en typ av applikation där datalageret möjliggör kunskap upptäckt av data och resultat kommer att representeras med visualiseringsverktyg. I ovanstående två typer av applikationer kan informationen drivas av användarna.
Eftersom informationen går enormt i olika företag är det svårt att fråga och analysera datalagret för att få all möjlig insikt i data. Sedan kommer data mining in i bilden för att åstadkomma upptäckten av kunskap.
Detta driver in i data med alla tidigare föreningar, resultat etc och förutsäger framtiden. Därför är detta datadrivet och inte användardrivet. Data kan upptäckas genom att hitta dolda mönster, associationer, klassificeringar och förutsägelser.
Data mining går djupare med data för att förutsäga framtiden. Baserat på förutsägelserna föreslår det också de åtgärder som ska vidtas.
Nedan följer de olika aktiviteterna i Data Mining:
- Mönster: Data mining upptäcker mönster som förekommer i databasen. Användare kan tillhandahålla de affärsingångar som vissa kunskaper om mönstren förväntas för beslutsfattande.
- Föreningar / relationer: Data mining upptäcker relationer mellan objekten med frekvensen av deras associeringsregler. Detta förhållande kan vara mellan två eller flera objekt (eller) det kan upptäcka reglerna inom egenskaperna för samma objekt.
- Klassificering: Data mining organiserar data i en uppsättning fördefinierade klasser. Så om något objekt plockas upp från data, associerar klassificeringen respektive klassetikett till det objektet.
- Förutsägelse: Data mining jämför en uppsättning befintliga värden för att hitta bästa möjliga framtida värden / trender i affärer.
Därför, baserat på alla ovanstående resultat, föreslår Data mining också en uppsättning åtgärder som ska vidtas.
Kännetecken för ett datalager
Ett datalager är baserat på följande dataegenskaper som ämnesorienterad, integrerad, icke-flyktig och tidsvariant.
metod som tar in en matris
# 1) Ämnesorienterad: Vi kan definiera ett datalager som ämnesorienterat eftersom vi kan analysera data med avseende på ett specifikt ämnesområde snarare än tillämpningen av kloka data. Detta ger resultat som är mer definierade för enkelt beslutsfattande. När det gäller ett utbildningssystem kan ämnesområdena vara studenter, ämnen, betyg, lärare etc.
# 2) Integrerad: Uppgifterna i datalagret är integrerade från olika källor såsom andra relationsdatabaser, platta filer etc. En så stor mängd data hämtas för effektiv dataanalys. Men det kan finnas datakonflikter eftersom olika datakällor kan ha olika format. Datalageret ger all denna information i ett konsekvent format över hela systemet.
# 3) Icke-flyktig: När data har laddats in i datalagret kan de inte ändras. Logiskt är detta acceptabelt eftersom frekvent ändring av data inte låter dig analysera data. De frekventa förändringarna i den operativa databasen kan laddas in i ett datalager på schemalagd basis, under denna process läggs nya data till, men tidigare data raderas inte och de förblir som historiska data.
# 4) Tidsvariant: All historisk data tillsammans med den senaste informationen i datalageret spelar en avgörande roll för att hämta data under vilken tid som helst. Om företaget vill ha några rapporter, grafer osv. För att kunna jämföra det med tidigare år och för att analysera trenderna krävs alla gamla data som är 6 månader gamla, 1 år eller till och med äldre data etc.
Fördelar med ett datalager
När ett datalagersystem är produktivt får en organisation följande fördelar genom att använda det:
- Förbättrad Business Intelligence
- Ökad prestanda för system och frågor
- Business Intelligence från flera källor
- Tidig tillgång till data
- Förbättrad datakvalitet och konsistens
- Historisk intelligens
- Hög avkastning på investeringen
# 1) Förbättrad Business Intelligence: Tidigare när Data Warehousing och Business Intelligence inte fanns, brukade affärsanvändare och analytiker fatta beslut med en begränsad mängd data och med sin egen magkänsla.
DW & BI har gjort en förändring genom att ge insikter med verkliga fakta och med de verkliga organisationsdata som samlas över en tidsperiod. Företagsanvändare kan direkt fråga någon av affärsprocessdata som marknadsföring, ekonomi, försäljning etc., baserat på deras behov av strategiskt beslutsfattande och smarta affärsbeslut.
# 2) Ökad system- och frågaprestanda: Datalagring samlar skrymmande information från heterogena system och placerar den under ett system så att en enda frågemotor kan användas för snabb datainhämtning.
# 3) Business Intelligence från flera källor: Vet du hur Business Intelligence i allmänhet fungerar på data? Det absorberar data från flera system, delsystem, plattformar och datakällor för att arbeta med ett projekt. Datalager löser dock detta problem för BI genom att konsolidera all projektinformation utan några dubbletter.
# 4) Tidig åtkomst till data: Företagsanvändare kommer att dra nytta av att spendera mindre tid på datainhämtning. De har några verktyg till hands, med vilka de kan fråga informationen med minimal teknisk kunskap och generera rapporter. Detta gör att affärsanvändare spenderar tillräckligt med tid på dataanalys snarare än datainsamling.
# 5) Förbättrad datakvalitet och konsistens: Datalagring förvandlar data med olika källsystemsformat till ett enda format. Därför kanske samma affärsenheter som hämtar data till datalageret kan återanvända DW-förvaret för sina affärsrapporter och frågor.
Således från organisationens syn kommer alla affärsenheter att stå i beredskap med konsekventa resultat / rapporter. Således hjälper denna goda kvalitet och konsekventa data att driva ett framgångsrikt företag.
# 6) Historisk intelligens: Datalager underhåller alla historiska data som inte underhålls av några transaktionssystem. Den här stora mängden data används för att analysera data för en specifik tidsperiod och för att rapportera dem, och för att analysera trenderna för att förutsäga framtiden.
# 7) Hög avkastning på investering (ROI): Vem som helst startar ett företag genom att förvänta sig god avkastning på investeringarna, i termer av större vinster och lägre kostnader. I den verkliga datavärlden har många studier visat att implementering av datalager och Business Intelligence-system genererade höga intäkter och sparade kostnaden.
Nu ska du kunna förstå hur ett väldesignat DW-system ger fördelar för ditt företag.
Nackdelar med datalagring
Även om det är ett mycket framgångsrikt system är det bra att känna till några av fallgroparna i systemet:
- Att skapa ett datalager är definitivt en tidskrävande och komplex process.
- Underhållskostnaden är hög eftersom systemet behöver kontinuerliga uppgraderingar. Det kan också öka om det inte används korrekt.
- Korrekt utbildning bör ges till utvecklare, testare och användare för att förstå DW-systemet och för att implementera det tekniskt.
- Det kan finnas känslig data som inte kan laddas in i DW för beslutsfattande.
- Omstrukturering av alla affärsprocesser (eller) källsystem har stor inverkan på DW.
Slutsats
Vi hoppas att denna inledande handledning gav en bakgrund av grundläggande datalagring. Vi hade en djupgående titt på alla grundläggande begrepp för datalagring.
Vi lärde oss definitionen, typerna, egenskaperna, fördelarna och nackdelarna med datalagring i denna omfattande handledning.
=> Läs igenom Easy Data Warehousing Training Series.
Rekommenderad läsning
- Data Mining Exempel: De vanligaste tillämpningarna av Data Mining 2021
- Hur datadriven testning fungerar (exempel på QTP och selen)
- Data Mining: Process, Techniques & Major Issues In Data Analysis
- ETL Testing Data Warehouse Testing Tutorial (En komplett guide)
- Bästa GRATIS C # -handledningsserie: Den ultimata C # -guiden för nybörjare
- Handledning för datanätverk: den ultimata guiden
- QTP-handledning # 18 - Datadrivna och hybridramar förklarade med QTP-exempel
- 10+ bästa datainsamlingsverktyg med datainsamlingsstrategier