metadata data warehouse explained with examples
Denna handledning förklarar rollen för metadata i ETL, exempel och typer av metadata, metadataförvaring och utmaningar i metadatahantering:
Data Mart i ETL förklarades i detalj i vår tidigare handledning.
Begreppet Metadata är väldigt viktigt i ETL och denna handledning kommer att förklara allt om Metadata.
Det täcker rollen som metadata, exempel på metadata, liksom dess typer, metadataförvaring, hur kan man hantera datalagringsmetadata, utmaningar för metadatahantering.
Du kommer också att lära känna vad som är metadriven ETL och skillnaden mellan data och metadata.
=> Läs igenom utbildningsserien för gratis datalager här.
Målgrupp
- Datalager / ETL-utvecklare och testare.
- Databasproffs med grundläggande kunskap om databaskoncept.
- Databasadministratörer / big data-experter som vill förstå datalager / ETL-områden.
- Högskoleexamen / nybörjare som letar efter datalagerjobb.
Vad du kommer att lära dig:
c ++ exempel på reguljärt uttryck
Metadata i ETL
Användare av datalagerteam (eller) kan använda metadata i olika situationer för att bygga, underhålla och hantera systemet. Den grundläggande definitionen av metadata i datalagret är, “Det är data om data” .
Metadata kan innehålla all slags information om DW-data som:
- Källa för eventuell extraherad data.
- Användning av DW-data.
- Alla typer av data och dess värden.
- Funktioner i data.
- Transformationslogik för extraherad data.
- DW-tabeller och deras attribut.
- DW-objekt
- Tidsstämplar
Metadata fungerar som en innehållsförteckning för data i DW-systemet, som visar tekniken med mer information om den informationen. Med enkla ord kan du tänka på ett index i valfri bok som fungerar som metadata för innehållet i den boken.
På samma sätt fungerar Metadata som ett index för DW-innehållet. Alla sådana metadata lagras i ett arkiv. Genom att gå igenom metadata får slutanvändarna veta varifrån de kan börja analysera DW-systemet. Annars är det svårt för slutanvändarna att veta var man ska börja dataanalysen i ett så stort DW-system.
Rollen för metadata i datalageret
Tidigare skapades och underhålls Metadata som dokument. Men i dagens digitala värld har olika verktyg gjort det här jobbet enklare genom att spela in metadata på varje nivå i DW-processen.
Metadata som skapats av ett verktyg kan standardiseras (dvs. data kan föras till ett unikt format) och kan återanvändas över de andra verktygen var som helst i DW-systemet.
Som vi är medvetna om att operativsystem behåller aktuell data behåller DW-systemen historiska och aktuella data.
Metadata måste hålla reda på alla förändringar som sker i källsystem, dataextraktions- / transformationsmetoder och i strukturen (eller) innehållet i data som kommer att uppstå i denna process. Metadata kommer att ha olika versioner för att hålla reda på alla dessa förändringar under flera år.
Tillräckliga metadata i förvaret hjälper alla användare att analysera systemet mer effektivt och oberoende. Genom att förstå metadata kan du köra alla slags frågor på DW-data för bästa resultat.
Bildrepresentation av metadata:
Exempel på metadata i enkla termer
Nedan följer några av exemplen på Metadata.
- Metadata för en webbsida kan innehålla språket det är kodat på, de verktyg som används för att bygga det, stödja webbläsare etc.
- Metadata för en digital bild kan innehålla storleken på bilden, upplösning, färgintensitet, bildskapningsdatum etc.
- Metadata för ett dokument kan innehålla dokumentets skapade datum, senast ändrade datum, dess storlek, författare, beskrivning etc.
Jämförelse mellan data och metadata
S. nr | Data | Metadata |
---|---|---|
1 | Data är en uppsättning information. | Metadata är information om data. |
två | Data kan (eller) kanske inte behandlas. | Metadata är alltid bearbetade data. |
Typer av metadata
Klassificeringen av metadata i olika typer hjälper oss att förstå det bättre. Denna klassificering kan baseras på dess användning (eller) användarna etc.
Låt oss utforska de olika typerna av metadata nedan:
# 1) Bakrummetadata: Riktar DBA: erna (eller) slutanvändarna på extrakt, rengöring och laddningsprocesser.
# 2) Metadata i främre rummet: Riktar slutanvändarna att arbeta med BI-verktyg och rapporter.
vilka program kan redigera pdf-filer
# 3) Processmetadata: Denna lagrar metadata för ETL-processen, till exempel antalet laddade rader, avvisade, bearbetade och det tar tid att ladda in i ett DW-system etc. Denna information kan också vara tillgänglig för slutanvändarna.
Samtidigt är statistiken för mellanläggstabellerna också viktiga för ETL-teamet. Denna metadata lagrar iscensättningstabellerna processdata, till exempel antalet rader laddade, avvisade, bearbetade och den tid det tar att ladda in i varje iscensättningstabell.
# 4) Datalinje: Detta lagrar den logiska omvandlingen för varje källsystemselement till DW-målelementet.
# 5) Affärsdefinitioner: Kontext för DW-tabeller har härletts från affärsdefinitionerna. Varje attribut i en tabell är associerat med en affärsdefinition. Därför bör dessa lagras som metadata (eller) vilket annat dokument som helst för framtida referens. Både slutanvändarna och ETL-teamet är beroende av dessa affärsdefinitioner.
# 6) Tekniska definitioner: Tekniska definitioner används uteslutande inom datastagingområdet mer än affärsdefinitionerna. Huvudsyftet är att minska tvetydigheten medan du skapar iscensättningstabeller och att återanvända befintliga tabeller. Tekniska definitioner lagrar detaljerna i varje iscensättningstabell, t.ex. dess plats och struktur.
Varje iscensättningstabell är tekniskt dokumenterad här, om den inte är dokumenterad betyder det att iscensättningstabellen inte finns. Detta undviker rekreation av samma iscensättningstabell.
# 7) Affärsmetadata: Data kommer att lagras i affärsmässiga termer till förmån för slutanvändare / analytiker / chefer / alla användare. Affärsmetadata är proxy till källsystemets data, dvs inga datahantering manipuleras på den. Det kan härledas från alla affärsdokument och affärsregler.
# 8) Tekniska metadata: Detta lagrar tekniska data såsom tabellattribut, deras datatyper, storlek, primära nyckelattribut, främmande nyckelattribut och eventuella index. Detta är mer strukturerat jämfört med affärsmetadata.
Tekniska metadata är huvudsakligen avsedda för DW-teamet, såsom utvecklare / testare / analytiker / DBA: er för att bygga (eller) underhålla systemet. Detta används också avsevärt av administratörerna för att övervaka databasladdningar och säkerhetskopior av data etc.
# 9) Operativa metadata: Som vi vet kommer data till DW-systemet från många operativsystem med olika datatyper och fält. DW-extrakt omvandlar sådan data till den unika typen och laddar all denna information i systemet.
Samtidigt måste den kunna länka tillbaka data till dess källsystemdata. Metadata som lagrar all denna information om operationell datakälla kallas Operational metadata.
# 10) Källsysteminformation:
Du kan samla in följande metadata från olika källsystem:
- Databas (eller) filsystem: Detta lagrar namnen på källsystemets databaser (eller) filer.
- Tabellspecifikationer: Detta kommer att lagra alla detaljer om tabeller som tabellnamn, dess syfte, storlek, attribut, primära nycklar och främmande nycklar.
- Regler för undantagshantering: Detta lagrar olika metoder för att återställa systemet i händelse av systemfel.
- Affärsdefinitioner: Detta kommer att lagra affärsdefinitioner för en kort förståelse av data.
- Affärsregler: Detta lagrar en uppsättning regler för varje tabell för att förstå dess data och för att undvika inkonsekvens.
Källsystemets metadata sparar mycket tid för DW-teamet medan data analyseras.
# 11) ETL-jobbmetadata: ETL-jobbmetadata är mycket viktigt eftersom det lagrar informationen om alla jobb som ska behandlas i schemat, för att ladda ETL-systemet.
Denna metadata lagrar följande information:
- Jobb namn: ETL-jobbnamn.
- Syfte med jobbet: Syftet med att driva jobbet.
- Källtabeller / filer: Det ger namnen och platsen för alla tabeller och filer som data kommer från från detta ETL-jobb. Detta kan ha mer än ett tabell (eller) filnamn.
- Måltabeller / filer: Det ger namnen och platsen för alla tabeller och filer som uppgifterna omvandlas till genom detta ETL-jobb. Detta kan ha mer än ett tabell (eller) filnamn.
- Avvisade data: Den innehåller namnen och platsen för alla tabeller och filer från vilka den avsedda källdata inte har laddats in i målet.
- Förprocesser: Det ger de jobb (eller) skriptnamn som det aktuella jobbet är beroende av. Det betyder att de måste köras framgångsrikt innan de kör det aktuella jobbet.
- Efter processer: Det innehåller de jobb (eller) skriptnamn som ska köras omedelbart efter det aktuella jobbet för att slutföra processen.
- Frekvens: Den ger information om hur ofta jobbet ska utföras, dvs. dagligen, varje vecka (eller) varje månad.
# 12) Metadata för transformation: Transformationsmetadata lagrar all ETL-processrelaterad konstruktionsinformation. Varje enskild manipulation av data i ETL-processen är känd som datatransformation.
Varje uppsättning funktioner, lagrade procedurer, markörer, variabler och slingor i ETL-processen kan betraktas som transformationer. Men sådana transformationer kan inte dokumenteras separat som metadata.
Hela ETL-processen är uppbyggd med datatransformationer. Få transformationer i ETL kan fördefinieras och användas över DW-systemet. ETL-utvecklare spenderar sin tid på att bygga (eller) bearbeta alla datatransformationer. Återanvändning av de fördefinierade transformationerna under ETL-processutvecklingen kommer att påskynda arbetet.
Läs igenom nedanstående datatransformationer som du hittar i ETL:
- Utdrag av källdata: Detta innebär datatransformationer för att läsa från källsystemsdata, såsom en SQL Select-fråga (eller) FTP (eller) som läser XML / mainframe-data.
- Surrogatnyckelgeneratorer: Det nya sekvensnumret som ska genereras för varje databastabellrad lagras som metadata.
- Sökningar: Sökningar kan skapas med alla IN-uttalanden, inre kopplingar och yttre sammanfogningar. Dessa används huvudsakligen för att hålla surrogatnycklarna från respektive dimensionstabell medan du laddar ett faktum.
- Filter: Filter rekommenderas för att sortera ut de data som ska extraheras, laddas och avvisas i ETL-processen. Filtrera data i de tidiga stadierna av ETL-systemet är en bra praxis. Filter används beroende på affärsregler (eller) begränsningar.
- Aggregat: Beroende på nivån på datagranularitet kan metadata relaterade till aggregerade funktioner användas som summa, räkning, genomsnitt etc.
- Uppdatera strategier: Det här är reglerna som tillämpas på en post när data uppdateras. Om det finns någon modifiering av befintliga data kommer detta att indikera om en post ska läggas till, raderas (eller) uppdateras.
- Mållastare: Target loader lagrar detaljerna i databasen, tabellnamn och kolumnnamn som data ska laddas in genom ETL-processen. Dessutom kommer detta också att lagra detaljerna i bulkbelastningsverktyget om det finns, som utförs när data laddas in i ETL-systemet.
Varje transformation kan namnges distinkt med en kort anteckning om dess syfte.
Några exempel på namngivningskonventioner anges här för ovanstående lista över transformationer.
SRC_ SEQ_ LKP_ FIL_ AGG_ UPD__ TRG_
Metadata Repository I ETL
Ett metadataförvaring är en plats där alla typer av metadata lagras antingen i en lokal databas (eller) i en virtuell databas. Varje typ av metadata, t.ex. affärsmetadata (eller) tekniska metadata, kan separeras logiskt i ett arkiv.
Förutom de två ovanstående typerna har förvaret också ytterligare en komponent som heter Informationsnavigator.
Informationsnavigatorn kan användas för att utföra följande uppgifter:
- Gränssnitt från frågeverktyget: Detta ger ett gränssnitt till frågeverktygen för att komma åt DW-metadata.
- För mer information: Detta gör det möjligt för användaren att borra ner metadata för mer detaljerad information. Som ett exempel kan användaren på första nivån få en definition av datatabellen. Genom att borra ner kan han få tabellattributen på nästa nivå. Genom att borra ner data mer kan han få information om varje attribut etc.
- Granska fördefinierade frågor och rapporter: Detta gör det möjligt för användaren att granska fördefinierade frågor och rapporter. Detta fungerar som en referens till ramfrågor på egen hand med lämpliga parametrar etc.
Bildrepresentation av Metadata Repository:
Hur kan datalagringsmetadata hanteras?
Människor, processer och verktyg är nyckelkällorna för att hantera metadata.
- Människor bör förstå metadata för lämplig användning.
- Processen kommer att integrera metadata i verktygsförvaret (eller) förvaret med utvecklingen av DW-livscykeln för framtida användning.
- Därefter kan metadata hanteras med verktyg.
Utmaningar för hantering av metadata
När metadata har skapats kan du möta utmaningarna nedan när du integrerar och hanterar metadata i systemet.
- Att ta olika metadataformat till ett standardformat kan behöva mer ansträngning om olika verktyg används i DW-systemet, eftersom metadata kan lagras över kalkylblad, applikationer (eller) databaser.
- Metadataformat har inga etablerade branschomfattande standarder. Med denna brist på standardiserad process är det svårt att skicka metadata genom olika nivåer av DW-systemet och verktygen.
- Att konsekvent underhålla olika versioner av historiska metadata är en komplex uppgift.
Vad är metadata driven ETL?
Metadatadriven ETL skapar ett lager för att förenkla dataladdningsprocessen till ett DW-system. Du kan bestämma om du vill bearbeta data till systemet (eller) beroende på metadata. Därför kan du kalla det är som metadata-driven ETL.
Slutsats
Den viktiga rollen som Metadata har för att bestämma framgången (eller) misslyckandet för ett DW-system förklarades i detalj i denna handledning.
Vi undersökte också betydelsen, rollen, exemplen, typerna, utmaningarna av metadata i detalj tillsammans med den berörda bildrepresentationen.
Vi hoppas att dessa informativa handledning från denna Data Warehouse-serie berikade din kunskap om datalagring och relaterade begrepp !!!
Glad läsning!!
=> Besök här för att lära dig datalagring från Scratch.
bästa registerrensaren för Windows 7 64 bitar
Rekommenderad läsning
- Data Warehouse Testing Tutorial med exempel | ETL Testguide
- ETL Testing Data Warehouse Testing Tutorial (En komplett guide)
- Dimensionell datamodell i datalager - handledning med exempel
- Data Mart Tutorial - Typer, exempel och implementering av Data Mart
- Vad är ETL-process (extrahera, transformera, ladda) i datalager?
- De 10 bästa verktygen för datakartning som är användbara i ETL-processen (2021 LIST)
- Exempel på datautvinning: De vanligaste tillämpningarna av datautvinning 2021
- ETL Testing Intervju Frågor och svar