data mining process models
Denna handledning om datautvinning behandlar modeller för utvinning av data, steg och utmaningar som är involverade i datautvinningsprocessen:
Data Mining tekniker förklarades i detalj i vår tidigare handledning i detta Komplett datautbildningsutbildning för alla . Data Mining är ett lovande område inom vetenskap och teknik.
Data Mining, som också kallas Knowledge Discovery in Databases, är en process för att upptäcka användbar information från stora datamängder som lagras i databaser och datalager. Denna analys görs för beslutsprocesser i företagen.
Data Mining utförs med hjälp av olika tekniker som kluster, association och sekventiell mönsteranalys och beslutsträd.
Vad du kommer att lära dig:
- Vad är data mining?
- Dataextraktion som en process
- Data Mining Modeller
- Steg i databearbetningsprocessen
- Data Mining Process i Oracle DBMS
- Data Mining Process In Datawarehouse
- Vad är tillämpningen av extraktion av data?
- Data Mining Utmaningar
- Slutsats
- Rekommenderad läsning
Vad är data mining?
Data Mining är en process för att upptäcka intressanta mönster och kunskap från stora datamängder. Datakällorna kan inkludera databaser, datalager, webben och andra informationsförvar eller data som strömmas in i systemet dynamiskt.
Varför behöver företag extrahera data?
Med tillkomsten av Big Data har data mining blivit vanligare. Big data är extremt stora datamängder som kan analyseras av datorer för att avslöja vissa mönster, föreningar och trender som kan förstås av människor. Big data har omfattande information om olika typer och varierat innehåll.
Således med denna mängd data skulle enkel statistik med manuell intervention inte fungera. Detta behov uppfylls av datagruppsprocessen. Detta leder till förändring från enkel datastatistik till komplexa datagruppalgoritmer.
Datautvinningsprocessen kommer att extrahera relevant information från rådata som transaktioner, foton, videor, platta filer och automatiskt bearbeta informationen för att generera rapporter som är användbara för företag att vidta åtgärder.
Således är datautvinningsprocessen avgörande för företag att fatta bättre beslut genom att upptäcka mönster och trender i data, sammanfatta data och ta ut relevant information.
Dataextraktion som en process
Varje affärsproblem kommer att undersöka rådata för att bygga en modell som beskriver informationen och tar fram de rapporter som ska användas av verksamheten. Att bygga en modell från datakällor och dataformat är en iterativ process eftersom rådata finns i många olika källor och många former.
Data ökar dag för dag, alltså när en ny datakälla hittas kan den ändra resultaten.
Nedan följer beskrivningen av processen.
(bild källa )
Data Mining Modeller
Många industrier som tillverkning, marknadsföring, kemikalier och flygindustrin utnyttjar datautvinning. Således ökar efterfrågan på standardiserade och tillförlitliga data mining-processer drastiskt.
De viktiga modellerna för datamining inkluderar:
# 1) Standardprocess för datautvinning (CRISP-DM)
CRISP-DM är en pålitlig datamining-modell som består av sex faser. Det är en cyklisk process som ger en strukturerad inställning till datagruppsprocessen. De sex faserna kan implementeras i valfri ordning men ibland krävs det att man spårar tillbaka till de tidigare stegen och att åtgärderna upprepas.
hur man gör standardgateway tillgänglig
De sex faserna i CRISP-DM inkluderar:
# 1) Affärsförståelse: I detta steg fastställs företagens mål och de viktiga faktorer som hjälper till att uppnå målet upptäcks.
# 2) Dataförståelse: Detta steg samlar in hela data och fyller i data i verktyget (om du använder något verktyg). Uppgifterna listas med dess datakälla, plats, hur de förvärvas och om något problem uppstår. Data visualiseras och frågas för att kontrollera dess fullständighet.
# 3) Dataförberedelse: Detta steg handlar om att välja lämplig data, rengöra, konstruera attribut från data, integrera data från flera databaser.
# 4) Modellering: Val av datagruppsteknik som beslutsträd, generera testdesign för utvärdering av vald modell, bygga modeller från datamängden och bedöma den inbyggda modellen med experter för att diskutera resultatet görs i detta steg.
# 5) Utvärdering: Detta steg kommer att avgöra i vilken grad den resulterande modellen uppfyller företagskraven. Utvärdering kan göras genom att testa modellen på riktiga applikationer. Modellen granskas för eventuella misstag eller steg som bör upprepas.
# 6) Driftsättning: I det här steget skapas en distributionsplan, en strategi för att övervaka och upprätthålla datautvinningsmodellens resultat för att kontrollera dess användbarhet, slutrapporter görs och granskning av hela processen görs för att kontrollera eventuella misstag och se om något steg upprepas .
lista över falska e-postadresser att använda
(bild källa )
# 2) SEMMA (Sample, Explore, Modify, Model, Assess)
SEMMA är en annan metod för datautvinning utvecklad av SAS Institute. Förkortningen SEMMA står för sampla, utforska, modifiera, modellera, bedöma.
SEMMA gör det enkelt att tillämpa utforskande statistik- och visualiseringstekniker, välja och omvandla de signifikanta förutsagda variablerna, skapa en modell med variablerna för att komma ut med resultatet och kontrollera dess noggrannhet. SEMMA drivs också av en mycket iterativ cykel.
Steg i SEMMA
- Prov: I det här steget extraheras en stor dataset och ett exempel som representerar fullständig data tas ut. Provtagning minskar beräkningskostnaderna och bearbetningstiden.
- Utforska: Uppgifterna undersöks för eventuella outlier och avvikelser för en bättre förståelse av data. Uppgifterna kontrolleras visuellt för att ta reda på trender och grupperingar.
- Ändra: I det här steget görs manipulering av data som gruppering och undergruppering genom att hålla den modell som ska byggas i fokus.
- Modell: Baserat på utforskningar och modifieringar konstrueras modellerna som förklarar mönstren i data.
- Bedöma: Nyttan och tillförlitligheten hos den konstruerade modellen utvärderas i detta steg. Test av modellen mot verkliga data görs här.
Både SEMMA- och CRISP-metoden fungerar för kunskapsprocessen. När modellerna har byggts distribueras de för företag och forskningsarbete.
Steg i databearbetningsprocessen
Datautvinningsprocessen är uppdelad i två delar, dvs Data Preprocessing och Data Mining. Data Preprocessing innebär datarengöring, dataintegration, datareduktion och datatransformation. Data mining-delen utför data mining, mönstervärdering och kunskapsrepresentation av data.
(bild källa )
Varför förbehandlar vi data?
Det finns många faktorer som avgör användbarheten av data såsom noggrannhet, fullständighet, konsistens, aktualitet. Uppgifterna måste vara av kvalitet om de uppfyller det avsedda syftet. Således är förbehandling avgörande i datagruppsprocessen. De viktigaste stegen som är involverade i förbehandling av data förklaras nedan.
# 1) Datarengöring
Datarengöring är det första steget i datautvinning. Det är viktigt eftersom smutsiga data om de används direkt i gruvdrift kan orsaka förvirring i procedurer och ge felaktiga resultat.
I grund och botten innebär detta steg borttagning av bullriga eller ofullständiga data från samlingen. Många metoder som i allmänhet rensar data i sig är tillgängliga men de är inte robusta.
Detta steg utför det rutinmässiga rengöringsarbetet genom att:
(i) Fyll de saknade uppgifterna:
Saknade data kan fyllas på med metoder som:
- Ignorerar tupeln.
- Fyller det saknade värdet manuellt.
- Använd måttet på central tendens, median eller
- Fyll i det mest troliga värdet.
(ii) Ta bort de bullriga data: Slumpmässigt fel kallas bullriga data.
Metoder för att ta bort buller är:
Binning: Binningmetoder används genom att sortera värden i skopor eller lagerplatser. Utjämning utförs genom att konsultera närliggande värden.
Binning görs genom att utjämna med soptunnan, dvs. varje sopkorg ersätts av medelvärdet för soptunnan. Utjämning med en median, där varje bin-värde ersätts med en bin-median. Utjämning med behållargränser, dvs. minimi- och maximivärdena i soptunnan är fackgränser och varje fackvärde ersätts med närmaste gränsvärde.
- Identifiera avvikarna
- Lösa inkonsekvenser
# 2) Dataintegration
När flera heterogena datakällor som databaser, datakuber eller filer kombineras för analys, kallas denna process för dataintegration. Detta kan hjälpa till att förbättra noggrannheten och hastigheten för datagruppsprocessen.
Olika databaser har olika namnkonventioner för variabler, genom att orsaka uppsägningar i databaserna. Ytterligare datarengöring kan utföras för att avlägsna uppsägningar och inkonsekvenser från dataintegrationen utan att påverka tillförlitligheten hos data.
Dataintegration kan utföras med hjälp av datamigrationsverktyg som Oracle Data Service Integrator och Microsoft SQL etc.
# 3) Datareduktion
Denna teknik används för att erhålla relevant data för analys från insamlingen av data. Representationsstorleken är mycket mindre i volym samtidigt som integriteten bibehålls. Datareduktion utförs med metoder som Naive Bayes, Beslutsträd, Neurala nätverk etc.
Några strategier för datareduktion är:
- Dimensionalitetsreduktion: Minska antalet attribut i datasetet.
- Numerosity Reduction: Ersätta den ursprungliga datavolymen med mindre former av datarepresentation.
- Datakomprimering: Komprimerad representation av originaldata.
# 4) Datatransformation
I den här processen omvandlas data till ett formulär som är lämpligt för datagruppsprocessen. Data konsolideras så att gruvprocessen blir effektivare och mönstren är lättare att förstå. Data Transformation involverar Data Mapping och kodgenereringsprocess.
Strategier för datatransformation är:
- Glättning: Ta bort brus från data med hjälp av kluster, regressionsteknik etc.
- Aggregering: Sammanfattningsoperationer tillämpas på data.
- Normalisering: Skalning av data för att falla inom ett mindre intervall.
- Diskretisering: Råvärden för numeriska data ersätts med intervall. Till exempel, Ålder.
# 5) Data Mining
Data Mining är en process för att identifiera intressanta mönster och kunskap från en stor mängd data. I dessa steg används intelligenta mönster för att extrahera datamönstren. Uppgifterna representeras i form av mönster och modeller struktureras med hjälp av klassificerings- och klustringstekniker.
# 6) Mönsterutvärdering
Detta steg handlar om att identifiera intressanta mönster som representerar kunskapen baserat på intressanta mått. Datasammanfattnings- och visualiseringsmetoder används för att göra informationen förståelig för användaren.
# 7) Kunskapsrepresentation
Kunskapsrepresentation är ett steg där datavisualisering och kunskapsrepresentationsverktyg används för att representera den brytade data. Data visualiseras i form av rapporter, tabeller etc.
Data Mining Process i Oracle DBMS
RDBMS representerar data i form av tabeller med rader och kolumner. Data kan nås genom att skriva databasfrågor.
Relationsdatabashanteringssystem som Oracle stöder datautvinning med CRISP-DM. Faciliteterna i Oracle-databasen är användbara för dataförberedelse och förståelse. Oracle stöder datautvinning via Java-gränssnitt, PL / SQL-gränssnitt, automatiserad datautvinning, SQL-funktioner och grafiska användargränssnitt.
Data Mining Process In Datawarehouse
Ett datalager är modellerat för en flerdimensionell datastruktur som kallas datakub. Varje cell i en datakub lagrar värdet på vissa aggregerade mått.
Datautvinning i flerdimensionellt utrymme utförd i OLAP-stil (Online Analytical Processing) där det möjliggör utforskning av flera kombinationer av dimensioner vid varierande granularitetsnivåer.
Vad är tillämpningen av extraktion av data?
Lista över områden där datautvinning används ofta inkluderar:
# 1) Analys av finansiell data: Data Mining används i stor utsträckning inom bank-, investerings-, kredittjänster, inteckning, billån och försäkrings- och aktieinvesteringstjänster. Uppgifterna som samlas in från dessa källor är fullständiga, tillförlitliga och av hög kvalitet. Detta underlättar systematisk dataanalys och datautvinning.
# 2) Detalj- och telekommunikationsindustrin: Detaljhandeln samlar enorma mängder data om försäljning, kundshistorik, varutransport, konsumtion och service. Datautvinning i detaljhandeln hjälper till att identifiera kundbeteenden, kundmönster och trender, förbättra kvaliteten på kundtjänst, bättre kundkvarhållande och tillfredsställelse.
# 3) Vetenskap och teknik: Datavetenskap datavetenskap och teknik kan hjälpa till att övervaka systemstatus, förbättra systemprestanda, isolera programvarufel, upptäcka programvaruplagiering och känna igen systemfel.
# 4) Detektion och förebyggande av intrång: Intrång definieras som varje uppsättning åtgärder som hotar integritet, konfidentialitet eller tillgänglighet för nätverksresurser. Data mining metoder kan hjälpa till med att upptäcka och förebygga intrångssystem för att förbättra dess prestanda.
# 5) Rekommendationssystem: Rekommendationssystem hjälper konsumenter genom att göra produktrekommendationer som är av intresse för användarna.
Data Mining Utmaningar
Nedan listas de olika utmaningarna i Data Mining.
- Data Mining behöver stora databaser och datainsamling som är svåra att hantera.
- Datautvinningsprocessen kräver domenexperter som återigen är svåra att hitta.
- Integration från heterogena databaser är en komplex process.
- Förfarandena på organisationsnivå måste modifieras för att använda datautvinningsresultaten. Omstrukturering av processen kräver ansträngning och kostnad.
Slutsats
Data Mining är en iterativ process där gruvprocessen kan förfinas och nya data kan integreras för att få mer effektiva resultat. Data Mining uppfyller kraven på effektiv, skalbar och flexibel dataanalys.
Det kan betraktas som en naturlig utvärdering av informationstekniken. Som en kunskapsupptäcksprocess fullbordar dataförberedelser och datautvinning uppgifterna.
bästa kloningsprogramvaran för Windows 10
Data mining-processer kan utföras på alla typer av data som databasdata och avancerade databaser som tidsserier etc. Data mining-processen kommer också med sina egna utmaningar.
Håll koll på vår kommande handledning för att lära dig mer om Data Mining Exempel !!
PREV-handledning | NÄSTA självstudie
Rekommenderad läsning
- Data Mining: Process, Techniques & Major Issues In Data Analysis
- Data Mining Techniques: Algoritm, Methods & Top Data Mining Tools
- De 10 bästa datakartningsverktygen som är användbara i ETL-processen (2021 LIST)
- Topp 10 databasdesignverktyg för att bygga komplexa datamodeller
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- Topp 15 bästa gratis datavärvningsverktyg: den mest omfattande listan
- Testdatahanteringskoncept, process och strategi
- JMeter-dataparameterisering med användardefinierade variabler