data mining process
Denna fördjupade handledning för dataminering förklarar vad som är datautvinning, inklusive processer och tekniker som används för dataanalys:
Låt oss förstå innebörden av termen gruvdrift genom att ta exemplet med brytning av guld från stenar, som kallas guldbrytning. Här är det användbara 'guld', därför kallas det guldbrytning.
På samma sätt benämns att ta ut användbar information från en stor mängd data som kunskapsbrytning och är populärt känd som Data Mining. Med begreppet användbar information betecknar vi de data som kan hjälpa oss att förutsäga en produktion.
Till exempel att hitta trenderna för att köpa en viss sak (säg järn) av en viss åldersgrupp ( Exempel: 40-70 år).
=>SCROLLA NERför att se hela listan över sju fördjupade handledningar för dataminering för nybörjare
Vad du kommer att lära dig:
bästa brandväggen för Windows 7 64 bitar
- Lista över handledning av datautvinning
- Översikt över handledning i den här databrukserien
- Vad är data mining?
- Vilka typer av data kan brytas ut?
- Vilka tekniker används i datautvinning?
- Viktiga frågor i dataanalys
- Slutsats
Lista över handledning av datautvinning
Handledning nr 1: Data Mining: Process, Techniques & Major Issues In Data Analysis (Denna handledning)
Handledning nr 2: Data Mining Techniques: Algorithm, Methods & Top Data Mining Tools
Handledning nr 3: Data Mining Process: Modeller, involverade processsteg och utmaningar
Handledning nr 4: Exempel på datautvinning: De vanligaste tillämpningarna av datautvinning 2019
Handledning nr 5: Beslutsträdalgoritmsexempel i datautvinning
Självstudie nr 6: Apriori-algoritm i datautvinning: implementering med exempel
Självstudie 7: Frekvensmönster (FP) Tillväxtalgoritm i Data Mining
Översikt över handledning i den här databrukserien
Handledning # | Vad du kommer att lära dig |
---|---|
Handledning_ # 7: | Frekvensmönster (FP) Tillväxtalgoritm i Data Mining Detta är en detaljerad handledning om frekvent mönsterväxtalgoritm som representerar databasen i form av ett FP-träd. FP-tillväxt mot apriori-jämförelse förklaras också här. |
Handledning_ # 1: | Data Mining: Process, Techniques & Major Issues In Data Analysis Denna fördjupade datautvinning handledning förklarar vad som är datautvinning, inklusive de processer och tekniker som används för dataanalys. |
Handledning_ # 2: | Data Mining Techniques: Algorithm, Methods & Top Data Mining Tools Denna handledning om datautvinningstekniker förklarar algoritmer, verktyg för datautvinning och metoder för att extrahera användbara data. |
Handledning_ # 3: | Data Mining Process: Modeller, involverade processsteg och utmaningar Denna handledning om datautvinning behandlar modeller för utvinning av data, steg och utmaningar som är involverade i datautvinningsprocessen. |
Handledning_ # 4: | Exempel på datautvinning: De vanligaste tillämpningarna av datautvinning 2019 De mest populära exemplen på datautvinning i verkliga livet beskrivs i den här handledningen. Du kommer att lära dig mer om Data Mining Application inom ekonomi, marknadsföring, vård och CRM. |
Handledning_ # 5: | Beslutsträdalgoritmsexempel i datautvinning Denna fördjupade handledning förklarar allt om beslutsträdsalgoritm i datautvinning. Du lär dig om exempel på beslutsträd, algoritm och klassificering. |
Handledning_ # 6: | Apriori-algoritm i datautvinning: implementering med exempel Detta är en enkel handledning om Apriori-algoritm för att ta reda på Frequent Itemsets in Data Mining. Du kommer också att lära känna stegen i Apriori och förstå hur det fungerar. |
Vad är data mining?
Data Mining är i stor efterfrågan idag eftersom det hjälper företag att studera hur försäljningen av deras produkter kan öka. Vi kan förstå detta med ett exempel på en modebutik som registrerar var och en av sina kunder som köper en artikel från sin butik.
Baserat på kundens uppgifter som ålder, kön, inkomstgrupp, yrke etc. kommer butiken att kunna ta reda på vilken typ av kunder som köper olika produkter. Här kan vi se att kundens namn inte är till nytta eftersom vi inte kan förutsäga trenden med inköp efter namn om den personen kommer att köpa en viss produkt eller inte.
Således kan den användbara informationen tas fram med åldersgrupp, kön, inkomstgrupp, yrke, etc. Att söka efter kunskap eller intressant mönster i data är 'Data Mining'. Andra termer som kan användas på plats är Knowledge Mining from data, Knowledge Extraction, Data Analysis, Pattern Analysis, etc.
En annan term som populärt används i data mining är Knowledge Discovery from Data eller KDD.
Process för dataanalys
Kunskapsprocessen är en sekvens av följande steg:
- Datarengöring: Detta steg tar bort brus och inkonsekvent data från indata.
- Dataintegration: Detta steg kombinerar flera datakällor. Datarengöring och dataintegration steg tillsammans för att bilda förbehandling av data. De förbehandlade uppgifterna lagras sedan i datalagret.
- Val av data: Dessa steg väljer data till analysuppgiften från databasen.
- Datatransformation: I det här steget tillämpas olika dataggregations- och datainsamlingstekniker för att förvandla data till en användbar form för gruvdrift.
- Data Mining: I detta steg extraheras datamönster genom att använda intelligenta metoder.
- Mönsterutvärdering: De extraherade datamönstren utvärderas och känns igen enligt intresseåtgärderna.
- Kunskapsrepresentation: Visualisering och kunskapsrepresentationstekniker används för att presentera den utvunna kunskapen för användarna.
Stegen 1 till 4 kommer under dataförbehandlingssteget. Här representeras data mining som ett enda steg men det hänvisar till hela kunskapsprocessen.
Således kan vi säga att dataanalys är processen att upptäcka intressanta mönster och kunskap från en stor mängd data. Datakällorna kan innehålla databaser, datalager, World Wide Web, platta filer och andra informativa filer.
Vilka typer av data kan brytas ut?
De mest grundläggande formerna av data för gruvdrift är databasdata, datalagerdata och transaktionsdata. Data miningsteknikerna kan också tillämpas på andra former som dataströmmar, sekvenserad data, textdata och rumslig data.
# 1) Databasdata: Databashanteringssystemet är en uppsättning sammanhängande data och en uppsättning programvaror för att hantera och komma åt data. Relationsdatabassystemet är en samling av tabeller och varje tabell består av en uppsättning attribut och tupler.
Gruvdrift av relationsdatabaser söker efter trender och datamönster T.ex . kreditrisk hos kunder baserat på ålder, inkomst och tidigare kreditrisk. Dessutom kan gruvdrift ta reda på avvikelser från det förväntade T.ex. en betydande ökning av priset på en artikel.
# 2) Data Warehouse Data: Ett datalager är en samling information som samlas in från flera datakällor, lagrade under ett enhetligt schema vid en enda sit. En DW är modellerad som en flerdimensionell datastruktur som kallas datakub med celler och dimensioner som ger förberäkning och snabbare åtkomst till data.
Datautvinning utförs i en OLAP-stil genom att kombinera måtten på olika granularitetsnivåer.
# 3) Transaktionsdata: Transaktionsdata registrerar en transaktion. Den har ett transaktions-id och en lista över artiklar som används i transaktionen.
# 4) Andra typer av data: Annan information kan inkludera: tidsrelaterad data, rumslig data, hypertextdata och multimediedata.
Vilka tekniker används i datautvinning?
Data Mining är en mycket applikationsstyrd domän. Många tekniker som statistik, maskininlärning, mönsterigenkänning, informationshämtning, visualisering etc. påverkar utvecklingen av dataanalysmetoder.
Låt oss diskutera några av dem här !!
Statistik
Studien av insamling, analys, tolkning och presentation av data kan göras med hjälp av statistiska modeller. Till exempel kan statistik användas för att modellera brus och saknade data, och sedan kan den här modellen användas i stora datamängder för att identifiera brus och saknade värden i data.
våren mvc intervju frågor och svar för erfarna
Maskininlärning
ML används för att förbättra prestanda baserat på data. Det huvudsakliga forskningsområdet är att datorprogram automatiskt lär sig att känna igen komplexa mönster och fatta intelligenta beslut baserat på data.
Machine Learning fokuserar på noggrannhet och datautvinning fokuserar på effektivitet och skalbarhet för gruvmetoder på den stora datamängden, komplexa data etc.
Maskininlärning är av tre typer:
- Övervakat lärande: Måldatauppsättningen är känd och maskinen tränas enligt målvärdena.
- Oövervakad inlärning: Målvärdena är inte kända och maskinerna lär sig själva.
- Semiövervakat lärande: Den använder både teknikerna för övervakat och övervakat lärande.
Informationssökning (IR)
Det är vetenskapen att söka efter dokument eller information i dokument.
Den använder två principer:
- Data som ska sökas är ostrukturerad.
- Frågorna består huvudsakligen av nyckelord.
Genom att använda dataanalys och IR kan vi hitta viktiga ämnen i samlingen av dokument och även de viktigaste ämnena i varje dokument.
Viktiga frågor i dataanalys
Data Mining har ett antal problem relaterade till det som nämns nedan:
Gruvmetodik
- Eftersom det finns olika applikationer fortsätter nya gruvuppgifter att dyka upp. Dessa uppgifter kan använda samma databas på olika sätt och kräver utveckling av nya data miningstekniker.
- När vi söker efter kunskap i stora datamängder måste vi utforska flerdimensionellt utrymme. För att hitta intressanta mönster måste olika kombinationer av dimensioner tillämpas.
- Osäkra, bullriga och ofullständiga data kan ibland leda till felaktig härledning.
Användarinteraktion
- Dataanalyseringsprocessen bör vara mycket interaktiv. Det är viktigt för att underlätta gruvprocessen att vara användarinteraktiv.
- Domänkunskapen, bakgrundskunskapen, begränsningarna etc. bör alla införlivas i datagruppsprocessen.
- Den kunskap som upptäcks genom att bryta data bör vara användbar för människor. Systemet bör använda en uttrycksfull representation av kunskap, användarvänliga visualiseringstekniker etc.
Effektivitet och skalbarhet
- Data mining-algoritmer bör vara effektiva och skalbara för att effektivt extrahera intressant data från en enorm mängd data i datalagren.
- Bred distribution av data, komplexitet i beräkning motiverar utvecklingen av parallella och distribuerade data-intensiva algoritmer.
Mångfalden av databastyper
- Konstruktionen av effektiva och effektiva dataanalysverktyg för olika applikationer, ett brett spektrum av datatyper från ostrukturerad data, tidsdata, hypertext, multimediedata och programvarukod är fortfarande ett utmanande och aktivt forskningsområde.
Social påverkan
- Utlämnande för att använda uppgifterna och den potentiella kränkning av individuell integritet och skydd av rättigheter är de områden som är angelägna att ta itu med.
Slutsats
Data Mining hjälper till vid beslutsfattande och analys av en stor mängd data. Numera är det den vanligaste affärstekniken. Det möjliggör automatisk analys av data och identifierar populära trender och beteenden.
Dataanalys kan kombineras med maskininlärning, statistik, artificiell intelligens etc. för avancerad dataanalys och beteendestudie.
Data Mining bör tillämpas genom att ta hänsyn till olika faktorer såsom kostnader för att extrahera information och mönster från databaser (komplexa algoritmer som kräver expertresurser måste tillämpas), typ av information (eftersom historiska data kanske inte är desamma som vad det är för närvarande, så analysen kommer inte att vara användbar).
Vi hoppas att denna handledning berikade din kunskap om begreppet Data Mining !!
Rekommenderad läsning
- 10 bästa dataanalysverktyg för perfekt datahantering (2021 LIST)
- Data Mining Vs Machine Learning Vs Artificial Intelligence Vs Deep Learning
- De 10 bästa verktygen för datakartning som är användbara i ETL-processen (2021 LIST)
- Vad är testdata? Testdata Beredningstekniker med exempel
- JMeter-dataparameterisering med användardefinierade variabler
- Topp 15 bästa gratis datagruvverktyg: den mest omfattande listan
- 10+ bästa datainsamlingsverktyg med strategier för datainsamling
- Data Pool Feature i IBM Rational Quality Manager för testdatahantering