weka explorer visualization
Denna handledning förklarar hur man utför datavisualisering, K-betyder klusteranalys och Association Rule Mining med WEKA Explorer:
I Föregående handledning , vi lärde oss om WEKA Dataset, Classifier och J48 Algorithm for Decision Tree.
Som vi har sett tidigare är WEKA ett open-source data mining-verktyg som används av många forskare och studenter för att utföra många maskininlärningsuppgifter. Användarna kan också bygga sina maskininlärningsmetoder och utföra experiment på exempeluppsättningar som tillhandahålls i WEKA-katalogen.
Datavisualisering i WEKA kan utföras med hjälp av exempeldatamängder eller användargjorda datamängder i .arff, .csv-format.
=> Läs igenom hela serien för maskininlärning
Association Rule Mining utförs med Apriori-algoritmen. Det är den enda algoritmen som tillhandahålls av WEKA som utför frekvent mönsterbrytning.
Det finns många algoritmer i WEKA för att utföra klusteranalys som FartherestFirst, FilteredCluster och HierachicalCluster, etc. Av dessa kommer vi att använda SimpleKmeans, vilket är den enklaste metoden för klustring.
Vad du kommer att lära dig:
- Association Rule Mining med WEKA Explorer
- K-betyder algoritm med WEKA Explorer
- Implementera datavisualisering med hjälp av WEKA
- Slutsats
Association Rule Mining med WEKA Explorer
Låt oss se hur vi implementerar Association Rule Mining med hjälp av WEKA Explorer.
Association Rule Mining
Den utvecklades och designades av Srikant och Aggarwal 1994. Det hjälper oss att hitta mönster i data. Det är en data mining process som hittar funktioner som förekommer tillsammans eller funktioner som är korrelerade.
intervjufrågor för helpdesk
Tillämpningar av associeringsregler inkluderar Market Basket Analysis, för att analysera de varor som köpts i en enda korg; Cross Marketing, för att arbeta med andra företag som ökar vårt affärsproduktvärde som fordonshandlare och Oil Company.
Föreningsregler bryts ut efter att frekventa artiklar i en stor dataset hittats. Dessa datamängder hittas med hjälp av gruvalgoritmer som Apriori och FP Growth. Frequent Itemset mining bryter data med hjälp av support- och förtroendemått.
Stöd och förtroende
Stöd mäter sannolikheten för att två artiklar köps tillsammans i en och samma transaktion som bröd och smör. Förtroende är ett mått som anger sannolikheten att två artiklar köps ihop men efter varandra men inte tillsammans som antivirusprogram för bärbar dator och dator.
Minsta tröskelstöd och minsta tröskelvärdesförtroende antas för att beskära transaktionerna och ta reda på de mest förekommande artiklarna.
Implementering med WEKA Explorer
WEKA innehåller en implementering av Apriori-algoritm för regler för lärandeföreningar. Apriori fungerar endast med binära attribut, kategoriska data (nominella data), så om datamängden innehåller några numeriska värden konverterar de först till nominella.
Apriori får reda på alla regler med minimalt stöd och förtroendetröskel.
Följ stegen nedan:
# 1) Förbered en Excel-fildatauppsättning och namnge den som “ apriori.csv '.
#två) Öppna WEKA Explorer och välj 'apriori.csv' -fil under fliken Preprocess.
# 3) Filen laddas nu i WEKA Explorer.
# 4) Ta bort fältet Transaktion genom att markera kryssrutan och klicka på Ta bort enligt bilden nedan. Spara nu filen som “aprioritest.arff”.
# 5) Gå till fliken Associate. Apriori-reglerna kan brytas härifrån.
# 6) Klicka på Välj för att ställa in support- och förtroendeparametrar. De olika parametrarna som kan ställas in här är:
- ' lowerBoundMinSupport ”Och” upperBoundMinSupport ”, Detta är supportnivåintervallet där vår algoritm fungerar.
- Delta är ökningen i stödet. I det här fallet är 0,05 ökningen av stödet från 0,1 till 1.
- metricType kan vara 'förtroende', 'lyft', 'hävstång' och 'övertygelse'. Detta berättar för oss hur vi rankar föreningsreglerna. Generellt väljs självförtroende.
- numRules anger antalet föreningsregler som ska brytas. Som standard är det satt till 10.
- signifikansnivå visar vad som är betydelsen av konfidensnivån.
# 7) Textrutan bredvid väljknappen visar “ Apriori-N-10-T-0-C-0,9-D 0,05-U1,0-M0,1-S-1,0-c-1 ”, Som visar de sammanfattade reglerna för algoritmen i fliken Inställningar.
# 8) Klicka på Start-knappen. Föreningsreglerna genereras i den högra panelen. Denna panel består av två sektioner. Först är algoritmen, dataset som valts att köras. Den andra delen visar Apriori-informationen.
Låt oss förstå körinformationen i den högra panelen:
- Schemat använde oss Apriori.
- Instanser och attribut: Den har 6 instanser och 4 attribut.
- Minsta stöd och minsta förtroende är 0,4 respektive 0,9. Av 6 instanser finns 2 instanser med min support,
- Antal cykler som utförs för gruvföreningsregeln är 12.
- De stora artiklarna som genereras är 3: L (1), L (2), L (3) men dessa rankas inte eftersom deras storlekar är 7, 11 respektive 5.
- De hittade reglerna rankas. Tolkningen av dessa regler är som följer:
- Smör T 4 => Öl F 4: betyder av 6, 4 fall visar att för smör sant är öl falskt. Detta ger en stark förening. Konfidensnivån är 0,1.
Produktion
Föreningsreglerna kan brytas ut med WEKA Explorer med Apriori Algorithm. Denna algoritm kan tillämpas på alla typer av datamängder som finns tillgängliga i WEKA-katalogen samt andra datamängder som användaren har gjort. Support och förtroende och andra parametrar kan ställas in med hjälp av algoritmens inställningsfönster.
K-betyder algoritm med WEKA Explorer
Låt oss se hur vi implementerar K-betyder-algoritmen för klustring med WEKA Explorer.
Vad är klusteranalys
Clustering Algorithms är övervakade inlärningsalgoritmer som används för att skapa grupper av data med liknande egenskaper. Det aggregerar objekt med likheter i grupper och undergrupper, vilket leder till partitionering av datamängder. Klusteranalys är processen för delning av datamängder i delmängder. Dessa delmängder kallas kluster och uppsättningen kluster kallas kluster.
Cluster Analysis används i många applikationer som bildigenkänning, mönsterigenkänning, webbsökning och säkerhet, i affärsinformation som gruppering av kunder med liknande likheter.
Vad är K-betyder klustring
K betyder att klustring är den enklaste klustringsalgoritmen. I K-Clustering-algoritmen är datauppsättningen uppdelad i K-kluster. En objektivfunktion används för att hitta partitionernas kvalitet så att liknande objekt finns i ett kluster och olika objekt i andra grupper.
I den här metoden visar man sig att ett kluster utgör ett kluster. Centroid tas som mitten av klustret som beräknas som medelvärdet av poäng i klustret. Nu finns kvaliteten på klustring genom att mäta det euklidiska avståndet mellan punkten och centrumet. Detta avstånd bör vara maximalt.
Hur fungerar K-Mean Clustering Algorithm
Steg 1: Välj ett värde på K där K är antalet kluster.
Steg 2: Iterera varje punkt och tilldela klustret som har närmaste centrum till det. När varje element itereras beräknar du centrroid för alla kluster.
Steg 3: Iterera varje element från datasetet och beräkna det euklidiska avståndet mellan punkten och centrum för varje kluster. Om någon punkt finns i klustret som inte är närmast det, tilldela sedan den punkten till närmaste kluster och efter att ha utfört detta till alla punkter i datasetet, beräkna igen centroid för varje kluster.
Steg 4: Utför steg 3 tills det inte finns någon ny uppgift som ägde rum mellan de två på varandra följande upprepningarna.
K-betyder klusterimplementering med WEKA
Stegen för implementering med Weka är följande:
# 1) Öppna WEKA Explorer och klicka på Open File på fliken Preprocess. Välj dataset ”vote.arff”.
#två) Gå till fliken 'Cluster' och klicka på 'Välj' -knappen. Välj klustringsmetoden som “SimpleKMeans”.
# 3) Välj Inställningar och ställ sedan in följande fält:
- Avstånd fungerar som Euklidian
- Antalet kluster som 6. Med fler antal kluster minskar summan av kvadratfelet.
- Utsäde som 10. av
Klicka på Ok och starta algoritmen.
# 4) Klicka på Start i den vänstra panelen. Algoritmens resultat visas på den vita skärmen. Låt oss analysera körinformationen:
- Schema, relation, instanser och attribut beskriver egenskapen för datasetet och den klustermetod som används. I det här fallet har vote.arff-dataset 435 instanser och 13 attribut.
- Med Kmeans-klustret är antalet iterationer 5.
- Summan av det kvadrerade felet är 1098.0. Detta fel minskar med en ökning av antalet kluster.
- De 5 sista klustren med centroider representeras i form av en tabell. I vårt fall är centroider av kluster 168.0, 47.0, 37.0, 122.0.33.0 och 28.0.
- Klustrade förekomster representerar antalet och procentandelen av de totala förekomsten som faller i klustret.
# 5) Välj 'Classes to Clusters Evaluations' och klicka på Start.
Algoritmen tilldelar klassetiketten till klustret. Kluster 0 representerar republikan och Kluster 3 representerar demokrat. Den felaktigt klustrade förekomsten är 39,77%, vilket kan minskas genom att ignorera de obetydliga attributen.
# 6) Att ignorera de oviktiga attributen. Klicka på knappen 'Ignorera attribut' och välj de attribut som ska tas bort.
# 7) Använd fliken 'Visualisera' för att visualisera Clustering-algoritmresultatet. Gå till fliken och klicka på valfri ruta. Flytta Jitter till max.
- X-axeln och Y-axeln representerar attributet.
- Den blå färgen representerar klassetikettdemokrat och den röda färgen representerar klassetiketten republikan.
- Jitter används för att se kluster.
- Klicka i rutan till höger i fönstret för att ändra attributet x-koordinat och visa klustring i förhållande till andra attribut.
Produktion
K betyder att kluster är en enkel klusteranalysmetod. Antalet kluster kan ställas in med inställningsfliken. Centroid för varje kluster beräknas som medelvärdet av alla punkter i klustren. Med ökningen av antalet kluster minskar summan av kvadratfel. Objekten i klustret uppvisar liknande egenskaper och egenskaper. Klustren representerar klassetiketterna.
Implementera datavisualisering med hjälp av WEKA
Datavisualisering
Metoden för att representera data genom grafer och diagram som syftar till att förstå data tydligt är datavisualisering.
Det finns många sätt att representera data. Några av dem är som följer:
# 1) Pixelorienterad visualisering: Här representerar pixelns färg dimensionens värde. Pixelens färg representerar motsvarande värden.
# 2) Geometrisk representation: De flerdimensionella datauppsättningarna representeras i 2D-, 3D- och 4D-spridningsdiagram.
# 3) Ikonbaserad visualisering: Uppgifterna representeras med hjälp av Chernoffs ansikten och stickfigurer. Chernoffs ansikten använder det mänskliga sinnets förmåga att känna igen ansiktsegenskaper och skillnader mellan dem. Stickfiguren använder fem stickfigurer för att representera flerdimensionell data.
# 4) Hierarkisk datavisualisering: Datauppsättningarna representeras med hjälp av treemaps. Det representerar hierarkiska data som en uppsättning kapslade trianglar.
Datavisualisering med hjälp av WEKA Explorer
Datavisualisering med WEKA görs i IRIS.arff-datasetet.
Följande steg är:
# 1) Gå till fliken Förprocess och öppna IRIS.arff-dataset.
#två) Datauppsättningen har fyra attribut och en klassetikett. Attributen i denna dataset är:
- Sepallängd: Typ -nummer
- Sepalwidth: Typnummer
- Kronbladslängd: Typ-numerisk
- Kronbladbredd: Typ-numerisk
- Klass: Typ-nominell
# 3) För att visualisera datamängden, gå till fliken Visualisera. Fliken visar attributens plotmatris. Datauppsättningsattributen är markerade på x-axeln och y-axeln medan instanserna plottas. Rutan med attributet x-axel och attributet y-axeln kan förstoras.
# 4) Klicka på rutan för tomten för att förstora. Till exempel, x: kronlängd och y: kronbladbredd. Klassetiketterna är representerade i olika färger.
- Klassetikett- Iris-setosa: blå färg
- Klassetikett- Iris-versicolor: röd
- Klassetikett-Iris-virginica-green
Dessa färger kan ändras. För att ändra färg, klicka på klassetiketten längst ner, ett färgfönster visas.
# 5) Klicka på förekomsten som representeras av 'x' i plottet. Det kommer att ge instansinformation. Till exempel:
- Instansnummer: 91
- Sepallängd: 5.5
- Sepalwidth: 2.6
- Kronbladslängd: 4.4
- Kronbladbredd: 1.2
- Klass: Iris-versicolor
Några av punkterna i handlingen verkar mörkare än andra punkter. Dessa punkter representerar två eller flera förekomster med samma klassetikett och samma värde för attribut som ritas in i diagrammet som kronbladets bredd och petallängd.
Figuren nedan representerar en punkt med information om två instanser.
# 6) X- och Y-axelattributen kan ändras från höger panel i visualiseringsdiagrammet. Användaren kan visa olika tomter.
# 7) Jitter används för att lägga till slumpmässighet i handlingen. Ibland överlappar punkterna. Med jitter representerar de mörkare fläckarna flera instanser.
qa leda intervjufrågor och svar pdf
# 8) För att få en tydligare bild av datasetet och ta bort outliers kan användaren välja en instans från rullgardinsmenyn. Klicka på rullgardinsmenyn 'välj förekomst'. Välj 'Rektangel'. Med detta kommer användaren att kunna välja punkter i diagrammet genom att plotta en rektangel.
# 9) Klicka på “Skicka”. Endast de valda datapunkterna visas och de andra punkterna kommer att uteslutas från diagrammet.
Figuren nedan visar punkterna från den valda rektangulära formen. Tomten representerar poäng med endast 3 klassetiketter. Användaren kan klicka på 'Spara' för att spara datauppsättningen eller 'Återställ' för att välja en annan instans. Datauppsättningen sparas i en separat .ARFF-fil.
Produktion:
Datavisualisering med hjälp av WEKA förenklas med hjälp av rutan. Användaren kan se vilken grad av granularitet som helst. Attributen plottas på X-axeln och y-axeln medan instanserna ritas upp mot X- och Y-axeln. Vissa punkter representerar flera instanser som representeras av punkter med mörk färg.
Slutsats
WEKA är ett effektivt data mining-verktyg för att utföra många data mining uppgifter samt experimentera med nya metoder över datamängder. WEKA har utvecklats av Institutionen för datavetenskap, University of Waikato i Nya Zeeland.
Dagens värld är överväldigad av data från shopping i snabbköpet till säkerhetskameror i vårt hem. Data mining använder denna rådata, konverterar den till information för att göra förutsägelser. WEKA med hjälp av Apriori Algorithm hjälper till med regler för gruvföreningar i datasetet. Apriori är en frekvent mönsterbrytningsalgoritm som räknar antalet förekomster av en artikeluppsättning i transaktionen.
Cluster Analysis är en teknik för att ta reda på kluster av data som representerar liknande egenskaper. WEKA tillhandahåller många algoritmer för att utföra klusteranalys där simplekmeans används mycket.
Datavisualisering i WEKA kan utföras på alla datamängder i WEKA-katalogen. Den råa datamängden kan visas såväl som andra resulterande datamängder av andra algoritmer som klassificering, kluster och associering kan visualiseras med hjälp av WEKA.
=> Besök här för den exklusiva maskininlärningsserien
Rekommenderad läsning
- Weka-handledning - Hur man laddar ner, installerar och använder Weka-verktyget
- WEKA-datamängd, klassificerare och J48-algoritm för beslutsträd
- 15 BÄSTA datavisualiseringsverktyg och programvara 2021
- D3.js-handledning - Datavisualiseringsramverk för nybörjare
- D3.js Data Visualization Tutorial - Shapes, Graph, Animation
- 7 Principer för programvarutestning: Defektkluster och Pareto-princip
- Data Mining: Process, Techniques & Major Issues In Data Analysis
- Data Mining Techniques: Algorithm, Methods & Top Data Mining Tools