complete guide big data analytics
Detta är en omfattande guide till Big Data Analytics med dess användningsfall, arkitektur, exempel och jämförelse med Big Data och Data Science:
Big data-analys har fått dragkraft eftersom företag som Facebook, Google och Amazon har skapat sina egna nya paradigmer för distribuerad databehandling och analys för att förstå sina kunders benägenheter för värdextraktion från big data.
I den här handledningen förklarar vi analys av big data och jämför den med Big Data och Data Science. Vi kommer att täcka de nödvändiga attributen som företag måste ha i sin stora datastrategi och den metod som fungerar. Vi kommer också att nämna de senaste trenderna och vissa användningsfall för dataanalys.
Som visas i bilden nedan kräver Analytics att man använder IT-färdigheter, affärsfärdigheter och datavetenskap. Big data-analys är i centrum för att använda värden från big data, och det hjälper till att få förbrukningsbara insikter för en organisation.
(bild källa )
Vad du kommer att lära dig:
- Vad är Big Data Analytics
- Slutsats
Vad är Big Data Analytics
Big Data Analytics handlar om användningen av en samling statistiska tekniker, verktyg och procedurer för analys till Big Data.
Rekommenderad Läsning => Introduktion till Big Data
Det är analysen som hjälper till att extrahera värdefulla mönster och meningsfull insikt från big data för att stödja dataledat beslutsfattande. Det är på grund av framväxten av nya datakällor som sociala medier och IoT-data som stora data och analyser har blivit populära.
Denna trend ger upphov till ett praktik- och studieområde som kallas ”datavetenskap” som omfattar tekniker, verktyg, teknologier och processer för datamining, rengöring, modellering och visualisering.
Big Data Vs Big Data Analytics Vs Data Science
TILL jämförelse mellan big data, data science och big data analytics kan förstås från nedanstående tabell.
Grund | Big Data | Datavetenskap | Big Data Analytics |
---|---|---|---|
Verktyg och teknik | Hadoop Ecosystem, CDH, Cassandra, MongoDB, Java, Python, Talend, SQL, Rapid Miner | R, Python, Jupyter, Data Science Workbench, IBM SPSS, Tableau | Spark, Storm, Knime, Data Wrapper, Lumify, HPCC, Qubole, Microsoft HDInsight |
Arbetsroller och färdigheter | Lagringsinfrastrukturunderhåll, databehandling och kunskap om Hadoop och dess integration med andra verktyg. | Datatransformation, Data Engineering, Data Wrangling, Data Modeling och Visualization | BI och avancerad analys, statistik, datamodellering och maskininlärning, matematiska färdigheter, kommunikation, rådgivning. |
Beteckningar | Big Data Architect Big Data Developer Big Data Engineer | Data Scientist Machine Learning Engineer | Big Data Analyst Affärsanalytiker Business Intelligence Engineer Business Analytics Specialist Datavisualiseringsutvecklare Analytics Manager |
Cirka. Genomsnittlig årslön i USD | 100.000 | 90 000 | 70 000 |
Föreslagen läsning = >> Datavetenskap mot datavetenskap
Vad varje Big Data Analytics-strategi borde ha
En väldefinierad, integrerad och omfattande strategi bidrar till och stöder värdefull datadriven beslutsfattande i en organisation. I det här avsnittet har vi listat de viktigaste stegen som måste övervägas när vi definierar en strategi för stor dataanalys.
Steg 1: Bedömning
En bedömning, som redan är anpassad till affärsmålen, kräver att viktiga intressenter involveras, skapar ett team av medlemmar med rätt kompetensuppsättning, utvärderar policyer, människor, process och teknik- och datatillgångar. Om det behövs kan man involvera utvärderade kunder i denna process.
Steg 2: Prioritering
Efter bedömningen måste man härleda användningsfall, prioritera dem med hjälp av prediktiv analys av stor data, förskrivningsanalys och kognitiv analys. Du kan också använda ett verktyg som prioriteringsmatrisen och ytterligare filtrera användningsfall med hjälp av feedback och input från viktiga intressenter.
Steg 3: Färdplan
I detta steg krävs det att du skapar en tidsbunden färdplan och publicerar den för alla. En färdplan måste innehålla alla detaljer om komplexitet, medel, inneboende fördelar med användningsfall och kartlagda projekt.
Steg 4: Ändringshantering
Att implementera förändringshantering kräver en för att hantera datatillgänglighet, integritet, säkerhet och användbarhet. Ett effektivt ändringshanteringsprogram, som använder befintlig datastyrning, stimulerar aktiviteter och medlemmar baserat på kontinuerlig övervakning.
Steg 5: Rätt skicklighetsuppsättning
Att identifiera rätt kompetens är avgörande för organisationens framgång bland nuvarande trender i branschen. Därför måste man följa rätt ledare och ta med utbildningsprogram för att utbilda kritiska intressenter.
Steg 6: Pålitlighet, skalbarhet och säkerhet
Rätt tillvägagångssätt och effektiv strategi för stor dataanalys gör analysprocessen pålitlig, med effektiv användning av tolkbara modeller som involverar datavetenskapliga principer. En stor dataanalysstrategi måste också inkludera säkerhetsaspekter från början för en robust och tätt integrerad analyspipeline.
Datarörledning och process för dataanalys
När du planerar för dataanalysrörledningen finns det tre grundläggande aspekter man måste tänka på. Dessa är som följer:
- Inmatning: Dataformat och urval av teknik att bearbeta, är det baserat på datas underliggande natur. dvs. om data är tidsserier och kvalitet.
- Produktion: Val av kontakter , rapporter och visualisering beror på slutanvändarnas tekniska expertis och deras datakonsumtionskrav.
- Volym: Skalningslösningar planeras baserat på datamängden för att undvika överbelastning på det stora databehandlingssystemet.
Låt oss nu diskutera en typisk process och stegen för en pipeline för stor dataanalys.
Steg 1: Förtäring av data
Dataintag är det första och viktigaste steget i datapipelinen. Den beaktar tre aspekter av data.
- Datakälla - Det är viktigt när det gäller valet av arkitekturen för big data pipeline.
- Datastruktur - Serialisering är nyckeln till att bibehålla en homogen struktur över rörledningen.
- Städning av data - Analytics är lika bra som data utan problem som saknar värden och outliers, etc.
Steg 2: ETL / lager
Nästa viktiga modul är datalagringsverktyg för att utföra ETL (Extract Transform Load). Datalagring i ett korrekt datacenter beror på,
- Hårdvara
- Ledningsexpertis
- Budget
(bild källa )
Några tidstestade verktyg för ETL / lager i datacenter är:
- Apache Hadoop
- Apache-bikupan
- Apache parkett
- Presto Query-motor
Molnföretag som Google, AWS, Microsoft Azure tillhandahåller dessa verktyg på lön per bas och sparar initiala investeringar.
Steg 3: Analytics och visualisering
Med tanke på Hadoops begränsning av snabbfrågan måste man använda analysplattformar och verktyg som möjliggör snabb och ad hoc-fråga med den nödvändiga visualiseringen av resultaten.
>> Rekommenderad läsning: Big Data-verktyg
Steg 4: Övervakning
Efter att ha skapat en infrastruktur för intag, lagring och analys med visualiseringsverktyg är nästa steg att ha IT- och dataövervakningsverktyg att övervaka. Dessa inkluderar:
- CPU- eller GPU-användning
- Minne och resursförbrukning
- Nätverk
Några verktyg som är värda att överväga är:
- Datadog
- Grafana
Övervakningsverktyg är oumbärliga i en stor dataanalysrörledning och hjälper till att övervaka rörledningens kvalitet och integritet.
Big Data Analytics-arkitektur
Arkitekturdiagrammet nedan visar hur modern teknik använder både ostrukturerade och strukturerade datakällor för Hadoop & Map-reducerad bearbetning, analytiska system i minnet och realtidsanalys för att ge kombinerade resultat för realtidsoperationer och beslutsfattande.
(bild källa )
Aktuella trender inom dataanalys
I det här avsnittet har vi listat de väsentliga aspekterna att leta efter när vi implementerar eller följer trender för stor dataanalys i branschen.
# 1) Stora datakällor
Det finns främst tre källor till Big Data. Dessa listas nedan:
- Sociala data: Data som genereras på grund av sociala medier. Dessa uppgifter hjälper till att förstå känslor och kundernas beteende och kan vara användbar vid marknadsföringsanalys.
- Maskindata: Dessa data hämtas från industriell utrustning och applikationer med IoT-sensorer. Det hjälper till att förstå människors beteende och ger insikter om processer .
- Transaktionsdata: Den genereras som ett resultat av både offline- och onlineaktiviteter för användare angående betalningsuppdrag, fakturor, kvitton etc. Det mesta av denna typ av data behöver förbehandling och rengöring innan den kan användas för analys.
# 2) SQL / NoSQL-datalagring
Jämfört med traditionella databaser eller RDBMS, visar sig NoSQL-databaser vara bättre för uppgifter som krävs för stor dataanalys.
NoSQL-databaser kan till sin natur hantera ostrukturerad data ganska bra och är inte begränsade till dyra schemaändringar, vertikal skalning och störningar av ACID-egenskaper.
# 3) Prediktiv analys
Predictive Analytics erbjuder skräddarsydda insikter som leder organisationer att generera nya kundsvar eller inköp och korsförsäljningsmöjligheter. Organisationer använder prediktiv analys för att förutsäga individuella element på granulära nivåer för att förutsäga framtida resultat och förhindra potentiella problem. Detta kombineras vidare med historisk data och förvandlas till receptanalys.
Några områden där framgångsrik analys av big data har använts framgångsrikt är affärer, barnskydd, stödsystem för kliniska beslut, portföljförutsägelser, förutsägelser på ekonominivå och försäkring.
# 4) Deep Learning
Big data är överväldigande för konventionell datoranvändning. Det visar sig att traditionella maskininlärningstekniker för dataanalys planar ut i prestanda med ökad variation och datamängd.
Analytics står inför utmaningar med avseende på formatvariationer, högt distribuerade ingångskällor, obalanserad ingångsdata och snabbgående strömmande data, och Deep Learning-algoritmer hanterar ganska effektivt sådana utmaningar.
Djupt lärande har funnit sin effektiva användning vid semantisk indexering, genomförande av diskriminerande uppgifter, semantisk bild- och videotaggning, social inriktning och även i hierarkiska flernivåinlärningsmetoder inom objektigenkänning, datamärkning, informationshämtning och naturligt språk. bearbetning.
# 5) Datasjöar
Att lagra olika datamängder i olika system och kombinera dem för analys med traditionella datahanteringsmetoder är dyrt och är nästan omöjligt. Därför gör organisationer Data Lakes, som lagrar data i sitt råa, ursprungliga format för användbar analys.
Bilden nedan visar ett exempel på en datasjö i big-data-arkitekturen.
(bild källa )
Big Data Analytics använder
Vi har listat några vanliga användningsfall nedan:
# 1) Kundanalys
Big Data Analytics är användbart för olika ändamål, såsom mikromarknadsföring, en-till-en-marknadsföring, finare segmentering och massanpassning för företagskunder. Företag kan skapa strategier för att anpassa sina produkter och tjänster enligt kunders benägenhet att sälja eller korsförsälja ett liknande eller annat sortiment av produkter och tjänster.
# 2) Operation Analytics
Operationsanalys hjälper till att förbättra det övergripande beslutsfattandet och affärsresultaten genom att utnyttja befintlig data och berika den med maskin- och IoT-data.
Till exempel, Big Data-analys inom hälso- och sjukvården har gjort det möjligt att möta utmaningar och nya möjligheter relaterade till optimering av vårdutgifterna, förbättra övervakningen av kliniska prövningar, förutsäga och planera svar på sjukdomsepidemier som COVID-19.
# 3) Bedrägeribekämpning
Big data-analys ses med potentialen att ge en enorm fördel genom att hjälpa till att förutse och minska bedrägeriförsök, främst inom finans- och försäkringssektorn.
Till exempel, Försäkringsbolag registrerar realtidsdata om demografi, intäkter, medicinska anspråk, advokatutgifter, väder, röstinspelningar från en kund och callcenter-anteckningar. Specifika realtidsinformation hjälper till att få fram prediktiva modeller genom att kombinera informationen som nämns ovan med historisk data för att identifiera spekulerade bedrägliga anspråk tidigt.
# 4) Prisoptimering
Företagen använder stor dataanalys för att öka vinstmarginalerna genom att hitta det bästa priset på produktnivå och inte på kategorinivå. Stora företag tycker att det är för överväldigande att få detaljerade detaljer och komplexiteten i prisvariabler, som ändras regelbundet för tusentals produkter.
En analysdriven prisoptimeringsstrategi, till exempel dynamisk affärsscore, gör det möjligt för företag att fastställa priser för kluster av produkter och segment baserat på deras data och insikter om individuella affärsnivåer för att få snabba vinster från krävande kunder.
Vanliga frågor
F # 1) Är stor dataanalys en bra karriär?
Svar: Det är ett mervärde för alla organisationer, vilket gör det möjligt att fatta välgrundade beslut och ge ett försprång framför konkurrenterna. Ett Big Data-karriärdrag ökar din chans att bli en viktig beslutsfattare för en organisation.
F # 2) Varför är stor dataanalys viktigt?
Svar: Det hjälper organisationer att skapa nya tillväxtmöjligheter och helt nya produktkategorier som kan kombinera och analysera branschdata. Dessa företag har gott om information om produkter och tjänster, köpare och leverantörer, konsumenternas preferenser som kan fångas och analyseras.
F # 3) Vad krävs för stor dataanalys?
Svar: Utbudet av tekniker som en bra big data-analytiker måste känna till är enormt. För att man ska kunna behärska Big Data-analys krävs det en förståelse för olika verktyg, programvara, hårdvara och plattformar. Till exempel, Kalkylark, SQL-frågor och R / R Studio och Python är några grundläggande verktyg.
På företagsnivå är verktyg som MATLAB, SPSS, SAS och Congnos viktiga förutom Linux, Hadoop, Java, Scala, Python, Spark, Hadoop och HIVE.
Objektiva frågor:
F # 4) Vilken av databaserna nedan är inte en NoSQL-databas?
- MongoDB
- PostgreSQL
- CouchDB
- HBase
Svar: PostgreSQL
F # 5) Är Cassandra en NoSQL?
- Sann
- Falsk
Svar: Sann
F # 6) Vilket av följande tillhör inte Hadoop?
bästa spelutvecklingsprogramvaran för nybörjare
- Öppen källa
- Baserat på Java
- Distribuerad bearbetning
- Realtid
Svar: Realtid
F # 7) Välj alla aktiviteter som INTE utförs av en datavetare.
- Bygg modeller för maskininlärning och förbättra deras prestanda.
- Utvärdering av statistiska modeller för att validera analyser
- Sammanfatta avancerade analyser med hjälp av datavisualiseringsverktyg
- Presentation av resultat av teknisk analys för interna team och affärskunder
Svar: Presentation av resultat av teknisk analys för interna team och affärskunder
Ytterligare läsning = >> Viktiga skillnader mellan dataanalytiker och datavetare
F # 8) Vilka aktiviteter utförs av en dataanalytiker?
- Städa upp och organisera rådata
- Hitta intressanta trender i data
- skapa instrumentpaneler och visualiseringar för enkel tolkning
- Alla ovanstående
Svar: Alla ovanstående
F # 9) Vilket av följande utförs av en dataingenjör?
- Integration av nya datakällor i den befintliga pipeline för dataanalys
- Utvecklingen av API: er för dataförbrukning
- övervakning och testning av systemet för fortsatt prestanda
- Alla ovanstående
Svar: Alla ovanstående
F # 10) Den korrekta sekvensen för dataflöde för analys är
- Datakällor, Dataförberedelse, Datatransformation, Algoritmdesign, Dataanalys
- Datakällor, datatransformation, algoritmdesign, dataförberedelse, dataanalys
- Datakällor, algoritmdesign, dataförberedelse, datatransformation, dataanalys
- Datakällor, Dataförberedelse, Algoritmdesign, Datatransformation, Dataanalys
Svar: Datakällor, Dataförberedelse, Datatransformation, Algoritmdesign, Dataanalys
F # 11) Dataanalys är en linjär process.
- Sann
- Falsk
Svar: Falsk
F # 12) Explorativ analys är INTE
- Svar inledande frågor om dataanalys i detalj
- Bestäm problem med datamängden
- Utveckla en skiss av ett svar på frågan
- Bestäm om uppgifterna är korrekta för att svara på en fråga
Svar: Svarinledande frågor om dataanalys i detalj
F # 13) Prediktionsfråga är ett annat namn som ges till en inferensiell fråga.
- Sann
- Falsk
Svar: Falsk
Slutsats
Vi täckte de viktigaste aspekterna av stor dataanalys. Vi förklarade de vanligaste användningsfallen och trenderna i stor dataanalysindustrin för att skörda maximala fördelar.
Rekommenderad läsning
- Topp 7 BÄSTA dataanalysföretag 2021 (Uppdaterad 2021-lista)
- Topp 15 Big Data-verktyg (Big Data Analytics-verktyg) 2021
- 10 bästa dataanalysverktyg för perfekt datahantering (2021 LIST)
- Topp 10 Data Science-verktyg 2021 för att eliminera programmering
- Big Data Tutorial för nybörjare | Vad är Big Data?
- Topp 13 bästa stora dataföretag 2021
- 10 bästa datamodelleringsverktyg för att hantera komplexa mönster
- 10+ bästa datastyrningsverktyg för att uppfylla dina behov av data 2021