big data tutorial beginners what is big data
Denna handledning förklarar allt om Big Data Basics. Självstudien innehåller fördelar, utmaningar, tekniker och verktyg tillsammans med tillämpning av Big Data:
I denna digitala värld med tekniska framsteg utbyter vi dagligen stora mängder data som i Terabyte eller petabyte .
Om vi utbyter den mängden data dagligen måste vi behålla den också och lagra den någonstans. Lösningen för att hantera stora datamängder med hög hastighet och olika variation är Big Data.
Det kan hantera komplexa data som kommer från flera källor som olika databaser, webbplatser, widgets etc. Det kan också länka och matcha data som kommer från olika källor. Det ger verkligen snabbare åtkomst till data ( Till exempel, sociala media).
Lista över handledning i denna Big Data-serie
Handledning nr 1: Vad är Big Data? (Denna handledning)
Handledning nr 2: Vad är Hadoop? Apache Hadoop-handledning för nybörjare
Handledning nr 3: Hadoop HDFS - Hadoop Distribuerat filsystem
Handledning nr 4: Hadoop Architecture And HDFS Commands Guide
Handledning nr 5: Hadoop MapReduce-handledning med exempel | Vad är MapReduce?
Självstudie nr 6: Apache Hadoop YARN Handledning för nybörjare | Vad är garn?
Självstudie 7: Omfattande Hadoop-testhandledning | Big Data Testing Guide
Vad du kommer att lära dig:
Vad är Big Data?
Ordet Huge räcker inte för att förklara BigData, vissa egenskaper klassificerar data i BigData.
Vi har tre huvudegenskaper för BigData, och om någon data uppfyller dessa egenskaper kommer den att behandlas som BigData. Jag t är kombinationen av de tre V som nämns nedan:
- Volym
- Hastighet
- Mängd
Volym : Uppgifterna bör ha enorm volym. Big Data har lösningen att behålla en stor mängd data som finns i Terabyte eller Petabyte. Vi kan utföra CRUD (Skapa, läsa, uppdatera och ta bort) operationer på BigData enkelt och effektivt.
Hastighet : Det ansvarar för snabbare åtkomst till data. Till exempel, nuförtiden behöver sociala medier snabbt utbyta data inom en bråkdel av tiden och BigData är den bästa lösningen för det. Därför är hastighet en annan egenskap och det är databehandlingshastigheten.
Mängd : I sociala medier har vi att göra med ostrukturerad data som ljud- eller videoinspelningar, bilder osv. Dessutom behöver olika sektorer som banksektorn strukturerad och halvstrukturerad data. BigData är lösningen för att underhålla båda typerna av data på ett ställe.
Variation betyder olika typer av data som strukturerad / ostrukturerad data som kommer från flera källor.
vänster inre koppling vs vänster yttre anslutning
Strukturerade data : Data som har en korrekt struktur eller den som enkelt kan lagras i tabellform i alla relationsdatabaser som Oracle, SQL Server eller MySQL kallas Structured Data. Vi kan bearbeta eller analysera det enkelt och effektivt.
Ett exempel på strukturerad data är data som lagras i en relationsdatabas som kan hanteras med SQL (Structured Query Language). Till exempel, Medarbetardata (namn, ID, beteckning och lön) kan lagras i tabellformat.
I en traditionell databas kan vi endast utföra operationer eller bearbeta ostrukturerad eller halvstrukturerad data efter att den har formaterats eller passar in i relationsdatabasen. Exempel av strukturerade data är ERP, CRM, etc.
Halvstrukturerad data: Semistrukturerad data är den data som inte är helt formaterad. Den lagras inte i datatabeller eller någon databas. Men ändå kan vi enkelt klara det och bearbeta det eftersom dessa data innehåller taggar eller kommaseparerade värden etc. Exempel av halvstrukturerad data är XML-filer, CSV-filer, etc.
Ostrukturerad data: Ostrukturerad data är den data som inte har någon struktur. Det kan vara i vilken form som helst, det finns ingen fördefinierad datamodell. Vi kan inte lagra det i traditionella databaser. Det är komplicerat att söka och bearbeta det.
högst rankad YouTube till MP3-omvandlare
Volymen Unstructured Data är också mycket hög. Exempel of Unstructured Data är e-post, ljud, video, bilder, uppnådda dokument etc.
Utmaningar för traditionella databaser
- Den traditionella databasen stöder inte en mängd olika data, dvs den kan inte hantera ostrukturerad och halvstrukturerad data.
- En traditionell databas är långsam när man hanterar en stor mängd data.
- I traditionella databaser är bearbetning eller analys av en stor mängd data mycket svårt.
- En traditionell databas kan lagra data i terabyte eller petabyte.
- En traditionell databas kan inte hantera historiska data och rapporter.
- Efter en viss tid är det nödvändigt att städa upp databasen.
- Kostnaden för att underhålla en stor mängd data är mycket hög med en traditionell databas.
- Uppgifternoggrannheten är mindre i den traditionella databasen eftersom fullständig historisk data inte bibehålls i den.
Big DataFördelar över traditionell databas
- Big Data ansvarar för att hantera, hantera och bearbeta olika typer av data som Structured, Semi-structured och Unstructured.
- Det är kostnadseffektivt när det gäller att upprätthålla en stor mängd data. Det fungerar på ett distribuerat databassystem.
- Vi kan spara stora mängder data under lång tid med BigData-tekniker. Så det är enkelt att hantera historisk data och generera korrekta rapporter.
- Databehandlingshastigheten är mycket snabb och sociala medier använder alltså Big Data-tekniker.
- Datanoggrannhet är en stor fördel med Big Data.
- Det gör det möjligt för användare att fatta effektiva beslut för sin verksamhet baserat på aktuell och historisk data.
- Felhantering, versionskontroll och kundupplevelse är mycket effektiva i BigData.
Föreslagen läsning => Big Data vs Big Data Analytics vs Data Science
Utmaningar och risker i BigData
Utmaningar:
- En av de stora utmaningarna i Big Data är att hantera stora mängder data. Numera kommer data till ett system från olika källor med variation. Så det är en mycket stor utmaning för företagen att hantera det ordentligt. Till exempel, för att generera en rapport som innehåller de senaste 20 åren av data, krävs det att spara och underhålla de senaste 20 åren av data i ett system. För att ge en korrekt rapport är det nödvändigt att bara lägga in relevanta data i systemet. Den bör inte innehålla irrelevanta eller onödiga uppgifter, annars kommer det att vara en stor utmaning för företagen att behålla den datamängden.
- En annan utmaning med denna teknik är synkronisering av olika typer av data. Som vi alla vet stöder Big Data strukturerad, ostrukturerad och halvstrukturerad data som kommer från olika källor, det är mycket svårt att synkronisera den och få konsistensen av data.
- Nästa utmaning som företag står inför är klyftan mellan experter som kan hjälpa och genomföra de problem de står inför i systemet. Det finns ett stort gap i talang inom detta område.
- Att hantera efterlevnadsaspekten är dyrt.
- Datainsamling, aggregering, lagring, analys och rapportering av BigData har en enorm kostnad. Organisationen ska kunna hantera alla dessa kostnader.
Risker:
- Det kan hantera en mängd olika data men om företag inte kan förstå kraven ordentligt och kontrollera datakällan kommer det att ge bristfälliga resultat. Som ett resultat kommer det att behöva mycket tid och pengar för att undersöka och korrigera resultaten.
- Datasäkerhet är en annan risk med BigData. Med en hög datamängd är det större chanser att någon stjäl den. Datahackare kan stjäla och sälja viktig information (inklusive historisk data) om företaget.
- Dataskydd är också en annan risk för BigData. Om vi vill skydda den personliga och känsliga informationen från hackare ska den skyddas och måste klara alla sekretesspolicyer.
Big Data Technologies
Följande är de tekniker som kan användas för att hantera Big Data:
- Apache Hadoop
- Microsoft HDInsight
- Ingen SQL
- Bikupa
- Sqoop
- BigData i Excel
En detaljerad beskrivning av dessa tekniker kommer att behandlas i våra kommande handledning.
Verktyg för att använda Big Data-begrepp
Nedan listas de öppna källkodsverktygen som kan hjälpa till att använda Big Data-koncept:
# 1) Apache Hadoop
# 2) Lumify
# 3) Apache Storm
# 4) Apache Samoa
# 5) Elasticsearch
# 6) MongoDB
# 7) HPCC-system BigData
Tillämpningar av Big Data
Följande är domänerna där den används:
- Bank
- Media och underhållning
- Vårdgivare
- Försäkring
- Utbildning
- Detaljhandeln
- Tillverkning
- Regering
BigData och datalager
Data Warehouse är ett grundläggande koncept som vi måste förstå innan vi diskuterar Hadoop eller BigData Testing.
Låt oss förstå Data Warehouse från ett realtidsexempel. Till exempel , det finns ett företag som har etablerat sina kontor i tre olika länder, låt oss anta en filial i Indien, Australien och Japan.
I varje gren lagras hela kunddata i den lokala databasen. Dessa lokala databaser kan vara normala klassiska RDBMS som Oracle eller MySQL eller SQL Server etc. och all kunddata lagras i dem dagligen.
Nu, varje kvartals-, halvårs- eller årsbasis, vill organisationen analysera dessa data för affärsutveckling. För att göra detsamma kommer organisationen att samla all denna information från flera källor och sedan sätta ihop den på ett ställe och den här platsen kallas 'Datalager'.
Data Warehouse är en typ av databas som innehåller alla data som hämtas från flera källor eller flera databastyper genom “ETL” (vilken är ÄR xtrakt, T ransform och L oad) process. När data är klara i datalageret kan vi använda dem för analytiska ändamål.
Så för analys kan vi generera rapporter från de data som finns tillgängliga i datalageret. Flera diagram och rapporter kan genereras med hjälp av Business Intelligence Tools.
Vi kräver datalager för analytiska ändamål för att utveckla verksamheten och fatta lämpliga beslut för organisationerna.
hur man visar en bin-fil
Tre saker händer i denna process, det första är att vi har tagit data från flera källor och lagt den på en enda plats som är Data Warehouse.
Här använder vi 'ETL' -processen, så när vi laddar data från flera källor till en plats, kommer vi att använda den i Transformation-rötter och sedan kan vi använda olika typer av ETL-verktyg här.
När data är klara i Data Warehouse kan vi generera olika rapporter för att analysera affärsdata med hjälp av Business Intelligence (BI) -verktyg eller vi kallar dem också Rapporteringsverktyg. Verktygen som Tableau eller Cognos kan användas för att generera rapporter och DashBoards för att analysera data för företag.
OLTP och OLAP
Låt oss förstå vad OLTP och vad OLAP är?
Databaser som underhålls lokalt och används för transaktionsändamål anropas OLTP dvs online transaktionsbehandling. De dagliga transaktionerna lagras här och uppdateras omedelbart och det är därför vi kallade dem OLTP-system.
Här använder vi traditionella databaser, vi har flera tabeller och det finns relationer, alltså planeras allt systematiskt enligt databasen. Vi använder inte dessa uppgifter för analytiska ändamål. Här kan vi använda klassiska RDMBS-databaser som Oracle, MySQL, SQL Server, etc.
När vi kommer till Data Warehouse-delen använder vi Teradata eller Hadoop Systems, som också är en slags databas men data i ett DataWarehouse används vanligtvis för analytiska ändamål och kallas OLAP eller Online analytisk bearbetning.
Här kan uppgifterna uppdateras kvartalsvis, halvårsvis eller årligen. Ibland uppdateras uppgifterna också 'Erbjudande', där Offerly innebär att uppgifterna uppdateras och hämtas för analys efter kundkrav.
Data för analys uppdateras inte dagligen eftersom vi kommer att få informationen från flera källor, enligt schemalagd basis, och vi kan utföra denna ETL-uppgift. Så här fungerar det analytiska behandlingssystemet online.
Även här kan BI-verktyg eller rapporteringsverktyg generera rapporter såväl som instrumentpaneler, och baserat på detta kommer affärsmän att fatta beslut för att förbättra sin verksamhet.
Var kommer BigData in i bilden?
BigData är data som ligger utanför lagrings- och bearbetningskapaciteten för konventionella databaser och de är i strukturerat och ostrukturerat format så att de inte kan hanteras av lokala RDBMS-system.
Denna typ av data kommer att genereras i TeraBytes (TB) eller PetaBytes (PB) eller därefter och den ökar snabbt nuförtiden. Det finns flera källor för att få denna typ av data som Facebook, WhatsApp (som är relaterade till sociala nätverk); Amazon, Flipkart relaterat till e-handel; Gmail, Yahoo, Rediff relaterade till e-post och Google och andra sökmotorer. Vi får också bigdata från mobiler som SMS-data, samtalsinspelning, samtalsloggar, etc.
Slutsats
Big data är lösningen för att hantera stora mängder data effektivt och säkert. Det ansvarar också för att behålla historiska data. Det finns många fördelar med denna teknik varför varje företag vill byta till Big data
Författare: Vaishali Tarey, teknisk ledare @ Syntel
Rekommenderad läsning
- Data Mart Tutorial - Typer, exempel och implementering av Data Mart
- Topp 10 databasdesignverktyg för att bygga komplexa datamodeller
- 20+ MongoDB-handledning för nybörjare: Gratis MongoDB-kurs
- Vad är en datasjö | Data Warehouse vs Data Lake
- Topp 10 test- och valideringsverktyg för strukturerad data för SEO
- Dimensionell datamodell i datalager - handledning med exempel
- Data Mining: Process, Techniques & Major Issues In Data Analysis
- Hur man utför datadriven testning i SoapUI Pro - SoapUI-handledning nr 14