Eksperiment i direkte markedsføring - dummies
Kanskje den vanligste søknaden for eksperimenter i data mining, legitime kontrollerte eksperimenter som de som som forskere bruker, er direkte markedsføring. Direkte markedsføring innebærer å kontakte enkelte personer. Når du får en tekst eller en e-post fra en forhandler, er det direkte markedsføring. Tradisjonelle postordrekataloger, telefonsamtaler fra veldedige organisasjoner og kampanjebrev fra ...
Hvordan å sette inn en Data Mart - dummies
Hvis en data mart er en mindre skala versjon av en data warehouse, dette spørsmålet kommer opp: Hva betyr "mindre skala" i forhold til innholdet i en data mart? Svaret på dette spørsmålet er vanligvis at dataene vil være en delmengde av de samlede bedriftsdataene. Geografisk begrensede data En data mart kan ...
Hvorfor Cloud er viktig for store data - dummies
Finnes mange kombinasjoner av distribusjons- og leveringsmodeller for store data i skyen. For eksempel kan du bruke en offentlig sky IaaS eller en privat sky IaaS. Så, hva betyr dette for store data og hvorfor er skyen en god form for det? Vel, store data krever distribuerte klynger av beregningskraft, ...
Utvid data lag med NoSQL-dummies
En database gjør en ting veldig bra: Det lagrer data. Men fordi alle applikasjoner trenger ekstra programvare for å være komplett, er det verdt å sikre at den valgte NoSQL-databasen har verktøy og partnerprogramvare som gir den utvidede funksjonaliteten du trenger. Ikke sikre at utvidet funksjonalitet støttes, betyr at du vil ende opp med å installere ...
Hvordan å finne antall elementer i en datastrøm - dummier
Selv om en blomstring Filter kan spore objekter som kommer fra en strøm, det kan ikke fortelle hvor mange objekter det er. En bit vektor fylt av de kan (avhengig av antall hashes og sannsynligheten for kollisjon) gjemme det sanne antall objekter som har hashed på samme adresse. Å vite det forskjellige antall ...
Formatering Data Properly - dummies
Mennesker bruker erfaring når de tolker dataene de ser, men datamaskiner kan ikke. Data mining programvare vil gjøre sitt beste for å identifisere typen data i hver kolonne, men datatyper er ofte tvetydige. Når du ser en liste over postkoder, prøver du ikke å legge til og trekke dem fra. Du vet at de ...
Fem planer for stor datasuksess - dummies
Mens store data er bare i de første stadiene, du vil planlegge for suksess. Det er aldri for tidlig å komme i gang med planlegging og god praksis slik at du kan utnytte det du lærer og opplevelsen du får. Planlegg dine store data mål Mange organisasjoner starter deres store dataflyt ...
Fire trinn i forretningsplanlegging med store data - dummies
Hva håper forretningsplanen å oppnå ved å utnytte stor Data? Dette er ikke et enkelt spørsmål å svare på. Ulike selskaper i ulike næringer må administrere dataene sine annerledes. Men noen vanlige forretningsprosesser er i sentrum av måten store data blir vurdert som en måte å både planlegge ...
Grafer Som algoritmiske datastrukturer - dummier
Er en form for vanlig datastruktur brukt i algoritmer. Du ser grafer som brukes på steder som kart for GPS og alle andre steder hvor toppnettet tilnærming til en trestruktur ikke virker. En graf er en slags treforlengelse. Som med trær har du noder som forbinder ...
3 Hadoop Cluster Configurations - dummies
Mange av de avgjørelsene du trenger å gjøre med hensyn til sammensetningen av stativer og nettverk er avhengig av omfanget av Hadoop-klyngen. Den har tre hovedpermutasjoner.
Å Få algoritmer til Business - dummies
Menneskeskapet er nå på et utrolig skjæringspunkt av enestående datamengder, generert av stadig større grad mindre og kraftig maskinvare, og analysert av algoritmer at denne samme prosessen bidro til å utvikle seg. Det er ikke bare et spørsmål om volum, som i seg selv er en vanskelig utfordring. Som formalisert av forskerfirmaet Gartner i 2001 og ...
Apache Drill - dummies
Apache Drill er et kandidatprosjekt i Apache-inkubatoren. Apache Drill er ikke særlig syk, skjønt. Apache Software Foundation (ASF) kandidat teknologier alle begynner som inkubator prosjekter før de blir offisielle ASF teknologier. Du kan lese om Apache-inkubatoren. Du kan lese om Drill. Inspirert av Googles Dremel-teknologi, er det oppgitte resultatmål for ...
Alternative distribusjonsformfaktorer for Hadoop - dummies
Men Hadoop fungerer best når den er installert på en fysisk datamaskin, hvor behandling har direkte tilgang til dedikert lagring og nettverk, Hadoop har alternative distribusjoner. Og selv om de er mindre effektive enn den dedikerte maskinvaren, er det i enkelte tilfeller alternativer som er mulige alternativer. Virtualiserte servere En stor trend i IT-sentre i løpet av de siste tiårene ...
ACID versus BASE Data Stores - dummies
Et kjennetegn for relasjonelle databasesystemer er noe som kalles ACID-overholdelse. Som du kanskje har gjettet, er ACID en akronym - de enkelte bokstaver, som er ment å beskrive en karakteristikk for individuelle databasetransaksjoner, kan utvides som beskrevet i denne listen: Atomicity: Databasetransaksjonen må fullstendig lykkes eller helt mislykkes. Delvis suksess er ...
Konfigurere Oozie Workflows - dummies
Som en arbeidsflytmotor, gjør Oozie i stand til å kjøre et sett med Hadoop-applikasjoner i en spesifisert rekkefølge kjent som en arbeidsflyt. Du kan konfigurere Oozie-arbeidsflyter på en av tre måter, avhengig av dine spesielle forhold. Du kan bruke config-default. xml-fil: Definerer parametere som ikke endres for arbeidsflyten. Jobben. Egenskapsfil: Definerer ...
10 Hadoop Ressurser verdt en bokmerke - dummies
Følgende er ti fantastiske Hadoop-ressurser som er verdige til å skape en bokmerke i nettleseren din. Disse ressursene hjelper deg med å skape en livslang læringsplan for Hadoop. Sentralnervesystemet: Apache. org Apache Software Foundation (ASF) er det sentrale fellesskapet for open source-programvareprosjekter. Ikke bare et prosjekt kan være et Apache-prosjekt - ...
Data transformasjon i Hadoop - dummies
Ideen om Hadoop-inspirerte ETL motorer har fått mye trekkraft de siste årene. Hadoop er trods alt en fleksibel datalagrings- og behandlingsplattform som kan støtte store mengder data og operasjoner på dataene. Samtidig er det feiltolerant, og det gir mulighet for kapital- og programvarekostnad ...
Datablokker i Hadoop Distributed File System (HDFS) - dummier
Når du lagrer en fil i HDFS, bryter systemet det ned i et sett med individuelle blokker og lagrer disse blokkene i forskjellige slave noder i Hadoop-klyngen. Dette er en helt vanlig ting å gjøre, da alle filsystemer bryter filer ned i blokker før de lagres til disk. HDFS har ingen ...
Data warehouse modernisering med Hadoop - dummies
Data warehouses er nå under stress, prøver å takle økte krav til deres endelige ressurser. Hadoop kan gi betydelig lettelse i denne data warehouse situasjonen. Den raske økningen i mengden data som er generert i verden, har også påvirket datalagring fordi dataene de administrerer, øker - delvis fordi ...
Sammenligner Hadoop Distributions - dummies
Du finner at Hadoop økosystem har mange komponenter, som alle eksisterer som deres egne Apache prosjekter. Fordi Hadoop har vokst betraktelig, og står overfor noen betydelige ytterligere endringer, kan ulike versjoner av disse komponentene i åpen kildekode ikke være fullt kompatibel med andre komponenter. Dette gir store vanskeligheter for folk som ønsker å få ...
Faktorer som øker omfanget av statistisk analyse i Hadoop - dummies
Grunnen til at folk prøver deres data Før du kjører statistisk analyse i Hadoop er at denne typen analyse ofte krever betydelige databehandlingsressurser. Dette handler ikke bare om datamengder: det er fem hovedfaktorer som påvirker omfanget av statistisk analyse: Dette er enkelt, men vi må nevne det: volumet av data på ...
Komprimering av data i Hadoop - dummies
De enorme dataene som er realiteter i en typisk Hadoop-distribusjon, gjør komprimering til en nødvendighet. Datakomprimering sparer deg definitivt mye lagringsplass og er sikker på å øke bevegelsen av dataene i hele klyngen din. Det er ikke overraskende at en rekke tilgjengelige kompresjonsordninger, kalt codecs, er der ute for ...
Hadapt og Hadoop - dummies
Sent i 2010. en assisterende professor i datavitenskap. Professor Daniel Abadi og Kamil Bajda-Pawlikowski, en doktorand fra Yales datavitenskapsavdeling, hadde jobbet med forskningsprosjektet HadoopDB. Etter at dette papiret ble utgitt, ble Justin Borgman, en student fra ...
Hadoop og Hive-dummies
For å lage en lang historie kort, gir Hive Hadoop en bro til RDBMS verden og gir en SQL dialekt kjent som Hive Query Language (HiveQL), som kan brukes til å utføre SQL-lignende oppgaver. Det er de store nyhetene, men det er mer å hive enn å møte øyet, som de sier, eller flere applikasjoner av ...
Kantnoder i Hadoop Clusters - dummies
Kantnoder er grensesnittet mellom Hadoop-klyngen og det eksterne nettverket. Av denne grunn blir de noen ganger referert til som gateway noder. Vanligvis brukes kantnoder til å kjøre klientprogrammer og verktøy for administrasjon av klynger. De benyttes også ofte som mellomrom for data som overføres til Hadoop-klyngen. Som sådan, Oozie, ...
Svindeloppdagelse med Hadoop-dummies
Det store volumet av transaksjoner gjør det vanskeligere å oppdage bedragerier på grunn av volumet av data, Ironisk nok kan denne samme utfordringen bidra til å skape bedre bedrägeriske prediktive modeller - et område hvor Hadoop skinner. I dagens sammenhengende verden gjør det store volumet og kompleksiteten av transaksjoner det vanskeligere enn noen gang å finne bedrageri. Det som brukes ...
Grafbehandling i Hadoop - dummies
En av de mer spennende nye NoSQL-teknologiene innebærer lagring og behandling av grafdata. Du kan kanskje tro at denne utsagnet er gammelt, fordi datavitenskapere har utviklet grafanalyseteknikker i flere tiår. Hva du sier kan godt være sant, men hva er nytt er at ved å bruke Hadoop, kan du gjøre grafen ...
Hadoop Distributed File System (HDFS) - dummies
Løsningen for å utvide Hadoop-klynger på ubestemt tid er å forfølge navnetavn. Før Hadoop 2 kom inn i scenen, måtte Hadoop-klynger leve med det faktum at NameNode satte grenser i den grad de kunne skala. Få klynger klarte å skalere enn 3, 000 eller 4, 000 noder. NameNode er nødt til å opprettholde registre for ...
Hadded Distributed File System (HDFS) Høy tilgjengelighet - dummies
Ofte i Hadops barndom, en stor mengde av diskusjonen var sentrert på NameNodes representasjon av et enkelt punkt av fiasko. Hadoop har samlet sett hatt en robust og fiasko-tolerant arkitektur, med unntak av dette nøkkelområdet. Uten NameNode er det ingen Hadoop-klynge. Bruke Hadoop 2, du kan konfigurere HDFS slik at det er ...
Hadoop som en dataforbehandlingsmotor - dummies
Et av de tidligste brukssakene til Hadoop i bedriften var som en Programmatisk transformasjonsmotor som brukes til å forhåndsbehandle data som er bundet til et datalager. I hovedsak bruker dette bruksmålet kraften til Hadoop økosystemet til å manipulere og anvende transformasjoner til data før det lastes inn i et datalager. Selv om den faktiske transformasjonen ...
Hadoop som et spørringsark for Cold Warehouse Data - dummies
En rekke studier viser at de fleste data i et bedriftsdatamagasin blir sjelden spørget. Databaseleverandører har svart på slike observasjoner ved å implementere egne metoder for å sortere ut hvilke data som blir plassert der. En metode ordner dataviretet til betegnelser for varmt, varmt eller kaldt, hvor varme data (noen ganger kalt aktive ...
Hadoop som en arkivdata destinasjon - dummies
Den rimelige kostnaden for lagring for Hadoop pluss muligheten til å spørre Hadoop data med SQL gjør Hadoop det primære målet for arkivdata. Dette brukstilfellet har liten innvirkning på organisasjonen din, fordi du kan begynne å bygge Hadoop ferdighetssett på data som ikke er lagret på ytelses-kritiske systemer. Hva mer gjør du ikke ...
Hadoop Administrasjonskommandoer - dummier
En hvilken som helst Hadoop-administrator som er verdt sitt salt, må mestre et omfattende sett med kommandoer for klusteradministrasjon. Følgende liste oppsummerer de viktigste kommandoene, noe som indikerer hva kommandoen gjør, så vel som syntaks og eksempler. Kjenn dem, og du vil gå langt langs veien til Hadops visdom. balanser: Kjører klyngebalanseringsverktøyet. ...
Hadoop Distributed File System (HDFS) for Big Data Projects - dummies
Hadoop distribuert fil Systemet er en allsidig, robust, klynget tilnærming til å håndtere filer i et stort datamiljø. HDFS er ikke det endelige målet for filer. Det er snarere en datatjeneste som tilbyr et unikt sett med evner som trengs når dataene og hastigheten er høye. Fordi dataene er skrevet en gang og ...
Hadoop MapReduce for Big Data - dummies
For å forstå Hadoop MapReduces evner, er det viktig å skille mellom MapReduce algoritmen) og en implementering av MapReduce. Hadoop MapReduce er en implementering av algoritmen utviklet og vedlikeholdt av Apache Hadoop-prosjektet. Det er nyttig å tenke på denne implementeringen som MapReduce-motor, for det er akkurat slik det ...
Hadoop Integrasjon med R-dummies
I begynnelsen var store data og R ikke naturlige venner. R programmering krever at alle objekter lastes inn i hovedminnet til en enkelt maskin. Begrensningene i denne arkitekturen blir raskt realisert når store data blir en del av ligningen. Derimot mangler distribuerte filsystemer som Hadoop sterk ...
Hvordan få Apache Oozie satt opp i Hadoop - dummies
Apache Oozie er inkludert i alle store Hadoop distribusjon, inkludert Apache Bigtop. I Hadoop-klyngen skal du installere Oozie-serveren på en kantnode, hvor du også vil kjøre andre klientprogrammer mot klyngens data, som vist. Edge noder er designet for å være en gateway for utvendig nettverk til Hadoop-klyngen. Dette ...