Hjem Personlig finansiering Ser på grunnlaget for statistikk, maskinlæring og matematiske metoder i datavitenskap - dummies

Ser på grunnlaget for statistikk, maskinlæring og matematiske metoder i datavitenskap - dummies

Innholdsfortegnelse:

Video: Data Analysis in R by Dustin Tran 2024

Video: Data Analysis in R by Dustin Tran 2024
Anonim

Del av Data Science for Dummies Cheat Sheet > Hvis statistikk er beskrevet som vitenskapen om å skaffe seg innsikt fra data, hva er forskjellen mellom en statistiker og en datavitenskapsmann? Godt spørsmål! Selv om mange oppgaver innen datalogi krever en god del statistisk kunnskap, er omfanget og bredden til en datavitenskapers kunnskap og ferdighetsgrunnlag forskjellig fra statistikkerenes. Kjerneforskjellene er skissert nedenfor.

Fagkompetanse:
  • En av kjernefunksjonene til datavitenskapsmenn er at de tilbyr en sofistikert grad av kompetanse i det området de bruker sine analysemetoder. Dataforskere trenger dette slik at de virkelig kan forstå implikasjonene og applikasjonene av datainnsamlingene de genererer. En datavitenskapsmann bør ha nok faglig kompetanse til å kunne identifisere betydningen av sine funn og selvstendig bestemme hvordan man skal gå videre i analysen.

    Statistikkerne har derimot vanligvis en utrolig dyp kunnskap om statistikk, men svært lite kompetanse i fagene som de bruker statistiske metoder på. Mesteparten av tiden er statistikere pålagt å konsultere eksterne fagpersoner for å få en fast forståelse for betydningen av funnene deres, og å kunne bestemme den beste måten å gå videre i en analyse.

    Matematiske og maskinlærte tilnærminger:
  • Statistikere stole hovedsakelig på statistiske metoder og prosesser når man lærer innsikt fra data. I motsetning til dette må dataforskere trekke seg fra et bredt spekter av teknikker for å utlede datainnsikt. Disse inkluderer statistiske metoder, men inkluderer også tilnærminger som ikke er basert på statistikk - som de som finnes i matematikk, klynging, klassifisering og ikke-statistiske maskininnlæringsmetoder. Se betydningen av statistisk kunnskap

Du trenger ikke å gå ut og få en grad i statistikk for å praktisere datavitenskap, men du bør i det minste bli kjent med noen av de mer grunnleggende metodene som brukes i statistisk dataanalyse. Disse inkluderer:

Lineær regresjon

  • : Linjær regresjon er nyttig for å modellere relasjonene mellom en avhengig variabel og en eller flere uavhengige variabler. Formålet med lineær regresjon er å oppdage (og kvantifisere styrken av) viktige korrelasjoner mellom avhengige og uavhengige variabler. Tidsserieanalyse:

  • Tidsserieanalyse innebærer å analysere en samling av data om attributtverdier over tid, for å kunne forutsi fremtidige forekomster av tiltaket basert på tidligere observasjonsdata. Monte Carlo-simuleringer:

  • Monte Carlo-metoden er en simuleringsteknikk du kan bruke til å teste hypoteser, generere parameterestimater, forutsi scenarieresultater og validere modeller. Metoden er kraftig fordi den kan brukes til å simulere hvor som helst fra 1 til 10 000 (eller flere) simuleringsprøver for alle prosesser du prøver å evaluere. Statistikk for romdata:

  • En grunnleggende og viktig egenskap for romdata er at den ikke er tilfeldig. Det er romlig avhengig og autokorrelert. Når du modellerer romlige data, unngå statistiske metoder som antar at dataene dine er tilfeldige. Kriging og krige er to statistiske metoder som du kan bruke til å modellere romlige data. Disse metodene gjør at du kan produsere prediktive overflater for hele studieområder basert på sett med kjente punkter i geografisk plass. Arbeide med klynge-, klassifikasjons- og maskinlæringsmetoder

Maskinlæring er anvendelse av beregningsalgoritmer for å lære av (eller utlede mønstre i) rå datasett.

Clustering er en spesiell type maskinlæring - ikke-overvåket maskinlæring, for å være presis, noe som betyr at algoritmen må lære av umerkede data, og som sådan må de bruke inferensielle metoder for å oppdage sammenhenger. Klassifisering, derimot, kalles overvåket maskinlæring, noe som betyr at algoritmene lærer fra merkede data. Følgende beskrivelser introduserer noen av de mer grunnleggende klyngings- og klassifikasjonsmetoder: k-means clustering:

  • Du distribuerer vanligvis k-algoritmer for å dele inn datapunkter i et datasett i klynger basert på nærmeste middelverdier. For å bestemme den optimale fordelingen av datapunkter i klynger, slik at avstanden mellom punkter i hver klynge minimeres, kan du bruke k-betyr clustering. Nærmeste naboalgoritmer:

  • Formålet med en nærmeste naboanalyse er å søke etter og finne enten et nærmeste punkt i rommet eller en nærmeste numerisk verdi, avhengig av attributten du bruker som basis for sammenligning. Estimering av kjernedensitet:

  • En alternativ måte å identifisere klynger på i dataene dine er å bruke en tetthetsutjevningsfunksjon. Kernel tetthets estimering (KDE) virker ved å plassere en kjernen en vektningsfunksjon som er nyttig for å kvantifisere tetthet - på hvert datapunkt i datasettet, og deretter summere kjernene for å generere et kjerne tetthets estimat for det totale region. Holde matematiske metoder i blandingen

Det blir mye sagt om verdien av statistikk i praksis med datavitenskap, men anvendt matematiske metoder er sjelden nevnt. For å være ærlig, er matematikk grunnlaget for alle kvantitative analyser. Dens betydning bør ikke være undervurdert. De to følgende matematiske metoder er spesielt nyttige i datavitenskap.

MCDM er en matematisk beslutningsmodell som du kan bruke når du har flere kriterier eller alternativer som du må evaluere samtidig når du bestemmer deg.

  • Markov-kjeder : En Markov-kjede er en matematisk metode som sammenkaller en rekke tilfeldig genererte variabler som representerer nåværende tilstand for å modellere hvordan endringer i nåværende tilstandsvariabler påvirker fremtidige tilstander.

Ser på grunnlaget for statistikk, maskinlæring og matematiske metoder i datavitenskap - dummies

Redaktørens valg

Hvordan å stable og gruppereformer i Word 2013 - dummies

Hvordan å stable og gruppereformer i Word 2013 - dummies

Enkeltformer kan noen ganger være nyttige i en dokument, men den virkelige kraften til Word 2013's Shapes-funksjonen kan bli funnet ved å kombinere figurer for å lage mer komplekse tegninger og logoer. Du kan stable formene oppå hverandre og kontrollere rekkefølgen de vises i stakken. Når du har ...

Hvordan du angir punktavstand i Word 2013 - dummies

Hvordan du angir punktavstand i Word 2013 - dummies

Word 2013 lar deg legge til "luft" til plass før eller etter eller i midten av avsnittene dine. I midten av avsnittet har du linjeavstand. Før og etter avsnittet kommer punktavstand. Hvordan sette linjeavstanden Endre linjeavstanden legger til ekstra mellomrom mellom alle tekstlinjer ...

Slik starter du et nytt dokument i Word 2007 - dummies

Slik starter du et nytt dokument i Word 2007 - dummies

Starter et nytt dokument i Word 2007 er lett. Hvis du nettopp har startet Word 2007 og vil åpne et tomt dokument, kan du følge tre enkle trinn.

Redaktørens valg

Slik oppretter du en AWS Administrator User - Dummies

Slik oppretter du en AWS Administrator User - Dummies

Opprett Administrator-gruppen er det første trinnet for å sikre at din AWS (Amazon Web Services) -kontoen er fortsatt trygg. Det neste trinnet er å opprette en konto for deg selv og tilordne den til administratorgruppen, slik at du har full tilgang til de administrative funksjonene i din AWS-konto. Følgende trinn beskriver hvordan ...

Vurderer AWS-støttede plattformer - dummies

Vurderer AWS-støttede plattformer - dummies

Hvis du ikke har behandlet AWS eller skyen ennå, du kan være fristet til å tenke på plattformer som en bestemt kombinasjon av gjenstander. For eksempel, når du ser ditt eget lokale oppsett, har du en server som kjører et bestemt operativsystem og har et bestemt sett med maskinvareressurser. Systemet har en bestemt ...

Lage skuffer på Amazon Web Services - dummies

Lage skuffer på Amazon Web Services - dummies

Når du er den stolte eieren av Amazon Web Services (AWS ) konto, det er på tide å gjøre noe nyttig, som å lage en bøtte. Start med å sjekke ut dine S3-ressurser. For å gjøre det, klikk S3-lenken på startsiden for AWS Management Console, som vist her: Du er tatt til en side som lar deg administrere ...

Redaktørens valg

Slik bruker du Eye-Fi med Evernote-dummies

Slik bruker du Eye-Fi med Evernote-dummies

Et selskap kalt Eye-Fi gjør det mulig å Koble kameraet ditt med Evernote, selv uten å koble kameraet til datamaskinen. Følg disse trinnene for å bruke Eye-Fi: Følg instruksjonene som følger med Eye-Fi-kortet for å konfigurere en Eye-Fi-konto. Sett inn Eye-Fi-kortet i kameraet. Slå på kameraet ditt. ...

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hvordan man merker på Evernote for datamaskiner og tabletter - dummies

Hele poenget med å lagre nyttig informasjon er for å kunne finne den senere. Tagging i Evernote er fundamentalt lik for alle plattformer og er ekstremt nyttig når du dash om å prøve å skrive inn notater på hvilken enhet du bruker på den tiden. For å lage en tagg for et notat på en datamaskin eller ...