Hjem Personlig finansiering Ser på grunnlaget for statistikk, maskinlæring og matematiske metoder i datavitenskap - dummies

Ser på grunnlaget for statistikk, maskinlæring og matematiske metoder i datavitenskap - dummies

Innholdsfortegnelse:

Video: Data Analysis in R by Dustin Tran 2025

Video: Data Analysis in R by Dustin Tran 2025
Anonim

Del av Data Science for Dummies Cheat Sheet > Hvis statistikk er beskrevet som vitenskapen om å skaffe seg innsikt fra data, hva er forskjellen mellom en statistiker og en datavitenskapsmann? Godt spørsmål! Selv om mange oppgaver innen datalogi krever en god del statistisk kunnskap, er omfanget og bredden til en datavitenskapers kunnskap og ferdighetsgrunnlag forskjellig fra statistikkerenes. Kjerneforskjellene er skissert nedenfor.

Fagkompetanse:
  • En av kjernefunksjonene til datavitenskapsmenn er at de tilbyr en sofistikert grad av kompetanse i det området de bruker sine analysemetoder. Dataforskere trenger dette slik at de virkelig kan forstå implikasjonene og applikasjonene av datainnsamlingene de genererer. En datavitenskapsmann bør ha nok faglig kompetanse til å kunne identifisere betydningen av sine funn og selvstendig bestemme hvordan man skal gå videre i analysen.

    Statistikkerne har derimot vanligvis en utrolig dyp kunnskap om statistikk, men svært lite kompetanse i fagene som de bruker statistiske metoder på. Mesteparten av tiden er statistikere pålagt å konsultere eksterne fagpersoner for å få en fast forståelse for betydningen av funnene deres, og å kunne bestemme den beste måten å gå videre i en analyse.

    Matematiske og maskinlærte tilnærminger:
  • Statistikere stole hovedsakelig på statistiske metoder og prosesser når man lærer innsikt fra data. I motsetning til dette må dataforskere trekke seg fra et bredt spekter av teknikker for å utlede datainnsikt. Disse inkluderer statistiske metoder, men inkluderer også tilnærminger som ikke er basert på statistikk - som de som finnes i matematikk, klynging, klassifisering og ikke-statistiske maskininnlæringsmetoder. Se betydningen av statistisk kunnskap

Du trenger ikke å gå ut og få en grad i statistikk for å praktisere datavitenskap, men du bør i det minste bli kjent med noen av de mer grunnleggende metodene som brukes i statistisk dataanalyse. Disse inkluderer:

Lineær regresjon

  • : Linjær regresjon er nyttig for å modellere relasjonene mellom en avhengig variabel og en eller flere uavhengige variabler. Formålet med lineær regresjon er å oppdage (og kvantifisere styrken av) viktige korrelasjoner mellom avhengige og uavhengige variabler. Tidsserieanalyse:

  • Tidsserieanalyse innebærer å analysere en samling av data om attributtverdier over tid, for å kunne forutsi fremtidige forekomster av tiltaket basert på tidligere observasjonsdata. Monte Carlo-simuleringer:

  • Monte Carlo-metoden er en simuleringsteknikk du kan bruke til å teste hypoteser, generere parameterestimater, forutsi scenarieresultater og validere modeller. Metoden er kraftig fordi den kan brukes til å simulere hvor som helst fra 1 til 10 000 (eller flere) simuleringsprøver for alle prosesser du prøver å evaluere. Statistikk for romdata:

  • En grunnleggende og viktig egenskap for romdata er at den ikke er tilfeldig. Det er romlig avhengig og autokorrelert. Når du modellerer romlige data, unngå statistiske metoder som antar at dataene dine er tilfeldige. Kriging og krige er to statistiske metoder som du kan bruke til å modellere romlige data. Disse metodene gjør at du kan produsere prediktive overflater for hele studieområder basert på sett med kjente punkter i geografisk plass. Arbeide med klynge-, klassifikasjons- og maskinlæringsmetoder

Maskinlæring er anvendelse av beregningsalgoritmer for å lære av (eller utlede mønstre i) rå datasett.

Clustering er en spesiell type maskinlæring - ikke-overvåket maskinlæring, for å være presis, noe som betyr at algoritmen må lære av umerkede data, og som sådan må de bruke inferensielle metoder for å oppdage sammenhenger. Klassifisering, derimot, kalles overvåket maskinlæring, noe som betyr at algoritmene lærer fra merkede data. Følgende beskrivelser introduserer noen av de mer grunnleggende klyngings- og klassifikasjonsmetoder: k-means clustering:

  • Du distribuerer vanligvis k-algoritmer for å dele inn datapunkter i et datasett i klynger basert på nærmeste middelverdier. For å bestemme den optimale fordelingen av datapunkter i klynger, slik at avstanden mellom punkter i hver klynge minimeres, kan du bruke k-betyr clustering. Nærmeste naboalgoritmer:

  • Formålet med en nærmeste naboanalyse er å søke etter og finne enten et nærmeste punkt i rommet eller en nærmeste numerisk verdi, avhengig av attributten du bruker som basis for sammenligning. Estimering av kjernedensitet:

  • En alternativ måte å identifisere klynger på i dataene dine er å bruke en tetthetsutjevningsfunksjon. Kernel tetthets estimering (KDE) virker ved å plassere en kjernen en vektningsfunksjon som er nyttig for å kvantifisere tetthet - på hvert datapunkt i datasettet, og deretter summere kjernene for å generere et kjerne tetthets estimat for det totale region. Holde matematiske metoder i blandingen

Det blir mye sagt om verdien av statistikk i praksis med datavitenskap, men anvendt matematiske metoder er sjelden nevnt. For å være ærlig, er matematikk grunnlaget for alle kvantitative analyser. Dens betydning bør ikke være undervurdert. De to følgende matematiske metoder er spesielt nyttige i datavitenskap.

MCDM er en matematisk beslutningsmodell som du kan bruke når du har flere kriterier eller alternativer som du må evaluere samtidig når du bestemmer deg.

  • Markov-kjeder : En Markov-kjede er en matematisk metode som sammenkaller en rekke tilfeldig genererte variabler som representerer nåværende tilstand for å modellere hvordan endringer i nåværende tilstandsvariabler påvirker fremtidige tilstander.

Ser på grunnlaget for statistikk, maskinlæring og matematiske metoder i datavitenskap - dummies

Redaktørens valg

10 Tips for visuelt analysere og presentere data i Excel - dummies

10 Tips for visuelt analysere og presentere data i Excel - dummies

Her er noen konkrete forslag om hvordan du med hell kan bruke diagrammer som dataanalyseværktøy i Excel, og hvordan du kan bruke diagrammer for å mer effektivt kommunisere resultatene av dataanalysen du gjør. Bruk riktig diagramtype Hva mange mennesker ikke skjønner er at du bare kan lage fem ...

10 Måter å forbedre Power Pivot Performance - dummies

10 Måter å forbedre Power Pivot Performance - dummies

Når du publiserer Power Pivot-rapporter på nettet, har du tenkt for å gi publikum den beste opplevelsen som er mulig. En stor del av denne erfaringen er å sikre at ytelsen er god. Ordet ytelse (som det gjelder applikasjoner og rapportering) er vanligvis synonymt med hastighet - eller hvor raskt et program utfører bestemte handlinger ...

Legger ekstra analyselagre til Excel-diagrammer - dummies

Legger ekstra analyselagre til Excel-diagrammer - dummies

Det er ikke uvanlig å bli bedt om å legge til Ekstra analyse til din visualisering som vanligvis ikke er plottet på et Excel-diagram. For eksempel viser dette diagramet salg for hvert kvartal, men klienten vil kanskje også se prosentveksten i samme kvartal. De fleste Excel-analytikere oppfyller dette behovet med faktiske tekstbokser. ...

Redaktørens valg

Reise fotografering kamera sammenligning diagram - dummies

Reise fotografering kamera sammenligning diagram - dummies

Fra smarte telefoner til punkt-og-skyte og digitale speilreflekskameraer, du har en mange fotograferingsvalg der ute. Bruk følgende diagram for å se hvilken type kamera som passer best for deg. Smartphone Point-and-shoot dSLR Bildesensor Kvalitet Lav til middels Medium Høy Vannbestandig (egnet for basseng) Sjeldne Få modeller Sjeldne Optiske Zoom Lav ...

Ta et makrofoto-dummies

Ta et makrofoto-dummies

Fotografi (makrofotografi) gir deg den som ser bildene dine, utsikt over verden ikke normalt sett av det blotte øye. De fleste kameraer, selv smarttelefoner, kan skyte ting med en rimelig nærhet med en viss grad av klarhet og fokus. Mens du reiser, finner du ting som skyter nærbilde, for eksempel hva du spiser til middag, en merkelig feil, ...

Forestille et Moving Object - dummies

Forestille et Moving Object - dummies

Når du ser et bilde, skjønner du selv hva som skjedde da det ble tatt. Noen bilder kan innebære bevegelse eller aktivitet. For eksempel kan du fokusere på en sykkel som beveger seg nedover gaten med bygningene bak den sløret. Dette er annerledes enn grunne dybdeskarphet, men fordi blenderåpningen ikke er det som skaper ...

Redaktørens valg

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

ACT-strategi for å multiplisere en horisontal matrise med en vertikal matrise - dummies

På ACT Matematisk test, du må sannsynligvis multiplisere par matriser som har enten en rad eller en kolonne. En enkel måte å formere en horisontal matrise med en vertikal matris er å sette opp et lite rutenett. Denne metoden lar deg fylle ut tallene for å få det riktige svaret. Matrix ...

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

ACT-strategi for å løse en matrise ved hjelp av en determinant-dummies

Er en determinant en vanlig operasjon utført på en firkantet matrise. På ACT Math-testen er den eneste determinantformelen du trenger å være kjent med, for en 2 x 2-matrise. Her er formelen for determinanten av Merk at determinanten av en matrise bare er et tall, ikke en matrise. Å ...

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

ACT Trick for Quadratics: Slik finner du raskt en Parabola-dummies retning

For å spare tid når du graver en kvadratisk funksjon på ACT Math-testen, kan du raskt bestemme retningen for parabolen ved hjelp av et enkelt triks basert på koeffisienten a. Dette trikset vedrører tegnet på variabelen a (i uttrykket ax2): Når a er positivt, er grafen konkav opp. I ...