Ser på grunnlaget for statistikk, maskinlæring og matematiske metoder i datavitenskap - dummies

Video: Data Analysis in R by Dustin Tran 2025

Del av Data Science for Dummies Cheat Sheet > Hvis statistikk er beskrevet som vitenskapen om å skaffe seg innsikt fra data, hva er forskjellen mellom en statistiker og en datavitenskapsmann? Godt spørsmål! Selv om mange oppgaver innen datalogi krever en god del statistisk kunnskap, er omfanget og bredden til en datavitenskapers kunnskap og ferdighetsgrunnlag forskjellig fra statistikkerenes. Kjerneforskjellene er skissert nedenfor.

Fagkompetanse:

En av kjernefunksjonene til datavitenskapsmenn er at de tilbyr en sofistikert grad av kompetanse i det området de bruker sine analysemetoder. Dataforskere trenger dette slik at de virkelig kan forstå implikasjonene og applikasjonene av datainnsamlingene de genererer. En datavitenskapsmann bør ha nok faglig kompetanse til å kunne identifisere betydningen av sine funn og selvstendig bestemme hvordan man skal gå videre i analysen.

Statistikkerne har derimot vanligvis en utrolig dyp kunnskap om statistikk, men svært lite kompetanse i fagene som de bruker statistiske metoder på. Mesteparten av tiden er statistikere pålagt å konsultere eksterne fagpersoner for å få en fast forståelse for betydningen av funnene deres, og å kunne bestemme den beste måten å gå videre i en analyse.

Matematiske og maskinlærte tilnærminger:
Statistikere stole hovedsakelig på statistiske metoder og prosesser når man lærer innsikt fra data. I motsetning til dette må dataforskere trekke seg fra et bredt spekter av teknikker for å utlede datainnsikt. Disse inkluderer statistiske metoder, men inkluderer også tilnærminger som ikke er basert på statistikk - som de som finnes i matematikk, klynging, klassifisering og ikke-statistiske maskininnlæringsmetoder. Se betydningen av statistisk kunnskap

Du trenger ikke å gå ut og få en grad i statistikk for å praktisere datavitenskap, men du bør i det minste bli kjent med noen av de mer grunnleggende metodene som brukes i statistisk dataanalyse. Disse inkluderer:

Lineær regresjon

: Linjær regresjon er nyttig for å modellere relasjonene mellom en avhengig variabel og en eller flere uavhengige variabler. Formålet med lineær regresjon er å oppdage (og kvantifisere styrken av) viktige korrelasjoner mellom avhengige og uavhengige variabler. Tidsserieanalyse:
Tidsserieanalyse innebærer å analysere en samling av data om attributtverdier over tid, for å kunne forutsi fremtidige forekomster av tiltaket basert på tidligere observasjonsdata. Monte Carlo-simuleringer:
Monte Carlo-metoden er en simuleringsteknikk du kan bruke til å teste hypoteser, generere parameterestimater, forutsi scenarieresultater og validere modeller. Metoden er kraftig fordi den kan brukes til å simulere hvor som helst fra 1 til 10 000 (eller flere) simuleringsprøver for alle prosesser du prøver å evaluere. Statistikk for romdata:
En grunnleggende og viktig egenskap for romdata er at den ikke er tilfeldig. Det er romlig avhengig og autokorrelert. Når du modellerer romlige data, unngå statistiske metoder som antar at dataene dine er tilfeldige. Kriging og krige er to statistiske metoder som du kan bruke til å modellere romlige data. Disse metodene gjør at du kan produsere prediktive overflater for hele studieområder basert på sett med kjente punkter i geografisk plass. Arbeide med klynge-, klassifikasjons- og maskinlæringsmetoder

Maskinlæring er anvendelse av beregningsalgoritmer for å lære av (eller utlede mønstre i) rå datasett.

Clustering er en spesiell type maskinlæring - ikke-overvåket maskinlæring, for å være presis, noe som betyr at algoritmen må lære av umerkede data, og som sådan må de bruke inferensielle metoder for å oppdage sammenhenger. Klassifisering, derimot, kalles overvåket maskinlæring, noe som betyr at algoritmene lærer fra merkede data. Følgende beskrivelser introduserer noen av de mer grunnleggende klyngings- og klassifikasjonsmetoder: k-means clustering:

Du distribuerer vanligvis k-algoritmer for å dele inn datapunkter i et datasett i klynger basert på nærmeste middelverdier. For å bestemme den optimale fordelingen av datapunkter i klynger, slik at avstanden mellom punkter i hver klynge minimeres, kan du bruke k-betyr clustering. Nærmeste naboalgoritmer:
Formålet med en nærmeste naboanalyse er å søke etter og finne enten et nærmeste punkt i rommet eller en nærmeste numerisk verdi, avhengig av attributten du bruker som basis for sammenligning. Estimering av kjernedensitet:
En alternativ måte å identifisere klynger på i dataene dine er å bruke en tetthetsutjevningsfunksjon. Kernel tetthets estimering (KDE) virker ved å plassere en kjernen en vektningsfunksjon som er nyttig for å kvantifisere tetthet - på hvert datapunkt i datasettet, og deretter summere kjernene for å generere et kjerne tetthets estimat for det totale region. Holde matematiske metoder i blandingen

Det blir mye sagt om verdien av statistikk i praksis med datavitenskap, men anvendt matematiske metoder er sjelden nevnt. For å være ærlig, er matematikk grunnlaget for alle kvantitative analyser. Dens betydning bør ikke være undervurdert. De to følgende matematiske metoder er spesielt nyttige i datavitenskap.

MCDM er en matematisk beslutningsmodell som du kan bruke når du har flere kriterier eller alternativer som du må evaluere samtidig når du bestemmer deg.

Markov-kjeder : En Markov-kjede er en matematisk metode som sammenkaller en rekke tilfeldig genererte variabler som representerer nåværende tilstand for å modellere hvordan endringer i nåværende tilstandsvariabler påvirker fremtidige tilstander.