Video: Sailboat Keel Repair/Problem: SOMETHING IS MISSING FROM OUR KEEL !! (Patrick Childress Sailing #42) 2025
Når du stoler på teknologi eller instrumentering for å utføre en prediktiv analyseoppgave, kan en feil her eller der føre til at disse instrumentene registrerer ekstreme eller uvanlige verdier. Hvis sensorer registrerer observasjonsverdier som ikke oppfyller grunnleggende kvalitetskontrollstandarder, kan de produsere ekte forstyrrelser som reflekteres i data.
Noen som utfører dataoppføring, kan for eksempel enkelt legge til en ekstra 0 ved enden av en verdi ved en feiltakelse, ta oppføringen utenfor rekkevidde og produsere en outlier.
Hvis du ser på observasjonsdata samlet inn av en vann sensor installert i Baltimore Harbor - og det rapporterer en vanndybde på 20 fot over gjennomsnittlig havnivå - har du en outlier. Sensoren er åpenbart feil med mindre Baltimore er helt dekket av vann.
Data kan ende opp med å ha utelukkende på grunn av eksterne hendelser eller en feil av en person eller et instrument.
Hvis en ekte begivenhet som en flashkrasj er sporet til en feil i systemet, er konsekvensene fortsatt virkelige - men hvis du kjenner kilde til problemet, kan du konkludere med at en feil i dataene, ikke modellen din, var å klandre hvis modellen ikke forutsi hendelsen.
Å vite kilden til outlier vil lede din beslutning om hvordan du skal håndtere det. Outliers som var resultatet av datainngangsfeil kan enkelt korrigeres etter å ha konsultert datakilden. Outliers som reflekterer en forandringsverdenlighet, kan be deg om å endre modellen.
Det er ingen svar på alle størrelser når du bestemmer deg for å inkludere eller se bort fra ekstreme data som ikke er en feil eller feil. Ditt svar avhenger av arten av analysen du gjør - og på typen modell du bygger. I noen få tilfeller er måten å håndtere disse utjevnene rettferdig:
-
Hvis du sporer outlier til en datainngangsfeil når du konsulterer datakilden, kan du enkelt rette opp dataene og (sannsynligvis) holde modellen intakt.
-
Hvis denne vannsensoren i Baltimore Harbor rapporterer vann til en dybde på 20 fot over gjennomsnittlig havnivå, og du er i Baltimore, se ut av vinduet ditt:
-
Hvis Baltimore ikke er helt dekket av vann, må sensoren er åpenbart feil.
-
Hvis du ser en fisk som ser på deg, har virkeligheten endret seg; Du må kanskje revidere modellen din.
-
-
Flash-krasjet kan ha vært en engangs-begivenhet (på kort sikt, uansett), men effektene var virkelige - og hvis du har studert markedet på lengre sikt, vet du at noe lignende kan skje igjen.Hvis virksomheten din er i finans og du håndterer aksjemarkedet hele tiden, vil du at modellen skal tegne slike avvik.
Generelt om utfallet av et arrangement som normalt betraktes som en outlier, kan ha stor innvirkning på virksomheten din, bør du vurdere hvordan du skal håndtere hendelsene i analysen. Hold disse generelle poengene i tankene om utjevnende:
-
Den mindre datasettet er, jo mer signifikant utslagene kan ha på analysen.
-
Når du utvikler modellen, må du sørge for at du også utvikler teknikker for å finne avvikere og systematisk forstå deres innvirkning på bedriften din.
-
Detektere utelukker kan være en komplisert prosess; Det er ingen enkel måte å identifisere dem på.
-
En domeneekspert (den som kjenner feltet du modellerer), er din beste person til å kontrollere om et datapunkt er gyldig, en outlier du kan se bort fra, eller en outlier du har å ta i betraktning. Domeneeksperten skal kunne forklare hvilke faktorer som skapte outlier, hva variasjonsevnen er, og dens innvirkning på virksomheten.
-
Visualiseringsverktøy kan hjelpe deg med å finne utallige data i dataene. Også, hvis du vet det forventede verdifallet, kan du enkelt spørre etter data som faller utenfor dette området.
