Samsvarende data for algoritmer fra ulike kilder - dummies

Video: Internet Technologies - Computer Science for Business Leaders 2016 2025

Det er ett problem å samhandle med data fra en enkelt kilde; å samhandle med data fra flere kilder er ganske annet. Datasettene kommer i dag vanligvis fra mer enn én kilde, så du må forstå komplikasjonene som bruker flere datakilder, kan forårsake. Når du arbeider med flere datakilder, må du gjøre følgende:

Bestem om begge datasettene inneholder alle nødvendige data. To designere er usannsynlig å lage datasett som inneholder nøyaktig samme data, i samme format, av samme type, og i samme rekkefølge. Følgelig må du vurdere om datasettene gir de dataene du trenger, eller om du må rette opp dataene på en eller annen måte for å oppnå ønsket resultat.
Sjekk begge datasettene for datatype problemer. Et datasett kan ha datoer som strenge, og en annen kan ha datoene som er lagt til som faktiske datoobjekter. Inkonsekvenser mellom datatyper vil føre til problemer for en algoritme som forventer data i en form og mottar den i en annen.
Kontroller at alle datasettene har samme betydning på dataelementene. Data som er opprettet av en kilde, kan ha en annen betydning enn data som er opprettet av en annen kilde. For eksempel kan størrelsen på et heltall variere over kilder, slik at du kanskje ser et 16-biters heltall fra en kilde og et 32-biters heltall fra en annen. Lavere verdier har samme betydning, men 32-biters heltall kan inneholde større verdier, noe som kan føre til problemer med algoritmen. Datoer kan også forårsake problemer fordi de ofte stole på lagring av så mange millisekunder siden en gitt dato (for eksempel JavaScript, som lagrer antall millisekunder siden 01 januar, 1970 UTC). Datamaskinen ser bare tall; mennesker legger mening til disse tallene slik at applikasjoner tolker dem på bestemte måter.
Verifiser dataattributtene. Dataelementer har spesifikke attributter. Denne tolkningen kan endres når du bruker numpy . Faktisk finner du at dataattributter endres mellom miljøer, og utviklere kan endre dem enda mer ved å lage egendefinerte datatyper. For å kombinere data fra ulike kilder må du forstå disse attributter for å sikre at du tolker dataene riktig.

Jo mer tid du bruker til å verifisere kompatibiliteten til data fra hver av kildene du vil bruke for et datasett, desto mindre sannsynlig vil du støte på problemer når du arbeider med en algoritme. Datakompatibilitetsproblemer vises ikke alltid som direkte feil. I noen tilfeller kan en inkompatibilitet forårsake andre problemer, for eksempel utrolige resultater som ser riktig ut, men gir villedende opplysninger.

Kombinere data fra flere kilder kan ikke alltid bety å skape et nytt datasett som ser ut akkurat som kildedataene, heller. I noen tilfeller lager du dataaggregat eller utfører andre former for manipulering for å opprette nye data fra eksisterende data. Analyse tar alle slags former, og noen av de mer eksotiske skjemaene kan produsere forferdelige feil når de brukes feil. For eksempel kan en datakilde gi generell kundeinformasjon, og en annen datakilde kan gi kundernes kjøpevaner. Ulemper mellom de to kildene kan matche kunder med feil kjøp av vaneinformasjon og forårsake problemer når du prøver å markedsføre nye produkter til disse kundene. Som et ekstremt eksempel, bør du vurdere hva som ville skje når du kombinerer pasientinformasjon fra flere kilder og oppretter kombinert pasientoppføringer i en ny datakilde med alle slags feilmatcher. En pasient uten historie av en bestemt sykdom kan ende opp med registreringer som viser diagnose og omsorg for sykdommen.