Hvorfor sorteringsdata er viktig for algoritmer - dummier

Video: Krem Nasjonal - Hvorfor 2025

Tenk deg å prøve å finne et element i en liste uten å sortere det først. Hvert søk blir et tidkrevende sekvensielt søk. Men det kan gjøres en sak for ikke å sortere data for algoritmer. Tross alt er dataene fortsatt tilgjengelige, selv om du ikke sorterer det - og sortering tar tid.

Problemet med usorterte data er selvsagt det samme problemet som søppelskuffen på kjøkkenet ditt (eller hvor du har søppelskuffen din - forutsatt at du finner det i det hele tatt). Å se etter noe i søppelskuffen er tidkrevende fordi du ikke engang kan begynne å gjette hvor du skal finne noe. Snarere enn å bare komme inn og ta det du vil, må du ta ut mange andre ting du ikke vil ha i et forsøk på å finne det ene elementet du trenger. Dessverre kan elementet du trenger, ikke være i søppel skuffen i utgangspunktet, du kan ha kastet den ut eller sette den i en annen skuff.

Skrapskuffen i ditt hjem er akkurat som usorterte data på systemet ditt. Når dataene er usorterte, må du søke etter ett element om gangen, og du vet ikke engang om du vil finne det du trenger uten å søke hvert element i datasettet først. Det er en frustrerende måte å jobbe med data på.

Selvfølgelig er det ganske enkelt ikke bare å sortere dataene. Hvis du har en ansatt database sortert etter etternavn, men likevel trenger å slå opp en ansatt ved fødselsdato, er sorteringen ikke nyttig. (Si at du vil finne alle de ansatte som har en bursdag på en bestemt dag.) For å finne fødselsdatoen du trenger, må du fortsatt søke hele datasettet ett element om gangen. Derfor må sorteringen fokusere på et bestemt behov. Ja, du trengte medarbeidsdatabasen sortert etter avdeling på ett tidspunkt og etter etternavn på en annen tid, men nå trenger du den sortert etter fødselsdato for å kunne bruke datasettet effektivt.

Behovet for å opprettholde flere sorterte bestillinger for de samme dataene er årsaken til at utviklere opprettet indekser. Sortering av en liten indeks er raskere enn å sortere hele datasettet. Indeksen opprettholder en bestemt datordeling og peker på hele datasettet slik at du kan finne det du trenger ekstremt raskt. Ved å opprettholde en indeks for hvert sorteringsbehov, kan du effektivt kutte dataadgangstid og tillate flere personer å få tilgang til dataene samtidig i den rekkefølgen de trenger for tilgang til den.

Mange måter er tilgjengelige for å kategorisere sorteringsalgoritmer. En av disse måtene er sortens hastighet. Når man vurderer hvor effektiv en bestemt sorteringsalgoritme er ved å ordne dataene, ser timing-benchmarks vanligvis på to faktorer:

Sammenligninger: For å flytte data fra ett sted i et datasett til et annet, må du vite hvor du skal flytte det, som betyr å sammenligne måldataene med andre data i datasettet.Å ha færre sammenligninger betyr bedre ytelse.
Utveksling: Avhengig av hvordan du skriver en algoritme, kan dataene ikke komme til den endelige plasseringen i datasettet ved første forsøk. Dataene kan faktisk flytte flere ganger. Antall utvekslinger påvirker hastigheten betraktelig fordi nå flytter du faktisk data fra ett sted til et annet i minnet. Færre og mindre utvekslinger (som ved bruk av indekser) betyr bedre ytelse.