Video: How to Remove Duplicates in Google Spreadsheets 2024
En svært nyttig applikasjon av å subdate data er å finne og fjerne dupliserte verdier. R har en nyttig funksjon, duplisert (), som finner dupliserte verdier og returnerer en logisk vektor som forteller deg om den spesifikke verdien er en duplikat av en tidligere verdi. Dette betyr at for dupliserte verdier returnerer duplisert () FALSE for første forekomst og SANT for hver følgende forekomst av den verdien, som i følgende eksempel:
Hvis du prøver dette på en dataramme, R automatisk kontrollerer observasjonene (det betyr at den behandler hver rad som en verdi). Så, for eksempel med datarammen iris: >> duplisert (iris) [1] FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK [10] FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK … [136] FALSK FALSK FALSK FALSK FALSK FALSK FALSK SAND FALSK [145] FALSK FALSK FALSK FALSK FALSK FALSK
Hvis du ser nøye ut, merker du den raden 143 er en duplikat (fordi det 143. elementet i resultatet har verdien SANT). Du kan også fortelle dette ved å bruke hvilken () funksjon:
>> som (duplisert (iris)) [1] 143
Nå, for å fjerne duplikatet fra iris må du ekskludere denne raden fra dataene dine. Husk at det er to måter å ekskludere data ved hjelp av subsetting:
Angi en logisk vektor, der
FALSE
betyr at elementet vil bli ekskludert.-
The! (utropstegn) operatør er en logisk negasjon. Dette betyr at den konverterer SENT til FALSK og omvendt. Så, for å fjerne duplikatene fra iris, gjør du følgende:
I begge tilfeller vil du legge merke til at instruksjonen din har fjernet rad 143.
-