Hvordan du fjerner duplikatdata i R-dummies

Video: How to Remove Duplicates in Google Spreadsheets 2024

En svært nyttig applikasjon av å subdate data er å finne og fjerne dupliserte verdier. R har en nyttig funksjon, duplisert (), som finner dupliserte verdier og returnerer en logisk vektor som forteller deg om den spesifikke verdien er en duplikat av en tidligere verdi. Dette betyr at for dupliserte verdier returnerer duplisert () FALSE for første forekomst og SANT for hver følgende forekomst av den verdien, som i følgende eksempel:

>> duplisert (c, 1, 2, 1, 3, 1, 4)) [1] FALSE FALSE SANT FALSE SANT FALSK

Hvis du prøver dette på en dataramme, R automatisk kontrollerer observasjonene (det betyr at den behandler hver rad som en verdi). Så, for eksempel med datarammen iris: >> duplisert (iris) [1] FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK [10] FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK FALSK … [136] FALSK FALSK FALSK FALSK FALSK FALSK FALSK SAND FALSK [145] FALSK FALSK FALSK FALSK FALSK FALSK

Hvis du ser nøye ut, merker du den raden 143 er en duplikat (fordi det 143. elementet i resultatet har verdien SANT). Du kan også fortelle dette ved å bruke hvilken () funksjon:








 >> som (duplisert (iris)) [1] 143

Nå, for å fjerne duplikatet fra iris må du ekskludere denne raden fra dataene dine. Husk at det er to måter å ekskludere data ved hjelp av subsetting:

Angi en logisk vektor, der

FALSE

betyr at elementet vil bli ekskludert.

The! (utropstegn) operatør er en logisk negasjon. Dette betyr at den konverterer SENT til FALSK og omvendt. Så, for å fjerne duplikatene fra iris, gjør du følgende:
>> iris [! duplisert (iris),] Angi negative verdier. Med andre ord:
>> index iris [-index,]
```
I begge tilfeller vil du legge merke til at instruksjonen din har fjernet rad 143.
```