Video: Lazer Team 2024
Når du arbeider med tekst i R, må du kanskje finne ord eller mønstre i tekst. Tenk deg at du har en liste over stater i USA, og du vil finne ut hvilke statlige navn som består av to ord.
For å finne understrenger kan du bruke grep () -funksjonen, som tar to viktige argumenter:
-
mønster : Mønsteret du vil finne.
-
x : Tegnvektoren du vil søke.
Så, hvordan finner du navnene på alle statene med mer enn ett ord? Dette er enkelt når du innser at du kan ramme spørsmålet ved å finne alle de statene som inneholder et mellomrom: >> state. navn [grep ("", state. name)] [1] "New Hampshire" "New Jersey" [3] "New Mexico" "New York" [5] "North Carolina" "North Dakota" [7] "Rhode Resultatene inkluderer alle stater som har toordsnavn, for eksempel New Jersey, New York, North Carolina, South Dakota og West Virginia..
Du kan se fra denne listen at det ikke finnes statlige navn som inneholder
Øst.Du kan bekrefte dette ved å gjøre en annen finner: >> state. navn [grep ("øst", stat. navn)] tegn (0) Når resultatet av en tegnoperasjon er en tom vektor (det vil si at det ikke er noe i det), representerer R det som tegn (0). På samme måte er en tom eller nulllengde, numerisk vektor representert med heltall (0) eller numerisk (0).
R skiller mellom NULL og en tom vektor. NULL betyr vanligvis at noe er udefinert. Dette er subtilt forskjellig fra noe som er tomt. For eksempel er en tegnvektor som ikke har noen elementer, fortsatt en tegnvektor, representert av tegn (0).