Come cercare le singole parole in R - dummies

Video: Mahmood - Barrio 2025

Quando lavori con il testo, spesso puoi risolvere i problemi se riesci a trovare parole o motivi all'interno del testo. R rende questo facile da fare. Immagina di avere una lista degli stati negli Stati Uniti e vuoi scoprire quale di questi stati contiene la parola Nuovo.

Per indagare su questo problema, è possibile utilizzare gli stati del set di dati incorporato. nomi, che contiene - avete indovinato - i nomi degli stati degli Stati Uniti:

>> testa (stato nomi) [1] "Alabama" "Alaska" "Arizona" [4] "Arkansas" "California" "Colorado"

In generale, puoi trovare sottostringhe nel testo in due modi:

Per posizione:

Ad esempio, puoi dire a R di ottenere tre lettere a partire dalla posizione 5. Per modello:
Ad esempio, puoi dire a R di ottenere sottostringhe che corrisponde a una parola o uno schema specifico. Un modello è un po 'come un jolly. In alcuni giochi di carte, puoi usare la carta Joker per rappresentare qualsiasi altra carta. Allo stesso modo, uno schema in R può contenere parole o determinati simboli con significati speciali.

Ricerca per posizione in R

Se si conosce la posizione esatta di un sottotesto all'interno di un elemento di testo, si utilizza la funzione substr () per restituire il valore. Per estrarre il sottotesto che inizia nella terza posizione e si ferma alla sesta posizione di stato. nome, utilizzare quanto segue: >> head (substr (stato nome, start = 3, stop = 6)) [1] "abam" "aska" "izon" "kans" "lifo" "lora" > Ricerca per modello in R

Per trovare sottostringhe, puoi usare la funzione grep (), che prende due argomenti essenziali:

schema

Il modello che vuoi trovare.

x : Il vettore di caratteri che si desidera cercare.
Supponiamo di voler trovare tutti gli stati che contengono il modello Nuovo. Fai così: >> grep ("Nuovo", nome dello stato) [1] 29 30 31 32 Il risultato di grep () è un vettore numerico con le posizioni di ciascuno degli elementi che contengono il modello di corrispondenza. In altre parole, il 29 ° elemento di stato. nome contiene la parola Nuovo. >> stato. nome [29] New Hampshire

Phew, ha funzionato! Ma digitando la posizione di ogni testo corrispondente sarà molto lavoro. Fortunatamente, è possibile utilizzare direttamente i risultati di grep () per impostare il sottoinsieme del vettore originale: >> stato. nome [grep ("Nuovo", nome dello stato)] [1] "New Hampshire" "New Jersey" [3] "Nuovo Messico" "New York"

La funzione grep () è sensibile al maiuscolo / minuscolo - corrisponde solo testo nello stesso caso (maiuscolo o minuscolo) come modello di ricerca. Se si cerca il motivo "nuovo" in minuscolo, i risultati della ricerca sono vuoti: >> stato. nome [grep ("nuovo", stato.nome)] carattere (0)