Calcula el promedio de letras por palabra (sólo letras Unicode, excluye
dígitos y signos de puntuación) para cada elemento de text
. La
tokenización se realiza con tokenize_words
.
Arguments
- text
Vector de caracteres con el/los texto(s) a analizar.
- na_as_zero
Lógico; si es
TRUE
, cuandotext
tieneNA
devuelve 0 en lugar deNA
. Además, si un elemento no contiene palabras, devuelve 0 en lugar deNA
.- drop_empty
Lógico; si es
TRUE
, descarta tokens vacíos antes de contar.- ...
Argumentos adicionales que se pasan a
tokenize_words
.
Details
El conteo de letras se realiza usando la clase Unicode \p{L}
. Si
strip_punct = TRUE
en tokenize_words
(valor por defecto),
la mayor parte de la puntuación se elimina antes del conteo.
Examples
letters_per_word("Hola mundo!")
#> [1] 4.5
letters_per_word(c("N° 123", "Palabra-compuesta"))
#> [1] 0.5 16.0