Skip to contents

Calcula el promedio de letras por palabra (sólo letras Unicode, excluye dígitos y signos de puntuación) para cada elemento de text. La tokenización se realiza con tokenize_words.

Usage

letters_per_word(text, na_as_zero = FALSE, drop_empty = TRUE, ...)

Arguments

text

Vector de caracteres con el/los texto(s) a analizar.

na_as_zero

Lógico; si es TRUE, cuando text tiene NA devuelve 0 en lugar de NA. Además, si un elemento no contiene palabras, devuelve 0 en lugar de NA.

drop_empty

Lógico; si es TRUE, descarta tokens vacíos antes de contar.

...

Argumentos adicionales que se pasan a tokenize_words.

Value

Un vector numérico con el promedio de letras por palabra.

Details

El conteo de letras se realiza usando la clase Unicode \p{L}. Si strip_punct = TRUE en tokenize_words (valor por defecto), la mayor parte de la puntuación se elimina antes del conteo.

Examples

letters_per_word("Hola mundo!")
#> [1] 4.5
letters_per_word(c("N° 123", "Palabra-compuesta"))
#> [1]  0.5 16.0