Skip to contents

Calcula el promedio de caracteres por palabra para cada elemento de text. Por defecto, se contabilizan todos los caracteres presentes en cada token (tal como fueron devueltos por tokenize_words), por lo que normalmente no incluye puntuación si strip_punct = TRUE.

Usage

chars_per_word(text, na_as_zero = FALSE, drop_empty = TRUE, ...)

Arguments

text

Vector de caracteres con el/los texto(s) a analizar.

na_as_zero

Lógico; si es TRUE, cuando text tiene NA devuelve 0 en lugar de NA. Además, si un elemento no contiene palabras, devuelve 0 en lugar de NA.

drop_empty

Lógico; si es TRUE, descarta tokens vacíos antes de contar.

...

Argumentos adicionales que se pasan a tokenize_words.

Value

Un vector numérico con el promedio de caracteres por palabra.

Details

El conteo de caracteres se realiza con nchar(..., type = "chars"). Si deseás excluir explícitamente ciertos signos (p. ej., guiones), asegurate de configurar strip_punct o keep_hyphens en tokenize_words según corresponda.

Examples

chars_per_word("Hola mundo!")                 # típico: ~4 y ~5
#> [1] 4.5
chars_per_word("Palabra-compuesta ejemplo")   # depende de `keep_hyphens`
#> [1] 12