🇪🇸 Introducción (Español)
readabilityes ofrece herramientas para tokenizar, segmentar y medir la legibilidad de textos en español. Incluye:
- Segmentación de oraciones respetando abreviaturas (p. ej., Sr., Dra.), iniciales (J. R. R.), elipsis y decimales.
- Tokenización de palabras con control de minúsculas, tildes, puntuación, guiones, números y símbolos/emoji.
- Conteos básicos: palabras, oraciones, sílabas (aprox. ES).
- Métricas promedio por palabra (sílabas/letras/caracteres).
-
Índices de legibilidad usados en español:
-
Szigriszt–Pazos (
szigriszt_pazos()
). -
INFLESZ (
inflesz()
, devuelve puntaje + categoría). -
Gutiérrez de Polini (
gutierrez_de_polini()
).
-
Szigriszt–Pazos (
Instalación
Versión de desarrollo desde GitHub:
# install.packages("devtools")
devtools::install_github("JFormoso/readabilityes")
Ejemplo rápido
txt <- c(
"Hola. ¿Cómo estás? ¡Todo bien!",
"La legibilidad facilita la comprensión del texto por parte de las personas lectoras."
)
# Oraciones y palabras
segment_sentences(txt)
#> [[1]]
#> [1] "Hola." "¿Cómo estás?" "¡Todo bien!"
#>
#> [[2]]
#> [1] "La legibilidad facilita la comprensión del texto por parte de las personas lectoras."
count_sentences(txt, drop_empty = TRUE)
#> [1] 3 1
tokenize_words(txt)
#> [[1]]
#> [1] "hola" "cómo" "estás" "todo" "bien"
#>
#> [[2]]
#> [1] "la" "legibilidad" "facilita" "la" "comprensión"
#> [6] "del" "texto" "por" "parte" "de"
#> [11] "las" "personas" "lectoras"
# Sílabas y promedios
count_syllables(txt)
#> [1] 9 28
avg_syllables_per_word(txt)
#> [1] 1.800000 2.153846
# Índices de legibilidad
szigriszt_pazos(txt)
#> [1] 93.02833 59.65038
inflesz(txt)
#> score category
#> 1 93.02833 Muy fácil
#> 2 59.65038 Normal
gutierrez_de_polini(txt)
#> [1] 77.15667 69.75769
🇬🇧 Introduction (English)
readabilityes provides tools to tokenize, segment, and assess readability for Spanish-language texts. It includes:
- Sentence segmentation that respects abbreviations (e.g., Sr., Dra.), initials (J. R. R.), ellipses, and decimals.
- Word tokenization with controls for lowercasing, accents, punctuation, hyphens, numbers, and symbols/emoji.
- Basic counts: words, sentences, syllables (approx. ES).
- Per-word averages (syllables/letters/characters).
-
Readability indices commonly used in Spanish:
-
Szigriszt–Pazos (
szigriszt_pazos()
). -
INFLESZ (
inflesz()
, returns score + category). -
Gutiérrez de Polini (
gutierrez_de_polini()
).
-
Szigriszt–Pazos (
Installation
Install the development version from GitHub:
# install.packages("devtools")
devtools::install_github("JFormoso/readabilityes")
Quick example
txt <- c(
"Hola. ¿Cómo estás? ¡Todo bien!",
"La legibilidad facilita la comprensión del texto por parte de las personas lectoras."
)
# Sentences and words
segment_sentences(txt)
#> [[1]]
#> [1] "Hola." "¿Cómo estás?" "¡Todo bien!"
#>
#> [[2]]
#> [1] "La legibilidad facilita la comprensión del texto por parte de las personas lectoras."
count_sentences(txt, drop_empty = TRUE)
#> [1] 3 1
tokenize_words(txt)
#> [[1]]
#> [1] "hola" "cómo" "estás" "todo" "bien"
#>
#> [[2]]
#> [1] "la" "legibilidad" "facilita" "la" "comprensión"
#> [6] "del" "texto" "por" "parte" "de"
#> [11] "las" "personas" "lectoras"
# Syllables and averages
count_syllables(txt)
#> [1] 9 28
avg_syllables_per_word(txt)
#> [1] 1.800000 2.153846
# Readability indices
szigriszt_pazos(txt)
#> [1] 93.02833 59.65038
inflesz(txt)
#> score category
#> 1 93.02833 Muy fácil
#> 2 59.65038 Normal
gutierrez_de_polini(txt)
#> [1] 77.15667 69.75769