Frecuencia de aparición de letras

El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros:

Frecuencia de uso de letras en español

Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes.

Frecuencia de aparición de letras en español

Porcentaje de aparición de letras en español:[1]

LetraABCDEFGHIJKLMN
Porcentaje12,53%1,42%4,68%5,86%13,68%0,69%1,01%0,70%6,25%0,44%0,02%4,97%3,15%6,71%
LetraÑOPQRSTUVWXYZ
Porcentaje0,31%8,68%2,51%0,88%6,87%7,98%4,63%3,93%0,90%0,01%0,22%0,90%0,52%

Ordenadas de mayor a menor frecuencia de aparición obtenemos: E, A, O, S, R, N, I, D, L, C, T, U, M, P, B, G, V, Y, Q, H, F, Z, J, Ñ, X, K, W.

A partir de los datos anteriores, se puede decir que:

  • Las vocales ocuparán alrededor del 45% del texto.
  • La E y la A son identificables fácilmente dado su porcentaje de aparición.
  • Las consonantes más frecuentes son: S, R, N, D, L, C (aparecen con una frecuencia de un 37%)
  • Las seis letras menos frecuentes son: Z, J, Ñ, X, K, W (sumadas tienen una frecuencia que apenas supera el 1,5%)

Ejemplo concreto: el Quijote

El texto del Quijote contiene 1.640.502 letras:

Letraeaosnrildutcmp
Cantidad229.188200.492162.512125.726108.440100.95390.07089.14187.23779.47161.74959.43544.65835.464
Porcentaje14,0%12,2%9,9%7,7%6,6%6,2%5,5%5,4%5,3%4,8%3,8%3,6%2,7%2,2%
Letraqybhvgjfzñkwx
Cantidad32.48325.11524.14619.92017.85517.22510.5307.5816.4914.24137721
Porcentaje2,0%1,5%1,5%1,2%1,1%1,0%0,6%0,5%0,4%0,3%0,1%0,0%0,0%

La Regenta, de Leopoldo Alas (Clarín)

La Regenta

Se ha incluido la frecuencia del "espacio" o separador de palabras, así como las de los signos de puntuación " . ,  ;  : "

Hay que señalar los siguientes resultados:[2]

1. El separador o espacio es el signo más abundante, casi duplicando a la letra más frecuente.

2. La letra “a” es algo más abundante que la letra “e”.

3. Los signos de puntuación “,” y “.” son más abundantes que la letra “q” y siguientes. En cambio, como cabía esperar, los signos “;” y “:” son menos abundantes, aunque el "punto y coma" supera a la “ñ” y los "dos puntos" a la “k”.

Letra espacioaeosrnildutcm p b
Cantidad 305.290192.666176.252128.009101.31789.24387.58586.28483.52467.21557.66253.93752.34636.500 33.970 26.658
Porcentaje 17,599%11,107%10,160%7,379%5,841%5,145%5,049%4,974%4,815%3,875%3,324%3,109%3,018%2,104% 1,958% 1,537%
Letra .,qvghyfjz ; ñ x : k w
Cantidad 26.07924.44717.77315.49115.20213.79613.6198.4546.4285.549 3.658 3.501 1.224 941 59 20
Porcentaje 1,503%1,409%1,025%0,893%0,876%0,795%0,785%0,487%0,371%0,320% 0,211% 0,202% 0,071% 0,054% 0,003% 0,001%

Total 1 734 699 [2]

Otros sistemas

Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la A, pero en el lenguaje escrito hay una gran cantidad de palabras cortas (que, le, se, etc.) que contienen la E, por lo que el recuento en textos esta letra suele ser más abundante, aunque no siempre, como en el caso de la novela La Regenta antes citado.

Otros idiomas

El alineamiento de las letras en una máquina linotipia es ETAOIN SHRDLU, que corresponde aproximadamente a las doce letras más frecuentes en inglés.

Referencias

  1. Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
  2. Agustín (administrador de Kriptópolis). «Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad.». Archivado desde el original el 16 de diciembre de 2013. Consultado el 2 de mayo de 2015.

Enlaces externos

Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.