Fréquence d'apparition des lettres

La fréquence d'apparition des lettres est une donnée statistique utilisée en linguistique, en typographie et en cryptographie liée au fait que les utilisateurs de la langue écrite n'utilisent pas les lettres disponibles au hasard, mais selon l'ordonnancement de la langue, du langage et de la parole.

Bien que l'alphabet ne soit pas hiérarchisé, les lettres écrites ne sont pas utilisées à la même fréquence, en français comme dans les autres langues. Ainsi, si l'on prend un texte en français composé de 100 lettres, on n'aura pas 100 lettres différentes mais environ 12 fois la lettre E, 7 fois la lettre A, 7 fois la lettre I, 7 fois la lettre S, etc., selon une loi de distribution qu'il n'est pas facile à déterminer.

Base statistique de calcul : le corpus

Le calcul de la fréquence d'apparition des lettres en français se fait après avoir constitué un corpus de textes (ensemble cohérent et systématique de documents textuels). Le choix des documents est crucial.

Le dictionnaire est parfois utilisé comme corpus. Or la fréquence des lettres dans la liste des mots d’un dictionnaire diffère de celle dans un texte usuel. En effet, très peu de mots apparaissent au pluriel dans un dictionnaire, ce qui conduit la lettre s à y être moins fréquente. De plus, les lettres accentuées à et ù apparaissent dans un nombre très limité de mots, mais dont certains sont d'usage fréquent (à, ), ce qui contribue à modifier la fréquence relative de ces lettres.

La fréquence d'apparition des lettres en français est souvent calculé sur un corpus de textes littéraires disponible sur le Net, par exemple sur le site de l’Association des bibliophiles universels (ABU). On peut alors faire des analyses de fréquence de lettres chez un auteur en particulier.

De même, on peut calculer la fréquence d'apparition des lettres en français sur le corpus de Wikipédia en français. En 2008, le laboratoire CLLE-ERSS de l'Université de Toulouse en a tiré une table de fréquence[1].

Fréquence des caractères[2] sur le corpus de Wikipédia en français
RangCaractèreNombre d'occurrencesPourcentage
1e 115 024 20512.10% 12.1
 
2a 67 563 6287.11% 7.11
 
3i 62 672 9926.59% 6.59
 
4s 61 882 7856.51% 6.51
 
5n 60 728 1966.39% 6.39
 
6r 57 656 2096.07% 6.07
 
7t 56 267 1095.92% 5.92
 
8o 47 724 4005.02% 5.02
 
9l 47 171 2474.96% 4.96
 
10u 42 698 8754.49% 4.49
 
11d 34 914 6853.67% 3.67
 
12c 30 219 5743.18% 3.18
 
13m 24 894 0342.62% 2.62
 
14p 23 647 1792.49% 2.49
 
15é 18 451 9371.94% 1.94
 
17g 11 684 1401.23% 1.23
 
18b 10 817 1711.14% 1.14
 
19v 10 590 8581.11% 1.11
 
20h 10 583 5621.11% 1.11
 
21f 10 579 1921.11% 1.11
 
22q6 140 3070.65% 0.65
 
23y4 351 9530.46% 0.46
 
24x3 588 9900.38% 0.38
 
25j3 276 0640.34% 0.34
 
26è2 969 4660.31% 0.31
 
27à2 966 0290.31% 0.31
 
28k2 747 5470.29% 0.29
 
29w1 653 4350.17% 0.17
 
30z1 433 9130.15% 0.15
 
31ê802 2110.08% 0.08
 
32ç544 5090.06% 0.06
 
33ô357 1970.04% 0.04
 
34â320 8370.03% 0.03
 
35î280 2010.03% 0.03
 
36û164 5160.02% 0.02
 
37ù151 2360.02% 0.02
 
38ï138 2210.01% 0.01
 
39á73 7510.01% 0.01
 
79ü55 1720.01% 0.01
 
82ë53 8620.01% 0.01
 
83ö51 0200.01% 0.01
 
84í48 3910.01% 0.01
 
  • Lettres absentes de la langue française, mais présentes dans le corpus

Dans d'autres langues

[réf. nécessaire]

Lettre Anglais Français[3] Allemand[4] Espagnol[5] Portugais[6] Espéranto[7] Italien[8] Turc[9] Suédois[10] Polonais[11] Néerlandais[12] Danois[13] Islandais[14] Finnois[15] Tchèque Lituanien[16]
a 8.167%7.636%6.516%11.525%14.634%12.117%11.745%11.920%9.383%8.910%7.486%6.025%10.110%12.217%8.421% 11,1912
b 1.492%0.901%1.886%2.215%1.043%0.980%0.927%2.844%1.535%1.470%1.584%2.000%1.043%0.281%0.822% 1,4842
c 2.782%3.260%2.732%4.019%3.882%0.776%4.501%0.963%1.486%3.960%1.242%0.565%00.281%0.740% 0,6019
d 4.253%3.669%5.076%5.010%4.992%3.044%3.736%4.706%4.702%3.250%5.933%5.858%1.575%1.043%3.475% 2,5802
e 12.702%14.715%16.396%12.181%12.570%8.995%11.792%8.912%10.149%7.660%18.91%15.453%6.418%7.968%7.562% 5,6205
f 2.228%1.066%1.656%0.692%1.023%1.037%1.153%0.461%2.027%0.300%0.805%2.406%3.013%0.194%0.084% 0,3468
g 2.015%0.866%3.009%1.768%1.303%1.171%1.644%1.253%2.862%1.420%3.403%4.077%4.241%0.392%0.092% 1,7946
h 6.094%0.737%4.577%0.703%0.781%0.384%0.636%1.212%2.090%1.080%2.380%1.621%1.871%1.851%1.356% 0,2760
i 6.966%7.529%6.550%6.247%6.186%10.012%10.143%8.600%*5.817%8.210%6.499%6.000%7.578%10.817%6.073% 12,9593
j 0.153%0.613%0.268%0.493%0.397%3.501%0.011%0.034%0.614%2.280%1.46%0.730%1.144%2.042%1.433% 2,3380
k 0.772%0.074%1.417%0.011%0.015%4.163%0.009%4.683%3.140%3.510%2.248%3.395%3.314%4.973%2.894% 4,1708
l 4.025%5.456%3.437%4.967%2.779%6.104%6.510%5.922%5.275%2.100%3.568%5.229%4.532%5.761%3.802% 3,5019
m 2.406%2.968%2.534%3.157%4.738%2.994%2.512%3.752%3.471%2.800%2.213%3.237%4.041%3.202%2.446% 3,5790
n 6.749%7.095%9.776%6.712%4.446%7.955%6.883%7.487%8.542%5.520%10.032%7.240%7.711%8.826%6.468% 5,1441
o 7.507%5.796%2.594%8.683%9.735%8.779%9.832%2.476%4.482%7.750%6.063%4.636%2.166%5.614%6.695% 6,7429
p 1.929%2.521%0.670%2.510%2.523%2.755%3.056%0.886%1.839%3.130%1.57%1.756%0.789%1.842%1.906% 2,7344
q 0.095%1.362%0.018%0.877%1.204%00.505%00.020%0.140%0.009%0.007%00.013%0.001% 0,0054
r 5.987%6.693%7.003%6.871%6.530%5.914%6.367%6.722%8.431%4.690%6.411%8.956%8.581%2.872%4.799% 5,6689
s 6.327%7.948%7.270%7.977%6.805%6.092%4.981%3.014%6.590%4.320%3.73%5.805%5.630%7.862%5.212% 7,8811
t 9.056%7.244%6.154%4.632%4.336%5.276%5.623%3.314%7.691%3.980%6.79%6.862%4.953%8.750%5.727% 5,3323
u 2.758%6.311%4.166%2.927%3.639%3.183%3.011%3.235%1.919%2.500%1.99%1.979%4.562%5.008%2.160% 4,5860
v 0.978%1.838%0.846%1.138%1.575%1.904%2.097%0.959%2.415%0.040%2.85%2.332%2.437%2.250%5.344% 2,6557
w 2.360%0.049%1.921%0.017%0.037%00.033%00.142%4.650%1.52%0.069%00.094%0.016% 0,0368
x 0.150%0.427%0.034%0.215%0.253%00.003%00.159%0.020%0.036%0.028%0.046%0.031%0.027% 0,0733
y 1.974%0.128%0.039%1.008%0.006%00.020%3.336%0.708%3.760%0.035%0.698%0.900%1.745%1.043% 1,4325
z 0.074%0.326%1.134%0.467%0.470%0.494%1.181%1.500%0.070%5.640%1.39%0.034%00.051%1.599% 0,3454
à ~0%0.486%000.072%00.635%00000000
â ~0%0.051%000.562%0~0%~0%0000000
á 0000.502%0.118%00000001.799%00.867% 0,0024
å ~0%00000001.338%001.190%00.003%0
ä 000.578%000001.797%00003.577%0
ã 00000.733%0000000000
ą 0000000000.990%00000 0,5418
æ ~0%00000000000.872%0.867%00
œ ~0%0.018%0000000000000
ç ~0%0.085%000.530%001.156%0000000
ĉ 000000.657%000000000
ć 0000000000.400%00000
č ~0%00000000000000.462% 0,4303
ď 000000000000000.015%
ð 0000000000004.393%00
è ~0%0.271%00000.263%00000000
é ~0%1.504%00.433%0.337%00000000.647%00.633% 0,0038
ê 00.218%000.450%0~0%00000000
ë ~0%0.008%0000000000000
ė 1,6643
ę 0000000001.110%00000 0,1721
ě 000000000000001.222%
ĝ 000000.691%000000000
ğ 00000001.125%0000000
ĥ 000000.022%000000000
î 00.045%0000~0%~0%0000000
ì 000000(0.030%)00000000
í 0000.725%0.132%00.030%000001.570%01.643% 0,0015
ï ~0%0.005%0000000000000
ı 00000005.114%0000000
į 0,4848
ĵ 000000.055%000000000
ł 0000000001.820%00000
ñ ~0%000.311%00000000000
ń 0000000000.200%00000
ň 000000000000000.007%
ò 0000000.002%00000000
ö ~0%00.443%00000.777%1.305%0000.777%0.444%0 0,0014
ô ~0%0.023%000.635%0~0%00000000
ó 0000.827%0.296%0~0%000.850%000.994%00.024% 0,0018
õ 00000.040%0000000000
ø ~0%00000000000.939%000
ř 000000000000000.380%
ŝ 000000.385%000000000
ş 00000001.780%0000000
ś 0000000000.660%00000
š 0000000000000~0%0.688% 1,1339
ß 000.307%000000000000
ť 000000000000000.006%
þ 0000000000001.455%00
ù 00.058%0000(0.166%)00000000
ú 0000.168%0.207%00.166%000000.613%00.045%
û ~0%0.060%0000~0%~0%0000000
ŭ 000000.520%000000000
ü ~0%00.995%0.012%0.026%001.854%0000000 0,0013
ů 000000000000000.204%
ų 1,2602
ū 0,4079
ý 000~0%000000000.228%00.995%
ź 0000000000.060%00000
ż 0000000000.830%00000
ž 0000000000000~0%0.721% 0,7965

*See Dotted and dotless I.

Diagramme comparatif de la fréquence des lettres dans 11 langues.

Biais dans le calcul de la fréquence d'apparition

Le calcul de la fréquence des lettres dans une langue est difficile et soumis à interprétation. On compte la fréquence des lettres d’un texte arbitrairement long, mais un certain nombre de paramètres influencent les résultats :

  • Le style narratif : s’il y a beaucoup de verbes à la 2e personne du pluriel (le vouvoiement, présent dans beaucoup de dialogues), il y aura significativement plus de « Z ».
  • Le vocabulaire spécifique du document : si l’on parle de chemins de fer, il y aura beaucoup plus de « W » (wagon) ; si l’un des protagonistes se dénomme Loïc, le nombre d'« Ï » s’en ressentira.
  • Le type de document : des petites annonces en France présenteront souvent le symbole Euro (), qui est absent de la plupart des autres documents.
  • La langue d'origine du texte : les noms propres restant généralement les mêmes entre sa version originale et sa version traduite, certaines variations de fréquences de lettres rares en français peuvent se faire ressentir. Dans un texte d'un auteur anglais par exemple, les noms propres auront tendance à faire augmenter les fréquences de lettres relativement communes dans cette langue, telles que le H, le W ou le Y.
  • L'époque à laquelle le texte a été rédigé : un texte français du dix-huitième siècle ne contiendra pas ou peu de W, car cette lettre était à cette époque beaucoup moins utilisée qu'aujourd'hui.
  • Les paramètres techniques : on peut facilement calculer des statistiques sur des textes informatisés, mais souvent ceux-ci ne comportent pas de majuscules accentuées (car difficiles à entrer sur certains ordinateurs) et il arrive aux auteurs d'oublier des accents. La graphie de l’e-dans-l’o (œ) est impossible à représenter dans le codage latin-1 qui est souvent utilisé pour les textes en français. C'est un problème parce que « œ » n'est pas une ligature esthétique (optionnelle) mais une ligature linguistique (obligatoire), elle se prononce différemment de la suite de voyelles « oe » . Par exemple, « œ » va se prononcer [ɛ] dans œsophage alors que « oe » va se prononcer [ɔ.ɛ] dans coexistence.
  • La présence de caractères non alphabétiques (symboles de ponctuation, chiffres, parenthèses et accolades, symboles mathématiques courants…) peut ou non être prise en compte ; la virgule, le point ou l’apostrophe sont par exemple plus fréquents que plus de la moitié des lettres[réf. souhaitée].

Si ces paramètres ont un impact spectaculaire sur les symboles les moins fréquents (la fréquence du œ varie entre 0,002 % et 0,09 % pour trois textes pris au hasard)[réf. nécessaire], elle est également sensible même pour les lettres les plus fréquentes (l’ordre de fréquence des lettres A, S, I, T et N, qui sont les plus fréquentes à part E, fluctue d’un texte à l’autre).

Histoire et usage

Le calcul de la fréquence d'apparition des lettres remonte au mathématicien arabe Al-Kindi (vers 801-873 de notre ère), qui l'utilise dans le but de casser des codes secrets, bien qu'on ait parlé du code César utilisé par Jules César au Ier siècle avant notre ère[réf. souhaitée]. L'analyse de la fréquence des lettres prend de l'importance en Europe avec le développement des caractères mobiles en 1450 de notre ère, parce qu'il est nécessaire d'anticiper la quantité de caractères nécessaires pour imprimer les textes. Depuis le XXe siècle, les linguistes utilisent également la fréquence des lettres une première identification des langues perdues : elle est particulièrement efficace pour indiquer si un système d'écriture inconnu est alphabétique, syllabique ou idéographique.

La fréquence d'apparition des lettres joue un rôle fondamental dans les cryptogrammes et dans plusieurs jeux liés à la manipulation des lettres, tels que le pendu, le Scrabble, le Wordle et le jeu télévisé La roue de la fortune. En littérature, Edgar Allan Poe, dans Le Scarabée d'or (1843), se sert de la connaissance de la fréquence des lettres anglaises pour lire un cryptogramme qui contient l'emplacement du trésor caché du capitaine Kidd.

En 1840, quand Alfred Vail crée le code américain pour le télégraphe électrique de Morse, il se fonde sur la base des fréquences des lettres en langue anglaise (selon l'ordre « e it san hurdm wgvlfbk opxcz jyq »), et code les lettres les plus fréquentes avec les symboles les plus courts. Le passage au code Morse international a émoussé l'efficacité du procédé.

Références

  1. CLLE-ERSS, « REDAC : Corpus texte WikipédiaFR2008 » (consulté le )
  2. « Fréquence des caractères - Disposition de clavier francophone et ergonomique bépo » (consulté le )
  3. « Corpus de Thomas Tempé » [archive du ] (consulté le )
  4. Albrecht Beutelspacher, Kryptologie, Wiesbaden, Vieweg, , 7e éd. (ISBN 3-8348-0014-7), p. 10
  5. Fletcher Pratt, Secret and Urgent: The sstory of codes and ciphers, Garden City, NY, Blue Ribbon Books, , 254–5 p. (OCLC 795065)
  6. « Frequência da ocorrência de letras no Português » [archive du ] (consulté le )
  7. « La Oftecoj de la Esperantaj Literoj » (consulté le )
  8. (it) Simon Singh et Stefano Galli, Codici e Segreti, Milano, Rizzoli, (ISBN 978-8-817-86213-4, OCLC 535461359)
  9. (20–22 February 2011) « Attacking Turkish Texts Encrypted by Homophonic Cipher » dans Proceedings of the 10th WSEAS International Conference on Electronics, Hardware, Wireless and Optical Communications : 123–126 p..
  10. « Practical Cryptography » (consulté le )
  11. https://sjp.pwn.pl/poradnia/haslo/frekwencja-liter-w-polskich-tekstach;7072.html
  12. « Letterfrequenties », sur Genootschap OnzeTaal (consulté le )
  13. « Danish letter frequencies », sur Practical Cryptography (consulté le )
  14. « Icelandic letter frequencies », sur Practical Cryptography (consulté le )
  15. « Finnish letter frequencies », sur Practical Cryptography (consulté le )
  16. (lt) Gintautas Grigas et Anita Juškevičienė, « Letter Frequency Analysis of Lithuanian and Other Languages Using the Latin Alphabet », Coactivity: Philology, Educology / Santalka: Filologija, Edukologija, vol. 23, no 2, , p. 81–91 (ISSN 2335-7711, DOI 10.3846/cpe.2015.271, lire en ligne, consulté le )

Annexes

Articles connexes

Liens externes

  • Portail de l’écriture
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.