Logométrie

La logométrie (logos = discours ; métrie = mesure) est une méthode d’analyse et d'interprétation des discours utilisée dans les Sciences humaines et sociales (linguistique, histoire, littérature, sociologie, etc.). Cette méthode d'analyse, assistée par ordinateur, combine lecture qualitative et lecture quantitative des corpus numériques. Elle combine aussi lecture globale (tout le discours) et lecture locale (les unités du discours) pour construire l'interprétation.
Épistémologiquement, la logométrie se rattache à l’analyse du discours, à la linguistique des textes et à la sémantique de corpus. Techniquement, elle s’appuie sur l’hypertextualité des corpus numériques (navigation hypertextuelle, index, concordancier) d'une part, et sur l’analyse de données et la statistique textuelle (tableau de fréquences et de distribution du vocabulaire, calcul de distance intertextuelle, classification, cooccurrences, etc.) d'autre part.
. La logométrie se présente comme un prolongement naturel de la lexicométrie (mesure du lexique) et de la textométrie (mesure du texte). Seulement, c’est le discours ou logos (discours politique, discours littéraire, discours médiatique, discours scientifique) dans ses dimensions linguistiques et sociales qui est son objet. Depuis le début des années 2020, la logométrie intègre des algorithmes d'Intelligence artificielle et de Deep learning pour affiner sa prédiction et sa description des textes.

Histoire de la méthode

Amorcée par les travaux du Cercle linguistique de Copenhague[1] ou ceux du statisticien écossais G. U. Yule (The Statistical Study of Literary Vocabulary, 1940), la logométrie poursuit son développement au XXIe siècle dans le cadre des humanités numériques. Elle s’inscrit néanmoins dans une histoire française et internationale qui remonte à l’instrumentation de l’analyse du discours par l’informatique dès le milieu du XXe siècle et le développement de la statistique textuelle à partir des années 1960-1970. Comme pionniers, on cite aussi bien Zellig Harris que Michel Pêcheux, Jean-Paul Benzécri que Charles Muller, Jean Dubois que Pierre Guiraud, Maurice Tournier qu'Étienne Brunet.
Son développement actuel bénéficie de la multiplication et de la disponibilité des corpus numérisés, du développement et de l'usage de logiciels appropriés (Alceste[2], Hyperbase, Iramuteq, Lexico, TXM, etc.), et de la maturation scientifique de l'analyse des discours en SHS (linguistic turn, tournant herméneutique, sémantique de corpus).

Définition

Pour Francine Mazière dans son Que sais-je ? sur l'analyse du discours, la logométrie est avant tout un « retour » assisté par ordinateur vers les unités du discours afin de consolider l'interprétation[3]. Pour Laurent Rouveyrol, il s'agit d'une méthode ouverte et « intégrative » dont « l'objet essentiel est de rendre compte de la relativité des stratégies » discursives mise en place par les locuteurs[4]. Pour le linguiste Pierre Fiala, la logométrie est un prolongement ambitieux de la textométrie mais « encore loin d'un traitement transversal des textes »[5]. Damon Mayaffre définit pour sa part la logométrie dans sa thèse d'Habilitation à diriger des recherches comme une méthode interprétative (articulation global/local ; objectivation des parcours interprétatifs) dont il met en valeur l'outillage linguistique, informatique et statistique dans la continuité mais le dépassement de la lexicométrie traditionnelle :

« Ensemble de traitements documentaires et statistiques du texte et des discours qui ne s'interdit rien pour tout s'autoriser ; qui dépasse le traitement des formes graphiques sans les exclure ou les oublier ; qui analyse les lemmes ou les structures grammaticales sans délaisser le texte natif auquel on est toujours renvoyé. C'est finalement un traitement (semi-)automatique global du texte dans toutes ses dimensions : graphiques, lemmatisées, grammaticalisées. L'analyse ainsi portera sur toutes les unités linguistiques de la lettre aux isotopies, en passant par les n-grams, les mots, les lemmes, les co-occurrences, les codes grammaticaux, les bi-codes ou les enchaînements syntaxiques.[6] »

Périmètre et soutien institutionnel

La logométrie se distingue d'un côté du traitement automatique du langage naturel (TAL), de la fouille de textes ou de l'analyse de contenu par son souci philologique et linguistique pointu des textes et des discours : les corpus analysés recueillent des discours dument identifiés et critiqués par l'analyste qui entend produire une analyse socio-linguistique fine.

La logométrie se distingue de l'autre côté de la linguistique textuelle ou l'analyse du discours traditionnelles par sa méthodologie informatisée et l'usage des statistiques.

La logométrie prolonge la lexicométrie et la textométrie en définissant le discours (logos), après le lexique et le texte, comme son objet.
Présente dans plusieurs universités, la logométrie bénéficie à l'université de Nice Sophia Antipolis d’une équipe de recherche du CNRS et d'un site qui lui est dédiée : Logométrie et corpus politiques, médiatiques et littéraires (UMR 7320, Bases, Corpus, Langage)[7].

Principes et valeurs

La logométrie affiche deux principes fondateurs : la contextualisation des unités et la mesure de leur régularité dans le corpus ; il s'agit donc aussi bien de lire que de compter.

  1. Contextualisation : le sens des unités du discours nait de leurs contextes d'utilisation. C'est par l'usage que l'on définit le sens des mots. La convocation des passages du corpus et le retour au texte, outillés par l'informatique (indexation et moteur de recherche), deviennent ainsi une priorité des analyses logométriques.
  2. Régularité et saillance : la valeur des unités du discours nait de leur régularité ou irrégularité d'emploi dans le corpus. L’absence, la fréquence, la répétition, la répartition sont des indices quantitatifs essentiels (tableau de fréquences, approche probabiliste du vocabulaire, analyse factorielle des correspondances de tables lexicales, calcul de cooccurrences, etc.) dans le parcours interprétatif.

La logométrie prétend avoir deux valeurs : descriptive et heuristique ; il s'agit donc aussi bien d'attester que d'interpréter, de trouver que de chercher.

  1. Description : l'ordinateur est convoqué pour produire une description la plus systématique et exhaustive possible de gros corpus numériques [8]. Dans le meilleur des cas, cette description exhaustive peut prendre valeur probatoire.
  2. Heuristique : la lecture numérique et le traitement statistique doivent permettre de fournir des chevilles interprétatives différentes et inattendues par rapport à la lecture naturelle et oculaire des textes. Le plus souvent, la lecture logométrique a donc une valeur heuristique, herméneutique, suggestive.

Domaines d’application

Parce que le discours est lui-même un objet interdisciplinaire selon les théoriciens de l'analyse du discours[9], le champ des études logométriques est varié :

Logiciels

Les logiciels universitaires pour l'analyse des discours sont nombreux. Ceux que convoque la logométrie permettent à la fois le traitement statistique et le retour au texte. Ils doivent offrir la panoplie des outils développés depuis les années 1980 jusqu'à aujourd'hui[10] pour rendre compte du corpus (index fréquentiel, dictionnaire, calcul du vocabulaire spécifique, concordancier, traitement des occurrences et des cooccurrences, statistiques multidimensionnelles (AFC) outils de classification, graphes et réseaux de mots, etc.). Par exemple :

Bibliographie pluridisciplinaire

  • Étienne Brunet
    • Comptes d’auteurs. Tome 1. Études statistiques de Rabelais à Gracq, textes édités par Damon Mayaffre, préface d’Henri Béhar, Paris, Champion, 2009, 396 p. (ISBN 274532019X et 978-2745320193).
    • Ce qui compte. Tome 2. Méthodes statistiques, textes édités par Céline Poudat, préface de Ludovic Lebart, Paris, Champion, 2011, 376 p. (ISBN 2745322257 et 978-2745322258).
    • Au bout du compte. Tome 3. Questions linguistiques, textes édités par Bénédicte Pincemin, préface de François Rastier, Paris, Champion, 2015.
  • Patrick Charaudeau et Dominique Maingueneau D. (dir.), Dictionnaire d'analyse du discours, Paris, Seuil, 2002, 661 p. (ISBN 2020378450) (ISBN 9782020378451)
  • Jacques Guilhaumou, "L’historien du discours et la lexicométrie", Histoire & Mesure, 1986, vol I, 3/4, p. 27-46.
  • Margareta Kastberg-Sjoblom, L'écriture de J.M.G. Le Clézio, Des mots aux thèmes, Paris, Champion, 2006, 304 p. (ISBN 2745314122 et 978-2745314123)
  • Benoit Habert, Adeline Narazenko et André Salem, Les linguistiques de corpus, Paris, Colin, 1997, 240p. (ISBN 2200017758 et 9782200017750)
  • Dominique Labbé et Denis Monière, Le discours gouvernemental. Canada, Québec, France (1945-2000), Paris, Champion, 2003, 181 p. (ISBN 2745307495 et 9782745307491)
  • Ludovic Lebart et André Salem, Statistique textuelle, Paris, Dunod, 1994, 344 p. (ISBN 2100022393) (ISBN 9782100022397)
  • Véronique Magri-Mourgues, Voyage à pas comptés.Pour une poétique du récit de voyage au XIXe siècle, Paris, Champion, 2009, 328 p. (ISBN 2745319418 et 9782745319418)
  • Pascal Marchand, Le grand oral. Les discours de politique générale de la Ve République, Bruxelles, De Boeck, 2007, 215 p. (ISBN 2804153371 et 9782804153373)
  • Damon Mayaffre
    • "De la lexicométrie à la logométrie", Astrolabe, 2005, p. 1-11
    • "Analyse du discours politique et Logométrie : point de vue pratique et théorique", Langage et société, 2005, no 114, p. 91-121
    • Le discours présidentiel sous la Ve République. Chirac, Mitterrand, Giscard, Pompidou, de Gaulle, Paris, Presses de Sciences Po, 2012, 384 p. (ISBN 2724612442)
  • Sylvie Mellet and Dominique Longrée (Editor), New Approaches in Text Linguistics, Amsterdam, John Benjamins Pub Co, 2009, 206 p. (ISBN 9027226830 et 9789027226839)
  • Émilie Née, L'insécurité en campagne électorale, Paris, Champion, 2012, 257 p. (ISBN 2745324551 et 978-2745324559)
  • Antoine Prost
    • Vocabulaire des proclamations électorales de 1881, 1885 et 1889, Paris, PUF, 1974, 196 p. (ISSN 0291-1639 et 0151-4946)
    • "Les mots", in René Rémond (dir.), Pour une histoire politique. Paris : Seuil, 1988, p. 255-286 (ISBN 2020099888 et 9782020099882)
  • François Rastier, La mesure et le grain. Sémantique de corpus, Paris, Champion, 2011, 280 p. (ISBN 2745322303 et 9782745322302)
  • André Salem, Méthodes de la statistique textuelle, Thèse pour le doctorat d'État ès lettres et sciences humaines, Université de la Sorbonne nouvelle - Paris 3, , 3 vol, 998 p.
  • Maurice Tournier
    • Propos d'étymologie sociale. Tome 1. Des mots sur les grèves, rééd, Lyon, ENS-LSH Éditions, 2002, 290 p. (ISBN 2847880089 et 9782847880083)
    • Propos d'étymologie sociale. Tome 2. Des mots en politique, rééd, Lyon, ENS-LSH Éditions, 2002, 307 p. (ISBN 2847880097 et 9782847880090)
    • Propos d'étymologie sociale. Tome 3. Des sources du sens, Lyon, ENS-LSH Éditions, 2002, 306 p. (ISBN 2847880100 et 9782847880106)
  • Jean-Marie Viprey, Dynamique du vocabulaire des Fleurs du mal, Paris, Champion, 1997, 416 p. (ISBN 2852038099 et 9782852038097)

Références

  1. Bernd Kortmann et Johan van der Auwera, The Languages and Linguistics of Europe: A Comprehensive Guide, vol. 2, Walter de Gruyter, , p. 833-834
  2. « Logiciel Alceste », sur www.image-zafar.com (consulté le )
  3. Francine Mazière, L'Analyse du discours, Paris, PUF, 2005, p. 110.
  4. Laurent Rouveyrol, Vers une logométrie intégrative des corpus politiques médiatisés. L’exemple de la subjectivité dans les débats-panel britanniques, Corpus, no 4, 2005
  5. Pierre Fiala, Mots, no 80, 2006, p. 134
  6. Damon Mayaffre, Vers une herméneutique matérielle numérique. Corpus textuels, Logométrie et Langage politique. Thèse d'habilitation à diriger des recherches, soutenue à Nice, 30 avril 2010, sous la direction de Sylvie Mellet, vol. 1, p. 22 (http://tel.archives-ouvertes.fr/tel-00655380).
  7. http://logometrie.unice.fr/ et http://www.unice.fr/bcl/
  8. Cf. par exemple les index et concordances publiés par Étienne Brunet, Le Vocabulaire de Proust, avec l’Index complet et synoptique de À la recherche du temps perdu, 3 vol., 1918 p., Genève-Paris, Slatkine-Champion, 1983. (ISBN 2051004749 et 9782051004749). Le Vocabulaire de Zola, suivi de l’Index complet et synoptique des Rougon-Macquart, 3 tomes, 472 p., 646 p., 357 p. et 5500 pages sur microfiches normalisées, Genève-Paris, Slatkine-Champion, 1985 (ISBN 2-05-100670-9). Le Vocabulaire de Victor Hugo, vol. 1, 484 p., vol. 2, 637 p., vol. 3, 556 p., + 27 microfiches normalisées contenant l’Index synoptique des œuvres de Hugo (6878 p.), Genève-Paris, Slatkine-Champion, 1988. (ISBN 2051010048 et 9782051010047). index
  9. P. Charaudeau et D. Maingueneau (dir.), Dictionnaire d'analyse du discours, Paris, Seuil, 2002 (ISBN 2020378450)
  10. Pour la statistique textuelle, cf. l'ouvrage de référence : Lebart, L. & Salem, A. (1994). Statistique textuelle. Paris, Dunod, en ligne : http://lexicometrica.univ-paris3.fr/livre/st94/
  11. Hyperbase 10.0 (2015) : http://ancilla.unice.fr/
  12. http://iramuteq.org/ : http://iramuteq.org/
  13. http://www.tal.univ-paris3.fr/trameur/
  14. Lexico : http://www.tal.univ-paris3.fr/lexico/
  15. TXM : http://textometrie.ens-lyon.fr/

Voir aussi

Articles connexes

Liens externes

  • Portail de l’informatique
  • Portail de la linguistique
  • Portail des probabilités et de la statistique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.