Étienne Brunet (linguiste)

Étienne Brunet est un linguiste français né le 13 mars 1936 à La Pommeraye (Maine-et-Loire). Normalien, agrégé de lettres classiques, docteur d’État, il a été professeur de l’université de Nice Sophia Antipolis, où il fonde le laboratoire Bases, Corpus, Langage (UMR 7320)[1]. Pionnier de la linguistique informatique et de la statistique textuelle française, à la suite de Pierre Guiraud et de Charles Muller, il est le concepteur du logiciel universitaire Hyperbase[2], dont il livre en 2019 la version 10.0, et qu’il applique à de très grands corpus (Hugo, Balzac, Zola, de Gaulle, Frantext, Google Books, etc.). Auteur de plus de cent articles et d’une douzaine d’ouvrages, il donne à la lexicométrie littéraire une œuvre théorique et pratique importante dont Le Vocabulaire français de 1789 à nos jours (Genève-Paris, Slatkine-Champion, 1981, 3 tomes, 1824 p.) ou Tous comptes faits. Questions linguistiques (Paris, Champion 2016).

Étienne Brunet

Données clés
Naissance	13 mars 1936
Nationalité	Français
Diplôme	Docteur d’État
Profession	Professeur émérite des universités
Activité principale	Linguistique, statistique, informatique
Formation	Université de Nice Sophia Antipolis - CNRS (UMR « Bases, Corpus, Langage »)

Biographie

Formation

Originaire de l’Ouest de la France, Étienne Brunet est formé dans une institution religieuse, passe le baccalauréat à Poitiers et, après une préparation à Lyon, intègre l’ENS Ulm à Paris. En 1963, il est reçu à l’agrégation de lettres classiques et se destine à l’enseignement.

Carrière universitaire et recherches

Assistant, puis chargé de recherche au Centre national de la recherche scientifique (CNRS), il est nommé professeur à l’université de Nice en 1981. En 1980, il fonde le laboratoire « Statistique linguistique » (URL9 de l’INaLF) qui deviendra l’unité mixte de recherche (UMR) « Bases, Corpus, Langage » (CNRS-Université de Nice Sophia Antipolis). Il le dirige pendant 16 ans et anime toujours les séminaires dans les années 2010. Bénéficiant de l’appui du Centre de Recherche IBM La Gaude, Étienne Brunet comprend précocement la révolution numérique naissante et en devient un acteur majeur dans le domaine des sciences humaines et sociales. Il écrit et publie ses premiers programmes dès 1970 et met au point de nouveaux indices statistiques pour décrire les textes comme dans sa thèse d’État sur Giraudoux soutenue en 1976 : il n’aura dès lors de cesse, en littéraire qu’il reste, d’instrumenter la philologie, la linguistique et les études littéraires par l’informatique et les traitements statistiques.

Responsabilités scientifiques

Étienne Brunet participe à la vie scientifique locale, nationale et internationale au sein de différentes instances : le CNRS (dont il a été médaillé de bronze en 1976), le Conseil national des universités (CNU - section linguistique), l’université de Nice Sophia Antipolis (UNS), l’Institut national de la langue française (INaLF), le Conseil international de la langue française (CILF), l’Association for Literary and Linguistic Computing (en) (ALLC) , les Journées internationales d’analyse statistique de données textuelles (JADT), les éditions Honoré Champion, Computers and the Humanities (publication de l’Association for Computers and the Humanities (en) ou ACH), les Cahiers de lexicologie, etc. Il collabore et se noue d’amitié avec Pierre Guiraud, Paul Imbs, Roberto Busa, Charles Muller, Bernard Quemada, Étienne Evrard, Jean-Paul Benzécri, Antonio Zampolli, Joseph Raben, Robert Martin, Maurice Tournier, Gunnel Engwall, Bernard Cerquiglini, Lou Burnard, André Salem, Ludovic Lebart ou François Rastier. Il forme et influence plusieurs générations de chercheurs : Sylvie Mellet, Jean-Marie Viprey, Carlos Maciel, Véronique Magri, Dominique Longrée, Magareta Kastberg, Damon Mayaffre, Céline Poudat.

Œuvres

Hyperbase

Après vingt ans d’expériences en divers langages sur gros systèmes, Étienne Brunet se tourne vers les microordinateurs et crée en 1989 le logiciel Hyperbase[2] à l’occasion du Bicentenaire de la Révolution française, au Centre Georges-Pompidou. Il l’améliore continûment pendant 25 ans au rythme des évolutions technologiques et des progrès de la discipline ; il le développe en 2017 sous Windows dans sa version 10.0. Le logiciel permet de traiter de grands corpus textuels en favorisant la recherche documentaire et la navigation hypertextuelle d’une part (retour au texte, concordancier, convocation de contexte) et un traitement statistique élaboré d’autre part (index fréquentiel, calcul de la richesse lexicale et des distances intertextuelles, calcul des spécificités, recherche thématique, graphe de cooccurrences, analyse factorielle des correspondances, analyse arborée, corrélats sémantiques, topologie textuelle). Depuis la fin des années 1990, Hyperbase s’articule aux étiqueteurs-lemmatiseurs Tree Tagger et Cordial pour rendre compte du texte à différents niveaux linguistiques (formes graphiques, lemmes, étiquetage morpho-syntaxique, structures syntaxiques) : Étienne Brunet fait ainsi basculer la lexicométrie traditionnelle vers une textométrie ou logométrie[3] plus matures linguistiquement. Développé au départ pour le français et le latin, Hyperbase permet aujourd’hui de traiter les grandes langues indo-européennes et de comparer les textes importés par les utilisateurs aux corpus de références Frantext, Google Books ou British National Corpus (en) (BNC).

Ouvrages

Le Vocabulaire de Jean Giraudoux, structure et évolution : Statistique et informatique appliquées à l’étude des textes à partir du Trésor de la langue française, Genève, éditions Slatkine, 1978, 688 p. (Pas d’ISBN, ouvrage issu d’une thèse de doctorat d’État soutenue à Nice le 6 janvier 1976, ouvrage distingué par le CNRS qui a accordé à l'auteur la médaille de bronze de l’année 1976 au titre de la 36^e section, Études linguistiques et littéraires françaises.)
Dans la série des Études Rousseauistes et Index des œuvres de J.-J. Rousseau, éditions Slatkine (Genève) :
- en 1980 Index de l’Émile, Vol.1, XLIII-LIII, 583 p. (ISBN 2051000743) (ISBN 978-2051000741).
- en 1980 Concordance de l’Émile ou De l’éducation, vol. 2, XV, 720 p. (ISBN 2051004765) (ISBN 978-2051004763).
- en 1983 Index des Lettres écrites de la montagne, 344 p. (ISBN 2051004765) (ISBN 978-2051004763).
- en 1986 Index des Considérations sur le gouvernement de Pologne et Index-concordance du Projet de constitution pour la Corse, 288 p. (en collaboration avec L. Launay), (ISBN 2051006644) (ISBN 978-2051006644).
- en 1986 Index de l’œuvre théâtrale et lyrique de J.-J. Rousseau (pour Le Devin du village, p. 375–390) (en collaboration avec A. et G. Fauconnier), (ISBN 2051007373) (ISBN 9782051007375).
Le Vocabulaire français de 1789 à nos jours, 3 tomes, 1824 p., Genève-Paris, Slatkine-Champion, 1981 (préface de P. Imbs, membre de l’Institut) (ISBN 2-05-100361-0).
Le Vocabulaire de Proust, avec l’Index complet et synoptique de À la recherche du temps perdu, 3 vol., 1918 p., Genève-Paris, Slatkine-Champion, 1983 (préface de J.Y. Tadié). (ISBN 2051004749) (ISBN 9782051004749).
Le Vocabulaire de Zola, suivi de l’Index complet et synoptique des Rougon-Macquart, 3 tomes, 472 p., 646 p., 357 p. et 5500 pages sur microfiches normalisées, Genève-Paris, Slatkine-Champion, 1985 (préface de H. Mitterand) (ISBN 2-05-100670-9).
Le vocabulaire de Victor Hugo, vol.1, 484 p., vol.2, 637 p., vol.3, 556 p., + 27 microfiches normalisées contenant l’Index synoptique des œuvres de Hugo (6878 p.), Genève-Paris, Slatkine-Champion, 1988. (ISBN 2051010048) (ISBN 9782051010047).
Comptes d’auteurs. Études statistiques de Rabelais à Gracq, textes édités par Damon Mayaffre, préface d’Henri Béhar, Paris, Champion, 2009, 396 p. (ISBN 274532019X) (ISBN 978-2745320193).
Ce qui compte. Méthodes statistiques, textes édités par Céline Poudat, préface de Ludovic Lebart, Paris, Champion, 2011, 376 p. (ISBN 2745322257) (ISBN 978-2745322258).
Tous comptes faits. Questions linguistiques, textes édités par Bénédicte Pincemin, préface de François Rastier, Paris, Champion, 2016, 424 p. (ISBN 9782745335531).

Bases littéraires et linguistiques

Étienne Brunet a constitué une cinquantaine de bases littéraires et linguistiques de référence directement disponibles et téléchargeables[4], passant ainsi au crible d’Hyperbase les plus grands auteurs français ou francophones et offrant de grandes synthèses sur la langue française.

Bases monographiques : Aragon, Balzac, Baudelaire, Breton, Bruyère, Chateaubriand, Corneille, Dib, Diderot, Dumas, Éluard, Flaubert, Fontaine, Giraudoux, Hugo, Lamartine, Malraux, Mammeri, Marivaux, Maupassant, Mauriac, Molière, Montaigne, Montesquieu, Musset, Nerval, Pascal, Perse, Proust, Rabelais, Racine, Rimbaud, Rousseau, Sand, Stendhal, Sue, Verlaine, Verne, Vigny, Voltaire, Zola[4].
Bases de synthèse : Frantext (seizième siècle - vingtième siècle) en diachronie ou par auteurs, Théâtre classique, Littérature latine, Littérature algérienne, Google Books domaine français (version 2009 de 44 milliards de mots et version 2012 de 100 milliards de mots)[4].

Sources et liens

Ouvrage honorant Étienne Brunet : Mots chiffrés et déchiffrés, Mélanges offerts à Étienne Brunet, Paris, éditions Honoré Champion, 1998 (textes réunis par Sylvie Mellet et Marcel Vuillaume, préface de Charles Muller), 732 pages (ISBN 2-85203-894-3)
Étienne Brunet (page personnelle)
Rattachement institutionnel : (site de « Bases, Corpus, Langage » ou BCL ou UMR7320) et
Logiciel Hyperbase (10.0-2015) :
Bases littéraires et linguistiques
Notices d'autorité :

Références

« UMR 7320 : Bases, Corpus, Langage », sur unice.fr (consulté le 2 octobre 2021).
« Logométrie et corpus politiques, médiatiques et littéraires », sur unice.fr (consulté le 2 octobre 2021).
« UMR 7320 : Bases, Corpus, Langage - Logométrie. Corpus, Traitements, Modèles », sur unice.fr (consulté le 2 octobre 2021).
« UMR 7320 : Bases, Corpus, Langage - Logométrie. Corpus, Traitements, Modèles », sur unice.fr (consulté le 2 octobre 2021).

Articles connexes

Analyse de données
Cooccurrence
Hyperbase
Liste des unités mixtes de recherche : voir au numéro 7320
Logométrie

Liens externes

Notices d'autorité :

Portail de la linguistique
Portail de la littérature française

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[1] « UMR 7320 : Bases, Corpus, Langage », sur unice.fr (consulté le 2 octobre 2021).

[anc-2] « Logométrie et corpus politiques, médiatiques et littéraires », sur unice.fr (consulté le 2 octobre 2021).

[3] « UMR 7320 : Bases, Corpus, Langage - Logométrie. Corpus, Traitements, Modèles », sur unice.fr (consulté le 2 octobre 2021).

[logometrie.unice.fr-4] « UMR 7320 : Bases, Corpus, Langage - Logométrie. Corpus, Traitements, Modèles », sur unice.fr (consulté le 2 octobre 2021).