Extraction terminologique

L'extraction terminologique est une application du traitement automatique du langage naturel qui consiste à extraire automatiquement une liste de termes à partir d'un corpus spécialisé. Les logiciels réalisant l'extraction terminologique sont appelés extracteurs de termes.

Applications

Les termes extraits par l'extracteur de termes peuvent être utilisés de plusieurs façons :

  • Terminologie assistée par ordinateur : Dans ce cas, l'extracteur de termes aide le terminologue dans sa tâche en lui "prémâchant" le travail. On parle alors de candidats-termes et non de termes. Le/la terminologue dépouille la liste de candidats-termes (phase dite de dépouillement terminologique) proposés par l'extracteur et sélectionne les termes qu'il ou elle souhaite ajouter à la terminologie en cours de construction.
  • Création de ressources bilingues : Une fois extraits, les termes peuvent être alignés avec leurs traductions. Ceci permet de créer des dictionnaires spécialisés/glossaires/terminologies bilingues utiles pour la traduction humaine et la traduction automatique
  • Création d'index thématiques : Les termes peuvent être utilisés comme entrées d'un index thématique que ce soit pour un livre, un manuel ou pour un site web (ex.: nuages de mots clés). Dans ce cas, ils aident le lecteur/l'internaute à s'orienter dans le document, en lui donnant un accès direct aux thématiques traitées.

Indices pour l'identification automatique des termes

Les indices utilisés pour l'identification automatique de termes sont de trois sortes :

  • Spécificité du terme : Le terme est bien plus courant dans le corpus spécialisé qu'il ne l'est dans un corpus de langue générale.
  • Forme : Le termes sont bien souvent des syntagmes nominaux mais peuvent aussi être des syntagmes verbaux ou adjectivaux. Dans tous les cas, on s'attachera à reconnaître un syntagme bien formé, le plus souvent en s'appuyant sur des patrons morpho-syntaxiques.
  • Cohésion : Si le terme est composé de plusieurs mots, ceux-ci montrent un fort degré de cohésion, c'est-à-dire qu'ils apparaissent fréquemment ensemble (on dit qu'ils cooccurrent fréquemment).

Généralement, l'extracteur de termes prend en entrée un corpus pré-traité : les textes du corpus ont été découpés en phrases, les phrases sont découpées en mots et les mots ont été étiquetés.

Voir aussi

Liens externes

Sites traitant de l'extraction terminologique

Extracteurs plutôt destinés à l'indexation

Extracteurs plutôt destinés à la terminologie assistée par ordinateur

  • Portail de l’informatique
Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.