Désambiguïsation lexicale
La désambiguïsation lexicale ou désambigüisation lexicale est la détermination du sens d'un mot dans une phrase lorsque ce mot peut avoir plusieurs sens possibles.
Dans la linguistique informatique, la désambiguïsation lexicale est un problème non résolu dans le traitement des langues naturelles et de l'ontologie informatique. La résolution de ce problème permettrait des avancées importantes dans d'autres champs de la linguistique informatique comme l'analyse du discours, l'amélioration de la pertinence des résultats des moteurs de recherche, la résolution des anaphores, la cohérence, l'inférence, etc.
Le cerveau humain est très habile pour désambiguïser les sens des mots. Le fait que les langues naturelles demandent souvent l'emploi de cette faculté est un reflet de l'habilité du cerveau dans ce domaine. Autrement dit, la mode de développement des langues humaines reflète (et a contribué à former) la capacité innée des réseaux de neurones du cerveau. Par contre, depuis longtemps, le traitement des langues naturelles et l'apprentissage automatique ont posé un défi à l'informatique.
Méthodes utilisées
Le progrès ininterrompu des recherches a amené des systèmes qui atteignent des niveaux satisfaisants de certitude en adressant des classes variées de paroles et d'ambiguïtés. Des méthodes très variées ont été évaluées, y compris
- des méthodes basées sur un dictionnaire qui utilisent l'information contenue dans des ressources lexicales ;
- des méthodes d'apprentissage automatique supervisé où chaque parole distincte a un étiqueteur à elle ;
- des méthodes d'apprentissage automatique tout à fait non supervisées qui partitionnent des instances d'un mot, ainsi induisant des sens de ce mot.
Les algorithmes les plus performants jusqu'à présent ont été les méthodes d'apprentissage automatique supervisé.
Histoire
La désambiguïsation lexicale a été formulée pour la première fois en tant que tâche potentiellement exécutable par un ordinateur dans les premiers jours de la traduction automatique, ce qui en fait l'un des plus vieux problèmes de la linguistique computationnelle[1]. Warren Weaver, dans son célèbre mémorandum de 1949 sur la traduction a été le premier a proposer d'utiliser les ordinateurs pour traduire des textes[2]. Les premiers chercheurs avaient bien compris l'importance et la difficulté de la désambiguïsation lexicale.
En 1960, Bar-Hillel a prétendu que la désambiguïsation lexicale ne pouvait pas être résolu par un ordinateur électronique parce qu'il aurait fallu pour cela modéliser toutes les connaissances du monde[3].
Dans les années 1970, la désambiguïsation lexicale était traitée par des systèmes d'interprétation sémantique développées dans le domaine de l'intelligence artificielle. Cependant, puisque les systèmes de désambiguïsation lexicale étaient à l'époque en grande partie basés sur des règles (en) codées à la main, ils étaient sujets à un goulot d'étranglement de l'acquisition de connaissances.
Références
- Roberto Navigli. Word sense disambiguation: A survey. ACM Comput. Surv. 41(2), 2009
- Warren Weaver, W.N. Locke et A.D. Booth, Machine Translation of Languages : Fourteen Essays, Cambridge, MA, MIT Press, (lire en ligne), « Translation »
- Bar-Hillel, Yehoshua. 1964. Language and Information. New York: Addison-Wesley
Source de la traduction
- (en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Word-sense disambiguation » (voir la liste des auteurs).
- Portail de la linguistique
- Portail de l’informatique