Psychoacoustique

La psychoacoustique est la branche de la psychophysique qui étudie les rapports entre les perceptions auditives de l'être humain et les sons qui parviennent à ses oreilles. Elle fait appel à l'acoustique, qui étudie la nature et les propriétés des ondes sonores, à la physiologie de l'audition, qui examine dans quelle mesure elles se transforment en influx nerveux, à la psychologie et aux sciences cognitives. Elle emploie les méthodes de la psychologie expérimentale.

Champs d'investigation et d'application

La phonétique auditive pratique des investigations psychoacoustiques par définition : le langage est le support des associations symboliques et la base de la psychologie, et le son est son moyen de transmission.

L'acoustique musicale allie la mécanique des vibrations et l'acoustique, quand il s'agit de comprendre le fonctionnement des instruments, à la psychoacoustique, lorsqu'on caractérise la réaction humaine à leurs sons.

Ces deux disciplines sont à l'origine des études psychoacoustiques, dès le XVIII^e siècle, et en sont des champs d'application. Elles s'intéressent au son comme porteur d'information et à la psychologie du point de vue de l'activité symbolique.

Les études environnementales s'intéressent au son comme perturbateur, et à la dimension hédonique de la psychologie. Elles contribuent à la psychoacoustique en recherchant le déplaisir ou la gêne qu'occasionne chaque type de bruit. Le design sonore, inversement, vise à rendre attractif ou moins désagréable le son qu'émettent des produits industriels.

La technologie électroacoustique se base sur les résultats de la psychoacoustique. On ne transmet pas les composantes du signal que l'homme ne perçoit pas. Les premiers résultats ont déterminé la bande passante nécessaire, et, plus récemment, la compression de données audio utilise des modèles élaborés de l'audition. La psychoacoustique moderne est réciproquement dépendante de la technologie électroacoustique pour son appareillage[1].

Évaluer la perception sonore

La psychoacoustique se base sur le modèle de perception de la psychologie expérimentale :

stimulus → récepteur → influx nerveux → sensation → réaction

où le stimulus est un son physique et le récepteur est l'oreille[2]. La physiologie de l'audition fournit un premier modèle de la transformation du stimulus en influx nerveux. Il reste à explorer le traitement de ce signal dans les centres nerveux de l'oreille et dans le cerveau, et les opérations cognitives qui déterminent la réaction des animaux doués d'ouïe[3].

Les études procèdent par exposition de plusieurs sujets à des stimuli bien contrôlés et reproductibles. On demande aux sujets une réaction quantifiable, qui permettra une étude statistique[4].

Certaines recherches considèrent le son comme un porteur d'information ; d'autres l'envisagent comme nuisance. Cette différence d'approche aboutit à des indices quantitatifs différents à propos du même genre de caractéristiques du son^{[réf. souhaitée]}.

Variabilité de la perception auditive

Il est apparu rapidement que l'audition est, au moins partiellement, un phénomène cognitif : l'entraînement affine la perception auditive.

Les études psychoacoustiques montrent une variation assez considérable des performances perceptives d'une personne à l'autre, même en l'absence d'entraînement. Par exemple, les qualités auditives des filles sont meilleures que celles des garçons[5]. Les performances sont encore plus variables, d'individu à individu, pour la discrimination de fréquences faiblement espacées[6].

Elles montrent aussi qu'il existe, pour le même sujet, une dégradation avec l'âge, la fatigue auditive et les traumatismes auditifs. L'âge entraîne une presbyacousie qui se manifeste principalement par une diminution de la fréquence des sons les plus aigus encore perçus. Des accidents, des maladies, l'exposition à des niveaux sonores excessifs provoquent une hypoacousie affectant la sensibilité vers 3 à 4 kHz, plage de fréquences où l'oreille est la plus sensible[7].

Cette variabilité impose d'effectuer les essais avec des protocoles rigoureux et un nombre suffisant de sujets, qu'on choisit le plus souvent parmi ceux qui jouissent d'une audition normale ou meilleure.

Sonie et hauteur tonale

L'origine de la sensation sonore est une faible vibration de l'air, la pression acoustique, qui nous importe parce que les êtres humains en extraient des informations. Pour qu'il contienne une information, il faut que le son, cette variation de la pression atmosphérique, varie lui-même au cours du temps ; et qu'il ne varie pas de façon aléatoire, mais selon des motifs que les auditeurs puissent mémoriser et reconnaître. En outre, l'audition s'adapte en quelques instants aux sons qui parviennent à l'oreille, en une fraction de seconde par un réflexe et à partir de quelques secondes, par des processus mentaux. L'audition implique donc le temps à plusieurs niveaux différents. Il est un paramètre dans toutes les expériences et toutes les mesures. On a commencé par simplifier le problème en utilisant des stimulus stables, d'une durée assez importante, et toujours égale, ou bien des stimulus de caractère toujours égal, ne différant que par leur durée.

Sons purs

On a d'abord utilisé des sons purs, des ondes sinusoïdales simples qui ne comportent qu'une seule fréquence[8]. On a exploré de cette manière la sonie, c'est-à-dire l'intensité de la sensation[9], et la hauteur tonale, c'est-à-dire la différence que les sujets font entre sons purs de même intensité selon leur fréquence, qui correspond au classement entre sons graves et sons aigus[10]. Si la sonie, pour deux sons purs de même fréquence, dépend uniquement de la pression acoustique, il n'en va pas de même quand la fréquence est différente. Fletcher, en demandant à des sujets de régler des sons de fréquence différente de telle sorte qu'ils paraissent avoir la même intensité, a établi les premières courbes isosoniques. Elles montrent une faible sensibilité aux sons les plus graves, aux alentours de 20 Hz, et une limite dans les aigus vers 16 kHz[11]. De même, l'intensité d'un son pur fait légèrement varier la perception de sa hauteur tonale[12]. La durée du son influe également sur l'évaluation de sa sonie et sur la discrimination de sa hauteur tonale[13].

Les recherches psychoacoustiques se sont employées à établir des échelles de sonie. Ces échelles ont en commun le recours à une échelle logarithmique empruntée aux télécommunications, graduée en décibels. Le son perceptible le plus ténu est par convention au niveau 0 décibel (dB)[14]. Les sons forts, considérés comme potentiellement traumatisants au-delà de 120 dB, ont une puissance mille milliards de fois supérieure (un rapport d'intensité acoustique de 10¹² à 1). Le seuil de différenciation de la sonie est d'environ 25 % en puissance, correspondant à peu près à un décibel[15]. Les échelles en décibels, qui comprennent ainsi essentiellement des nombres entiers positifs, sont plus expressives que l'indication des grandeurs physiques, et elles se sont fermement établies. Ces questions pratiques se sont articulées avec une théorie générale, la loi de Weber-Fechner, selon laquelle la sensation est proportionnelle au logarithme de l'intensité du stimulus. Difficile à prouver à cause de la variabilité des réponses humaines, cette théorie a été contestée, en particulier par Stevens qui préférait décrire la réponse par une loi de puissance.

La recherche psychoacoustique s'est attachée à mesurer la résolution fréquentielle du système auditif, c'est-à-dire la différence de fréquence minimale permettant de distinguer deux sons purs de même intensité. La résolution est meilleure pour les sons moyens et forts, et pour les fréquences autour de 1 500 Hz ; elle atteint alors 0,2 à 0,3 %, pour des sujets entraînés[16].

Les musiciens utilisent une échelle musicale où une octave correspond à un doublement de la fréquence et où la hauteur suit rigoureusement le logarithme de la fréquence ; cependant, lorsqu'on construit une échelle de la hauteur perçue en demandant aux sujets de placer un son pur par rapport à un autre, on obtient une échelle sensiblement différente. L'échelle des Mels met en relation la fréquence et la perception tonale des sons purs[17]. Les recherches sur la hauteur tonale sont étroitement dépendantes de l'entraînement des sujets et vraisemblablement aussi de leur culture musicale, même s'ils ne sont pas musiciens[18]. Pour rendre compte de plusieurs anomalies dans les résultats des expériences avec les sons purs d'égale intensité, notamment de la fréquente confusion entre deux sons différent d'une octave[19], des chercheurs ont donc proposé de distinguer deux perceptions concourant à distinguer deux sons purs d'égale intensité :

la tonie, sensation de grave et aigu ;
le chroma, ou position dans l'octave, pour lequel deux sons dont le rapport des fréquences est un multiple de deux sont identiques[20]. Le chroma existerait jusqu'à environ 5 kHz ; la note la plus aigüe du piano, le do⁷, a sa fondamentale vers 4,2 kHz.

Ces deux composantes de la hauteur tonale pourraient avoir une base physiologique[21]. On n'a pas établi avec certitude le mode de transduction des pressions acoustique en influx nerveux. Il est sûr que l'oreille interne réagit à chaque fréquence en des lieux différents ; l'émission d'influx nerveux a aussi une relation de phase avec l'onde sonore, et, jusqu'à environ 5 kHz, le cerveau pourrait être en mesure de tirer parti de cette propriété. Cette limite correspond à celle du chroma[22].

Sons complexes

Les expériences avec les sons purs ayant permis de définir des concepts, il faut les généraliser pour des sons complexes, mélanges de sons purs harmoniques ou non auxquels peuvent s'ajouter des sons non périodiques (bruit blanc ou coloré). Les sons hors du laboratoire sont des sons complexes. La sonie et la tonie d'un son complexe sont celles d'un son pur auquel les sujets l'auront associé[23].

La perception des sons composés de fréquences différentes ou à spectre de fréquence large diffère notablement de celle des sons purs. On observe en particulier un effet de masque. En présence de deux sons d'intensité différente, le plus intense provoque une diminution de la sonie du plus faible, par rapport à ce qu'elle serait sans le son masquant. L'effet est maximal lorsque les sons sont proches du point de vue de leur hauteur tonale. Il existe aussi un effet de masque temporel[24].

Les modèles psychoacoustiques ont abouti à la construction de plusieurs modèles raffinés de la sonie, à finalité principalement environnementale. Si les tribunaux, dans la plupart des pays, utilisent principalement la mesure pondérée de la pression acoustique en dB (A) (décibel pondération A), et si depuis 2011 la télévision a mis en place une mesure simplifiée de son niveau sonore[25], Zwicker, puis Stevens, ont élaboré des méthodes visant à s'approcher beaucoup plus de la perception auditive, au prix d'une analyse plus précise et d'un calcul plus compliqué[26].

Une capacité, partagée entre musiciens et non musiciens, pose des problèmes d'interprétation. Soumis à un son composé de plusieurs fréquences harmoniques, les sujets manifestent un grand accord dans l'association de ce son à un son pur dont la fréquence est celle de la fondamentale du son composé, même si celle-ci est absente du son composé, qui ne contient que des partiels de fréquences multiples de cette fondamentale[27].

La question de la sensibilité à la forme d'onde n'est pas entièrement résolue. Deux signaux sonores (synthétiques) peuvent en effet avoir exactement la même composition harmonique et une forme d'onde différente en raison d'une différence de phase entre leurs composantes. Des recherches ont mis en évidence que dans ces conditions, des sujets peuvent en distinguer certaines, construites à cet effet, dans une écoute au casque[28]. Cependant, seul des appareils électroacoustiques peuvent générer ce genre de sons ; les partiels de ceux que produisent les instruments de musique ne sont pas parfaitement harmoniques. L'inharmonicité, même faible, cause des formes d'onde mouvantes, au contraire de celles utilisées dans les expériences.

Mais les études sur la perception de sons complexes ont pour objectif premier d'éprouver les théories sur le codage des sons dans les nerf auditifs. Si des sujets réagissent différemment à des stimulus absolument semblables quant à la répartition spectrale, le modèle conçu au XIX^e siècle par Helmholtz, pour lequel l'oreille n'est sensible qu'à cet aspect, est remis en cause. La physiologie de l'oreille est bien connue mais le système auditif extrait probablement des sensations de la suite des influx nerveux envoyés par chaque cellule sensible de l'oreille interne dans le temps[29].

Timbre

La perception du timbre dépend de la répartition spectrale des vibrations, mais aussi de leur évolution dans le temps[30].

Si l'on considère le timbre comme ce qui fait identifier un son musical, à sonie et hauteur tonale égales[31], on peut placer les sons instrumentaux sur un espace à deux dimensions :

la répartition de l'énergie dans les partiels du son (centre de gravité spectral) caractérise la brillance ;
la durée de l'attaque définit le mordant.

Ces indices rendent compte de 85 % de l'information caractéristique des timbres. Des caractères comme l'évolution du centre de gravité spectral au cours de l'émission du son, expliquent que l'on puisse distinguer des sources dont la sonie, la hauteur tonale, la brillance et le mordant seraient égaux[32].

Acuité, fluctuation, rugosité

Dans le domaine environnemental, notamment pour caractériser l'ambiance sonore dans les habitacles des automobiles ou les cabines des avions, on cherche à caractériser l'inconfort ou la gêne que causent les sons, ou au contraire, leur aspect plaisant, à sonie égale. L'acuité est un indicateur de la perception d'un bruit comme aigu ; la fluctuation caractérise les variations lentes, et la rugosité acoustique (de) en quantifie les variations rapides[33] ; elle vise la portée fréquentielle qui s'étend entre la perception d'un rythme (moins de 10 pulsations par seconde) et celle de la tonie (plus de 30).

Un indice élevé d'acuité, comme un indice élevé de rugosité, signalent un bruit plus perturbant.

Intelligibilité

Les conditions de la communication verbale dans les lieux publics, soit directement, soit par un système de haut-parleurs, a amené à la mise au point d'un indice de transmission de la parole (STI, (en) Speech Transmission Index). Les études psychoacoustiques ont mis en relation les caractéristiques physiques du lieu d'écoute (bruit, résonances, réverbération) et les pourcentages d'erreur dans la compréhension de mots par les sujets. Le processus complet exigeant une longue série de mesures, des procédés simplifiés ont été mis au point[34].

Direction

L'écoute binaurale permet de percevoir la direction d'arrivée d'une onde sonore. La précision de cette localisation et les conditions de sa possibilité constituent un domaine d'étude en psychoacoustique, qu'abordent ceux qui considèrent le son du point de vue de la transmission d'une information orale ou musicale.

À la limite entre l'acoustique et la psychoacoustique, l'étude de la fonction de transfert relative à la tête (Hrtf, (en) head-related transfer function) caractérise les transformations apportées aux ondes sonores par le corps d'un auditeur, principalement la tête, le pavillon de l'oreille et le conduit auditif. On quantifie ainsi les différences entre les sons qui parvient à chacune des oreilles, qui permettent à l'être humain de repérer l'origine d'un son, surtout en azimut (horizontalement), et dans une moindre mesure en site (verticalement)[35].

Dans les conditions d'expérience pratiques, des mouvements du corps peuvent apporter plus de précision à la localisation en reliant ces mouvements à la perception auditive, comme l'exprime la locution tendre l'oreille. L'attention sélective à des évènements sonores, dans un milieu où ceux-ci arrivent de toutes les directions, améliore le repérage de la direction d'origine[36].

Les études portant sur la perception de l'origine du son incluent celle du son stéréophonique, exploité pour la diffusion musicale à partir du milieu des années 1950. Deux haut-parleurs suffisent pour créer un champ sonore où les auditeurs peuvent, dans certaines conditions, identifier des sources qui ne coïncident avec aucune des deux sources réelles, que pour cette raison on appelle sources virtuelles. Trois caractères influent sur la perception de la direction d'origine, le niveau, la phase et le délai entre les oreilles. Pour vérifier leurs contributions, on envoie le même signal aux deux enceintes, en faisant varier un de ces paramètres. L'influence de chacun de ses facteurs varie selon la fréquence. L'interprétation de la direction est très variable selon les individus[37].

Hors de la chambre sourde des laboratoires d'acoustique, les réflexions sur les parois d'un local d'écoute influent sur la localisation de la source. Cependant, dès 1948 Lothar Cremer décrivait la loi du premier front d'onde : le son arrivant le premier à l'oreille détermine la perception de la direction, même s'il transporte moins d'énergie que ceux qui arrivent ensuite, qui sont, en l'absence de sonorisation, les réflexions sur les parois[38]. Helmut Haas a établi que la localisation se fait sur le premier son arrivé (en l'absence de sonorisation, c'est le son direct), pourvu que le premier des suivants ne lui soit pas supérieur de plus de 10 dB et qu'il ait un retard d'au moins 10 ms[39]. Les études sur l'effet de précédence (de) ou effet Haas ont de grandes conséquences pratiques pour l'acoustique architecturale et la sonorisation.

Codage de la perception

Les industries des télécommunications, de la radiodiffusion, de la télévision, de la sonorisation et de la diffusion de musique enregistrée se sont dès l'origine préoccupées de ne traiter que ce que les êtres humains peuvent entendre.

À l'époque de l'électronique analogique, il s'agissait d'abord de déterminer la bande passante nécessaire. Les systèmes de réduction du bruit de fond ont ensuite tenu compte de la sensibilité différente de l'oreille selon la fréquence et de l'effet de masque. Un système d'accentuation tenant compte du niveau sonore par bande de fréquence permet de tirer le meilleur parti des moyens techniques, au prix de petites distorsions du signal. Des études psychoacoustiques ont recherché le meilleur compromis entre la perception du bruit de fond et les distorsions. Dès les années 1940, des recherches sur la transmission de la voix par téléphone aboutissaient, dans un processus de recherche commencé dès les années 1920, à transmettre non plus le signal, mais les paramètres du Vocoder qui allait synthétiser le son. En vue de cette application, il fallait passer de l'analyse des sons émis pour chaque phonème à l'étude des conditions de leur reconnaissance. Ces recherches et expérimentations se sont poursuivies jusque dans les années 1970.

Avec la numérisation du signal électrique correspondant au son physique, on quantifie non plus simplement des caractéristiques statistiques du son comme sa puissance moyenne mais sa représentation elle-même. Le traitement numérique du signal permet de viser à transmettre non pas le son physique, qui n'est au fond qu'un intermédiaire, mais directement l'impression sonore ((en) perceptive/perceptual coding). La recherche psychoacoustique devient fondamentale[40].

Des algorithmes de plus en plus élaborés visent à coder, soit seulement ce qui peut s'entendre dans les conditions optimales d'écoute, soit, pour réduire encore le flux de données, seulement l'essentiel d'un programme musical[41]. La réduction maximale des données correspond mieux aux cas où l'auditeur ne peut profiter de conditions optimales d'écoute, comme dans une automobile, ou préfère avoir une vaste liste d'écoute dans un appareil portable.

Perception et cognition

Les sons, hors du laboratoire, se caractérisent avant tout par leur caractère fugace. La réflexion tire parti d'une présentation stable. Le sonagraphe, inventé dans les années 1940, produit une représentation graphique où un axe repère le temps et l'autre la fréquence. La couleur de chaque point indique l'intensité acoustique pour ce moment et cette fréquence. Le sonagramme permet de mettre en regard de la représentation acoustique une représentation symbolique, comme le mot prononcé ou la note jouée.

Principes généraux

La question de la reconnaissance des sons est centrale pour la parole et pour la musique. Cette reconnaissance implique un modèle de la perception auditive — l'audition — et une mémoire auditive, qui fournit les éléments pour comparer les perceptions. L'approche de l'audition en tant que cognition postule que « l'information sensorielle doit être interprétée pour donner naissance à une perception cohérente ». L'existence d'illusions auditives prouve que cette interprétation peut être incorrecte[42].

Le schéma de l'audition se trouve ainsi enrichi et complexifié. Plusieurs zones et fonctions du cerveau réagissent entre elles :

une zone de groupement auditif, qui traite l'influx nerveux provenant des oreilles, et organise les évènements en flux associés à une situation, de sorte qu'on peut suivre simultanément deux séquences de sons ou plus (par exemple, écouter à la fois une conversation et de la musique) ;
une fonction d'extraction des caractéristiques ;
une fonction de traitement des structures temporelles ;
une structure de connaissances abstraites.

La représentation mentale de l'environnement qui en résulte va orienter en retour les structures de connaissances abstraites et diriger l'attention, sélectionnant les sons pertinents parmi les sons perçus[43].

L'écoute de la parole

Les recherches sur l'audition de la parole forment une branche à la fois ancienne et actuelle de la psychoacoustique. Elles englobent tous ses aspects, de l'étude des caractères physiques des sons de la parole (phonétique) à la physiologie de l'audition et au traitement proprement psychique qui transforme l'influx nerveux en associations symboliques. Les recherches sur la compréhension de la parole trouvent un débouché et un stimulant industriel dans le projet de construire un modèle qui puisse servir de base à des systèmes de reconnaissance automatique de la parole[44].

L'audition d'un discours inclut une interprétation, qui supplée à l'occasion à certains de ses défauts — on comprend les discours interrompus par des incidents, les digressions, les bégaiements ; on peut suivre plusieurs discours à la fois comme dans l'interprétation simultanée. L'attention dirigée volontairement vers le discours réagit sur l'ensemble des fonctions auditives. L'écoute de la parole met en œuvre trois fonctions essentielles :

distinguer la parole utile dans l'environnement sonore,
repérer les syllabes en laissant de côté les variations acoustiques individuelles,
assurer la résistance de ce codage aux dégradations du signal[44].

Les recherches comparant la perception des phonèmes, des syllabes, des mots isolés, et du flux normal de la parole ont amené à conclure que le modèle selon lequel le système auditif percevait les éléments simples, pour les assembler en parties plus complexe du discours était inadéquat. En réalité, les sujets prennent plus de temps pour isoler les parties les plus élémentaires, les phonèmes. Il semble que cette capacité dépende de l'apprentissage de la lecture d'une écriture alphabétique (par opposition à une notation en idéogrammes)[45] L'auditeur identifie un flux verbal par une direction d'origine, une hauteur, une continuité spectrale et intonative qui caractérisent un locuteur dans la voix parlée, en s'aidant éventuellement par la vision du mouvement des lèvres, et le constitue comme enchaînement de syllabes[46].

L'écoute musicale

L'écoute des sons musicaux intéresse toute une branche de la recherche psychoacoustique[47]. Les sons mélodiques évoluent moins vite en général que ceux de la parole, ce qui favorise la différenciation de la tonie ; ils utilisent aussi une plus grande partie des fréquences audibles[48]. C'est aussi le domaine où la théorie musicale développée en Europe depuis le XVII^e siècle réagit le plus sur la cognition auditive. Les musiciens, particulièrement, entraînent leur audition afin d'affiner leur perception[49]. Pour tous, cependant, l'audition est un apprentissage ; la plasticité cérébrale explique les différences de règles et de goûts musicaux entre les différentes cultures[50].

L'étude de quelques rares cas d'amusie, c'est-à-dire d'incapacité totale à reconnaître une mélodie, alors que par ailleurs l'audition est parfaite et que les sujets n'ont aucune difficulé avec la parole, a rendu les cliniciens certains que la compréhension de la musique était d'une nature particulière[51]. Il est apparu que les deux parties du cerveau y contribuaient différemment, le demi-cerveau gauche étant celui impliqué dans le traitement des sons associés à un sens, ceux de la parole. Chez les musiciens, cependant, ce demi-cerveau gauche s'active pour l'écoute musicale. On pourrait conclure que pour eux, la musique est une forme de langage. Les techniques d'imagerie médicale[52], qui permettent la visualisation en direct des aires cérébrales qui consomment de l'oxygène, a amené à une évaluation plus nuancée[53]. Les diverses composantes de l'écoute musicale (appréciation du rythme, de la cadence, de la tonie, des intervalles, du timbre ; identification du contour mélodique, reconnaissance des thèmes, etc.) activent des zones cérébrales situées dans les deux moitiés du cerveau[54].

L'intérêt pour l'écoute musicale, dans la tradition de la musique européenne, amène à des questions particulières comme celle de l'oreille absolue et sa formation. L'« oreille absolue » est la capacité rare[55] de reconnaître et nommer une note sans référence préalable, associée généralement à une faculté de discrimination fine entre les fréquences. En général les musiciens reconnaissent les intervalles et ont besoin du diapason comme référence, ce pourquoi on parle d'« oreille relative ». Il semble que l'oreille absolue soit particulière à la culture occidentale, qui attache une importance particulières à la hauteur des notes. Les recherches ont montré que l'oreille absolue requiert à la fois une aptitude génétique et une pratique assidue et précoce du solfège[56].

L'écoute d'une scène sonore

La capacité des auditeurs à suivre une partie dans un ensemble musical, ou un discours parmi des conversations, amène à conclure que la perception auditive ne se fait pas analytiquement, par la combinaison de signaux élémentaires, mais au contraire synthétiquement, en suivant les caractères distinctifs d'une émission sonore. L'écoute de la musique ressemble en cela à celle de la parole[57] ; l'une et l'autre dérivent d'un phénomène sinon constant, du moins habituel : une source sonore a des propriétés relativement fixes.

il est extrêmement rare que deux sons sans rapport entre eux commencent et s'arrêtent exactement au même moment ;
les propriétés d'un son, y compris sa direction d'origine, tendent à la continuité, elles ne changent que lentement, et pas toutes à la fois;
les partiels du son d'une même source ont tendance à être harmoniques ;
les modifications d'un son affectent en général toutes ses composantes ;
les sons musicaux, et, dans une certaine mesure, ceux de la parole (principalement poétique) interviennent à des moments corrélés, dans le flux, par le rythme.

Tous ces caractères peuvent servir à la constitution d'une scène sonore sans qu'il soit nécessaire qu'ils servent tous[58].

Les structures temporelles

Pierre Schaeffer a fait évaluer à des sujets le temps relatif de différentes parties de sons construits comme musicaux, bien que ne provenant pas d'instruments de musique. Il conclut que la durée perçue dépend de l'importance des variations qui les traversent, qu'on peut comprendre comme évènements sonores[59].

Le rythme constitue un indice déterminant pour distinguer ce qui appartient au flux sonore de la poésie et de la musique. Il a fait l'objet d'études psychophysiques particulières[60], mais a été peu intégré aux études psychoacoustiques, centrées sur la note[61]. Ces travaux constatent chez les sujets une sensibilité auditive au rythme plus que celle constatée avec les autres sens, comme la vision[62]. Ils recherchent les limites de durée dans lesquelles les sujets perçoivent des rythmes (dans une plage plus étroite que 0,1 Hz à 10 Hz). Ils se concentrent sur la battue[63], qui n'est que la composante régulière du rythme, sans se préoccuper de ses structures internes. Ils mettent en relation la détection de la cadence avec la psychomotricité.

De nombreux travaux ethnomusicologiques ont mis en évidence, notamment dans le contexte culturel ouest et centre-Africain, des perceptions de motifs rythmiques complexes et des principes de placement et d'interprétation des événements rythmiques différent de ceux de la musique occidentale. Ces principes permettent notamment la détection d'une battue à des instants où il y a ou il n'y a pas d’événement sonore. Mais la filiation de la psychoacoustique avec l'acoustique musicale européenne a éloigné les chercheurs et leurs institutions de l'exploration psychoacoustique des capacités à reconnaître un motif rythmique[64], tandis que les études sur la reconnaissance d'un motif temporel sans rythme (c'est-à-dire sans battue), qui ont fait partie de la sélection des opérateurs en code Morse, sont à peu près oubliées[65].

Annexes

Bibliographie

Marie-Claire Botte, Psychoacoustique et perception auditive, Tec & Doc, 1999, 144 p. (ISBN 978-2-85206-534-5)
- Marie-Claire Botte, « Perception de l'intensité sonore », dans Botte & alii, Psychoacoustique et perception auditive, Paris, Tec & Doc, 1999
- Laurent Demany, « Perception de la hauteur tonale », dans Botte & alii, Psychoacoustique et perception auditive, Paris, Tec & Doc, 1999
- Georges Canevet, « Audition binaurale et localisation auditive : aspects physiques et psychoacoustiques », dans Botte & alii, Psychoacoustique et perception auditive, Paris, Tec & Doc, 1999
- Christel Sorin, « Perception de la parole continue », dans Botte & alii, Psychoacoustique et perception auditive, Paris, Tec & Doc, 1999
Michèle Castellengo (préf. Jean-Sylvain Liénard et Georges Bloch), Ecoute musicale et acoustique : avec 420 sons et leurs sonagrammes décryptés, Paris, Eyrolles, 2015, 541, + DVD-rom (ISBN 978-2-212-13872-6, présentation en ligne).
Claude-Henri Chouard, L'oreille musicienne : Les chemins de la musique de l'oreille au cerveau, Paris, Gallimard, 2001, 348 p. (ISBN 2-07-076212-2)
Charles Delbé (dir.), Musique, psychoacoustique et apprentissage implicite : vers un modèle intégré de la cognition musicale, Université de Bourgogne, 2009 (lire en ligne)
(en) Hugo Fastl et Eberhard Zwicker, Psychoacoustics : Facts and Models, Springer, 2006, 463 p. (ISBN 978-3-540-23159-2, lire en ligne)
Christian Gelis, Biophysique de l'environnement sonore, Ellipses, 2002 (ISBN 978-2-7298-1290-4)
Alain Goyé, La Perception Auditive : cours P.A.M.U., Paris, École Nationale Supérieure des Télécommunications, 2002, 73 p. (lire en ligne)
Mpaya Kitantou, « La perception auditive », dans Denis Mercier (direction), Le Livre des Techniques du Son, tome 1- Notions fondamentales, Paris, Eyrolles, 1987, 1^re éd. (présentation en ligne)
Stephen McAdams (dir.) et Emmanuel Bigand (dir), Penser les sons : Psychologie cognitive de l'audition, Paris, PUF, coll. « Psychologie et sciences de la pensée », 1994, 1^re éd., 402 p. (ISBN 2-13-046086-0)
- Stephen McAdams, « Introduction à la cognition auditive », dans McAdams & alii, Penser les sons, Paris, PUF, 1994
- Albert S. Bregman, « L'analyse des scènes auditives : l'audition dans des environnements complexes », dans McAdams & alii, Penser les sons, Paris, PUF, 1994
Gérard Pelé, Études sur la perception auditive, Paris, L'Harmattan, 2012.
Mario Rossi, Audio, Lausanne, Presses Polytechniques et Universitaires Romandes, 2007, 1^re éd., 782 p. (ISBN 978-2-88074-653-7, lire en ligne)
Pierre Schaeffer, Traité des objets musicaux : Essai interdisciplines, Paris, Seuil, 1977, 2^e éd. (1^re éd. 1966), 713 p.
Arlette Zenatti et al., Psychologie de la musique, Paris, Presses universitaires de France, coll. « Psychologie d'aujourd'hui », 1994
- Michèle Castellengo, « La perception auditive des sons musicaux », dans Arlette Zenatti, Psychologie de la musique, Paris, Presses universitaires de France, coll. « Psychologie d'aujourd'hui », 1994.
- Diana Deutsch, « La perception des structures musicales », dans Arlette Zenatti, Psychologie de la musique, Paris, Presses universitaires de France, coll. « Psychologie d'aujourd'hui », 1994.
- W. Jay Dowling, « La structuration mélodique : perception et chant », dans Arlette Zenatti, Psychologie de la musique, Paris, Presses universitaires de France, coll. « Psychologie d'aujourd'hui », 1994.

Articles connexes

Notes et références

L'Année psychologique annonce en 1953 « un Congrès international d'électroacoustique (avec) sept sections, dont la troisième envisageait les mesures psychoacoustiques ». C'est une des premières occurrences publiées du terme psychoacoustique.
Gelis 2002, p. 8-9
La psychoacoustique étudie l'être humain, mais on vérifie parfois des hypothèses physiologiques sur d'autres mammifères (Chouard 2001, p. 219).
La norme ISO 13299:2003 « décrit le processus d'ensemble d'établissement d'un profil sensoriel ».
Chouard 2001, p. 268.
(Botte 1999, p. 20)
Rossi 2007, p. 147
Commission électrotechnique internationale Electropedia 801-21-05
Commission électrotechnique internationale Electropedia 801-29-03
Demany 1999, p. 44 ; voir aussi Association française de normalisation (AFNOR) Recueil des normes françaises de l'acoustique, Tome 1 (Vocabulaire), NF S 30-101, 1977 ; Commission électrotechnique internationale Electropedia 801-29-01
Botte 1999, p. 17. Pour Chouard 2001, p. 87, « au delà de 16 000 Hz environ (...) nous ne percevons plus aucun son ».
Demany 1999, p. 44
Schaeffer 1977, p. 207, 209 ; Botte 1999, p. 25; Chouard 2001, p. 87-89 ; Rossi 2007, p. 125-144.
Botte 1999, p. 15
Pour des bandes de bruit ; pour un son pur, le seuil de différenciation décroit avec l'intensité, de 1,5 dB pour 20 dB SPL à 0,3 dB pour 80 dB SPL (Goyé 2002, p. 20).
Demany 1999, p. 45 ; pour les sons musicaux, qui ne sont pas des sons purs, on a coutume de considérer que la résolution est de un savart (0,1%) (Chouard 2001, p. 92).
Schaeffer 1977, p. 183-185, 190 ; Demany 1999, p. 47 ; Rossi 2007, p. 131.
Demany 1999, p. 44-48 ; Schaeffer 1977, p. 186 évoque l'expérience de Heinz Werner, qui fait écouter des sons à des sujets qui ne perçoivent la différence de hauteur qu'à la cinquième écoute.
Demany 1999, p. 47
Terhard 1980 et Burns et Ward 1982 apud Demany 1999, p. 47; Delbé 2009, p. 13, 22.
L'octave pourrait avoir un statut particulier dans la perception de certains primates (Wright, Rivera, Hulse, Shyan, & Neiworth, 2000) et certains oiseaux (Tchernichovski, Mitra, Lints, & Nottebohm, 2001) apud Delbé 2009, p. 14
Demany 1999, p. 52
Delbé 2009, p. 11-12
Botte 1999, p. 31-32 ; Rossi 2007, p. 137-138
(en) EBU / UER, EBU – Recommendation R 128 : Loudness normalisation and permitted maximum level of audio signals, Genève, EBU /UER, août 2011 (lire en ligne) ; (en) ITU, Recommendation ITU-R BS.1770-2 : Algorithms to measure audio programme loudness and true-peak audio level, ITU, mars 2011 (lire en ligne) ; (en) Eddy Bøgh Brixen, Metering Audio, New York, Focal Press, 2011, 2^e éd., p. 47-56, 80-81
L'une et l'autre méthode, prévues pour la détermination sans ordinateur, à l'aide de graphiques, ont été normalisées ISO 532-1975. Voir résumé dans Brixen 2011, p. 75-78 ; voir Fastl et Zwicker 2006.
Schaeffer 1977, p. 180-182 ; Demany 1999, p. 56-58 ; Delbé 2009, p. 12, 14
Rossi 2007, p. 134 ; Demany 1999, p. 59, 62-63 rend compte de l'expérience et indique que la condition pour obtenir une différence est que les partiels harmoniques présents soient tous d'un rang élevé, avec donc des fréquences proches.
Demany 1999, p. 71-73 ; Delbé 2009, p. 17-21
Schaeffer 1977, p. 216-243 ; Goyé 2002, p. 55.
définition de l'ANSI (Goyé 2002, p. 55).
Goyé 2002, p. 55-56 ; Jochen Krimphoff, Stephen McAdams et Suzanne Winsberg, « Caractérisation du timbre des sons complexes, II. Analyses acoustiques et quantification psychophysique », Journal de Physique,‎ 1994 (lire en ligne, consulté le 3 aout 2013)
Étienne Parizet, Perception acoustique et qualité sonore, Techniques de l'ingénieur, 2006 (lire en ligne) ; Mesures 739, 2001
Brixen 2011, p. 209-212 ; Rossi 2007, p. 174-176.
Rossi 2007, p. 140-144, et pour les études plus strictement psychoacoustiques Canevet 1999, p. 83-100
Kitantou 1987, p. 166, Canevet 1999, p. 107-108. Depuis la publication de Cherry en 1953, on connaît ce phénomène sous le nom d'effet cocktail party.
Canevet 1999, p. 103-104
Brixen 2011, p. 55 ; voir aussi Winckel (de), Vues nouvelles sur le monde des sons, 1960, apud Schaeffer 1977, p. 212.
Schaeffer 1977, p. 213-214 ; Kitantou 1987, p. 167 ; Canevet 1999, p. 105-107 ; Rossi 2007, p. 199-200. La thèse de H. Haas est de 1972.
(en) John Watkinson, The MPEG Handbook : MPEG-1, MPEG-2, MPEG-4, Focal Press, 2004, 2^e éd., 435 p. (ISBN 978-0-240-80578-8, lire en ligne), p. 7
Rossi 2007, p. 664-671 ; (en) John Watkinson, The MPEG Handbook : MPEG-1, MPEG-2, MPEG-4, Focal Press, 2004, 2^e éd., 435 p. (ISBN 978-0-240-80578-8, lire en ligne), p. 167-227.
(McAdams et Bigand 1994, p. 2-3).
McAdams et Bigand 1994, p. 6
Sorin 1999, p. 123
Morais et coll. 1979 apud Sorin 1999, p. 125.
Sorin 1999, p. 125
Schaeffer 1977 s'emploie à tenter de définir ce qu'est un son musical.
Chouard 2001, p. 130.
Chouard 2001, p. 259sq.
Chouard 2001, p. 213-214 ; Delbé 2009, p. 11.
Chouard 2001, p. 215.
Tomographie par émission de positons (PET scan), Imagerie par résonance magnétique (IRM), etc.
Chouard 2001, p. 217-219.
Chouard 2001, p. 226-228.
Moins de 1 % de la population, selon Goyé 2002, p. 53.
Chouard 2001, p. 254-255. Un chapitre entier est consacré à l'oreille absolue, p. 253-267.
Sorin 1999, p. 125.
Bregman 1994, p. 19-33. La notion de scène sonore est proche de celle d'objet sonore élaborée par Pierre Schaeffer (Schaeffer 1977), voir notamment p. 76, et en tous cas, les propriétés citées ici s'y appliquent.
Schaeffer 1977, p. 244-258
Neuroscience du rythme, par Isabelle Peretz invitée au Collège de France ; Paul Fraisse, « Études sur la mémoire immédiate -- II. La reproduction des formes rythmiques », L'année Psychologique, n^o 43,‎ 1942 ; Paul Fraisse, « Mouvements rythmiques et arythmiques », L'année Psychologique, n^o 47,‎ 1946 (lire en ligne, consulté le 5 aout 2013).
Ainsi, Delbé 2009, p. 3 illustre la connaissance musicale uniquement comme « la production ou la reconnaissance d'une mélodie ».
Paul Fraisse, « Rythmes auditifs et rythmes visuels », L'année Psychologique, n^o 49,‎ 1948 (lire en ligne, consulté le 5 aout 2013) ; Paul Fraisse, « La perception de la durée comme organisation du successif », L'année Psychologique, n^o 52,‎ 1952 (lire en ligne, consulté le 6 aout 2013)
À l'exception du précurseur Robert Holmes Seashore (1902-1951) "Studies in motor rhythm", Psychological Monographs, Vol 36(1), 1926, 142-189.
Ce sujet est cependant ouvert, voir Farid Matallah, Étude interculturelle sur la perception de la métrique des rythmes traditionnels du Candomblé : vers une coopération de l’écoute et du mouvement : Mémoire de Master 1 de psychologie cognitive (lire en ligne), sans qu'aient été entreprises les études psychophysiques de base sur les seuils de perception de différence rythmique entre deux motifs.
compte rendu dans l'Année Psychologique de BRYAN et HARTER. — Studies in the Physiology and Psychology of the Telegraphic Language (Études sur la physiologie et la psychologie du langage télégraphique). Psych. Review, janvier 1897, i, IV, p. 27-53, conclut que l'opérateur Morse expérimenté ne déchiffre pas les lettres du code, mais les mots, voire les phrases entières. Ce sont les mêmes constatations que pour la parole et la musique, avec des variations purement temporelles.

Portail de la psychologie
Portail de la musique
Portail de la médecine
Portail de la physiologie
Portail des neurosciences

Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons - Attribution - Partage dans les Mêmes. Des conditions supplémentaires peuvent s'appliquer aux fichiers multimédias.

[1] L'Année psychologique annonce en 1953 « un Congrès international d'électroacoustique (avec) sept sections, dont la troisième envisageait les mesures psychoacoustiques ». C'est une des premières occurrences publiées du terme psychoacoustique.

[2] Gelis 2002, p. 8-9

[3] La psychoacoustique étudie l'être humain, mais on vérifie parfois des hypothèses physiologiques sur d'autres mammifères (Chouard 2001, p. 219).

[4] La norme ISO 13299:2003 « décrit le processus d'ensemble d'établissement d'un profil sensoriel ».

[5] Chouard 2001, p. 268.

[6] (Botte 1999, p. 20)

[7] Rossi 2007, p. 147

[8] Commission électrotechnique internationale Electropedia 801-21-05

[9] Commission électrotechnique internationale Electropedia 801-29-03

[10] Demany 1999, p. 44 ; voir aussi Association française de normalisation (AFNOR) Recueil des normes françaises de l'acoustique, Tome 1 (Vocabulaire), NF S 30-101, 1977 ; Commission électrotechnique internationale Electropedia 801-29-01

[11] Botte 1999, p. 17. Pour Chouard 2001, p. 87, « au delà de 16 000 Hz environ (...) nous ne percevons plus aucun son ».

[12] Demany 1999, p. 44

[13] Schaeffer 1977, p. 207, 209 ; Botte 1999, p. 25; Chouard 2001, p. 87-89 ; Rossi 2007, p. 125-144.

[14] Botte 1999, p. 15

[15] Pour des bandes de bruit ; pour un son pur, le seuil de différenciation décroit avec l'intensité, de 1,5 dB pour 20 dB SPL à 0,3 dB pour 80 dB SPL (Goyé 2002, p. 20).

[16] Demany 1999, p. 45 ; pour les sons musicaux, qui ne sont pas des sons purs, on a coutume de considérer que la résolution est de un savart (0,1%) (Chouard 2001, p. 92).

[17] Schaeffer 1977, p. 183-185, 190 ; Demany 1999, p. 47 ; Rossi 2007, p. 131.

[18] Demany 1999, p. 44-48 ; Schaeffer 1977, p. 186 évoque l'expérience de Heinz Werner, qui fait écouter des sons à des sujets qui ne perçoivent la différence de hauteur qu'à la cinquième écoute.

[19] Demany 1999, p. 47

[20] Terhard 1980 et Burns et Ward 1982 apud Demany 1999, p. 47; Delbé 2009, p. 13, 22.

[21] L'octave pourrait avoir un statut particulier dans la perception de certains primates (Wright, Rivera, Hulse, Shyan, & Neiworth, 2000) et certains oiseaux (Tchernichovski, Mitra, Lints, & Nottebohm, 2001) apud Delbé 2009, p. 14

[22] Demany 1999, p. 52

[23] Delbé 2009, p. 11-12

[24] Botte 1999, p. 31-32 ; Rossi 2007, p. 137-138

[25] (en) EBU / UER, EBU – Recommendation R 128 : Loudness normalisation and permitted maximum level of audio signals, Genève, EBU /UER, août 2011 (lire en ligne) ; (en) ITU, Recommendation ITU-R BS.1770-2 : Algorithms to measure audio programme loudness and true-peak audio level, ITU, mars 2011 (lire en ligne) ; (en) Eddy Bøgh Brixen, Metering Audio, New York, Focal Press, 2011, 2^e éd., p. 47-56, 80-81

[26] L'une et l'autre méthode, prévues pour la détermination sans ordinateur, à l'aide de graphiques, ont été normalisées ISO 532-1975. Voir résumé dans Brixen 2011, p. 75-78 ; voir Fastl et Zwicker 2006.

[27] Schaeffer 1977, p. 180-182 ; Demany 1999, p. 56-58 ; Delbé 2009, p. 12, 14

[28] Rossi 2007, p. 134 ; Demany 1999, p. 59, 62-63 rend compte de l'expérience et indique que la condition pour obtenir une différence est que les partiels harmoniques présents soient tous d'un rang élevé, avec donc des fréquences proches.

[29] Demany 1999, p. 71-73 ; Delbé 2009, p. 17-21

[30] Schaeffer 1977, p. 216-243 ; Goyé 2002, p. 55.

[31] éfinition de l'ANSI (Goyé 2002, p. 55).

[32] Goyé 2002, p. 55-56 ; Jochen Krimphoff, Stephen McAdams et Suzanne Winsberg, « Caractérisation du timbre des sons complexes, II. Analyses acoustiques et quantification psychophysique », Journal de Physique,‎ 1994 (lire en ligne, consulté le 3 aout 2013)

[33] Étienne Parizet, Perception acoustique et qualité sonore, Techniques de l'ingénieur, 2006 (lire en ligne) ; Mesures 739, 2001

[34] Brixen 2011, p. 209-212 ; Rossi 2007, p. 174-176.

[35] Rossi 2007, p. 140-144, et pour les études plus strictement psychoacoustiques Canevet 1999, p. 83-100

[36] Kitantou 1987, p. 166, Canevet 1999, p. 107-108. Depuis la publication de Cherry en 1953, on connaît ce phénomène sous le nom d'effet cocktail party.

[37] Canevet 1999, p. 103-104

[38] Brixen 2011, p. 55 ; voir aussi Winckel (de), Vues nouvelles sur le monde des sons, 1960, apud Schaeffer 1977, p. 212.

[39] Schaeffer 1977, p. 213-214 ; Kitantou 1987, p. 167 ; Canevet 1999, p. 105-107 ; Rossi 2007, p. 199-200. La thèse de H. Haas est de 1972.

[40] (en) John Watkinson, The MPEG Handbook : MPEG-1, MPEG-2, MPEG-4, Focal Press, 2004, 2^e éd., 435 p. (ISBN 978-0-240-80578-8, lire en ligne), p. 7

[41] Rossi 2007, p. 664-671 ; (en) John Watkinson, The MPEG Handbook : MPEG-1, MPEG-2, MPEG-4, Focal Press, 2004, 2^e éd., 435 p. (ISBN 978-0-240-80578-8, lire en ligne), p. 167-227.

[42] (McAdams et Bigand 1994, p. 2-3).

[43] McAdams et Bigand 1994, p. 6

[Sorin_p123-44] Sorin 1999, p. 123

[45] Morais et coll. 1979 apud Sorin 1999, p. 125.

[46] Sorin 1999, p. 125

[47] Schaeffer 1977 s'emploie à tenter de définir ce qu'est un son musical.

[48] Chouard 2001, p. 130.

[49] Chouard 2001, p. 259sq.

[50] Chouard 2001, p. 213-214 ; Delbé 2009, p. 11.

[51] Chouard 2001, p. 215.

[52] Tomographie par émission de positons (PET scan), Imagerie par résonance magnétique (IRM), etc.

[53] Chouard 2001, p. 217-219.

[54] Chouard 2001, p. 226-228.

[55] Moins de 1 % de la population, selon Goyé 2002, p. 53.

[56] Chouard 2001, p. 254-255. Un chapitre entier est consacré à l'oreille absolue, p. 253-267.

[57] Sorin 1999, p. 125.

[58] Bregman 1994, p. 19-33. La notion de scène sonore est proche de celle d'objet sonore élaborée par Pierre Schaeffer (Schaeffer 1977), voir notamment p. 76, et en tous cas, les propriétés citées ici s'y appliquent.

[59] Schaeffer 1977, p. 244-258

[60] Neuroscience du rythme, par Isabelle Peretz invitée au Collège de France ; Paul Fraisse, « Études sur la mémoire immédiate -- II. La reproduction des formes rythmiques », L'année Psychologique, n^o 43,‎ 1942 ; Paul Fraisse, « Mouvements rythmiques et arythmiques », L'année Psychologique, n^o 47,‎ 1946 (lire en ligne, consulté le 5 aout 2013).

[61] Ainsi, Delbé 2009, p. 3 illustre la connaissance musicale uniquement comme « la production ou la reconnaissance d'une mélodie ».

[62] Paul Fraisse, « Rythmes auditifs et rythmes visuels », L'année Psychologique, n^o 49,‎ 1948 (lire en ligne, consulté le 5 aout 2013) ; Paul Fraisse, « La perception de la durée comme organisation du successif », L'année Psychologique, n^o 52,‎ 1952 (lire en ligne, consulté le 6 aout 2013)

[63] À l'exception du précurseur Robert Holmes Seashore (1902-1951) "Studies in motor rhythm", Psychological Monographs, Vol 36(1), 1926, 142-189.

[64] Ce sujet est cependant ouvert, voir Farid Matallah, Étude interculturelle sur la perception de la métrique des rythmes traditionnels du Candomblé : vers une coopération de l’écoute et du mouvement : Mémoire de Master 1 de psychologie cognitive (lire en ligne), sans qu'aient été entreprises les études psychophysiques de base sur les seuils de perception de différence rythmique entre deux motifs.

[65] te rendu dans l'Année Psychologique de BRYAN et HARTER. — Studies in the Physiology and Psychology of the Telegraphic Language (Études sur la physiologie et la psychologie du langage télégraphique). Psych. Review, janvier 1897, i, IV, p. 27-53, conclut que l'opérateur Morse expérimenté ne déchiffre pas les lettres du code, mais les mots, voire les phrases entières. Ce sont les mêmes constatations que pour la parole et la musique, avec des variations purement temporelles.