Comparaison de trois systèmes de captation sonore nativement stéréo avec l’écoute en direct des sources

Comparaison de trois systèmes de captation sonore

nativement stéréo avec l’écoute en direct des

sources acoustiques

Sources acoustiques sur scène

Télécharger le document en pdf 


Christian Belbeze - Nicolas Lesaint - Benoit Soula

Christian@belbeze.com, saxobar@me.com, sbsons@hotmail.com


Mars 2023 


Remerciements

Nous remercions la mairie de Carbonne pour nous avoir permis l’accès à la salle de Cinéma dans des conditions très favorables et Lily Belbèze pour le montage des vidéos.

Abstract

This paper deals with the subjective comparison of three sound recording systems and their ability to subsequently reproduce a stereo image upon playback on a stereo system in such a way that listeners can perceive spatialization with precision of horizontal source placement, physical width of sources, or their micro-movements, as closely as possible to that experienced when listening to organic or mechanical sources directly.

After a brief overview of the history of stereophony, the elements allowing sound localization, and the notion of panning, the experimenters propose a comparative recording and listening test of an Ortf pair, an XY pair, and a Decca tree with three sensors.

The conclusion of the test is that each system has strengths and weaknesses. The XY pair represents, nevertheless, a compromise of quality under the test conditions.

Résumé

Cet article traite de la comparaison subjective de trois systèmes d'acquisition sonore et de leur capacité à ensuite reproduire à la réécoute sur un système stéréo une image stéréo de telle façon que les auditeurs puissent avoir l’impression de spatialisation tant en précision de placement des sources horizontalement que de largeur physique des sources ou leurs micro-déplacements, la plus proche possible de celle ressentie à l’écoute de sources organiques ou mécaniques directement.

Après un rapide rappel de l’histoire de la stéréophonie, des éléments permettant la localisation d’un son et de la notion de panoramique, les expérimentateurs proposent un test d’enregistrement et d’écoute comparative d’ un couple Ortf, un couple XY et un arbre Decca à trois capteurs.

La conclusion du test nous apparaît être que chacun des systèmes présente des caractéristiques différentes. Le couple XY est quand même dans les conditions du test et sur le respect de la spatialisation un compromis intéressant.

Introduction

Les techniques d’enregistrement ont depuis plusieurs années considérablement évoluées. Et le passage au numérique est aujourd’hui total. Il existe aussi une standardisation de la mise en oeuvre des microphones durant la phase de captation: les microphones sont placés à proximité des sources de façon à relever un maximum de détails et de grain, de permettre un choix de microphone adapté à la source tant pour ce qui est du niveau que du respect du timbre , de la bande passante nécessaire, par choix esthétique du rendu final et en fonction de la disponibilité de ceux-ci dans le parc de microphone.

Les différentes pistes captées en monophonie pour la plupart sont ensuite positionnées par le réglage panoramique des tables de mixage pour recomposer une “imageparfois nommée fantôme de la position relative des sources entre elles.

Ce procédé de spatialisation aussi efficace soit-il n’est pas satisfaisant pour un grand nombre d'auditeurs et d'audiophiles qui recherchent la sensation la plus proche possible de celle ressentie à l’écoute directe de la source originale. En effet la comparaison du résultat final de ce mixage ainsi traité n’est en rien comparable dans sa capacité de nous permettre la localisation à celle d’une écoute directe de la source ou des sources originelles.

En 2023, le marché de l’écoute de musique s'est clairement séparé en deux. Une partie des écoutes se faisant à partir de fichiers compressés sur une enceinte monophonique et une autre partie étant des écoutes stéréophoniques à partir de fichiers en qualité studio la plupart du temps échantillonnés en 24 bits et 96 kHz . C’est pour ce second marché qu’il est apparu important de mieux cerner les capacités des enregistrements à recréer une spatialisation cohérente.

Notre cerveau recherche en permanence la localisation des sons. La capacité de localisation d’un son est un phénomène complexe qui n’est pas uniquement lié à des différences de niveau droite/gauche mais aussi à la position physique de l’auditeur qui s’accompagne d’une différence temporelle entre l’onde sonore provenant d’une source unique mais avec des temps différents fonction de la distance entre l’oreille gauche et l’oreille droite.

Une solution simple pour tenter de “retrouver” ces informations de décalage temporel entre les deux canaux stéréophoniques est d’utiliser un système de captation lui-même stéréophonique. Oui mais lequel ? car il en existe plusieurs.

C’est à partir de ces considérations que nous avons décidé de mener une recherche comparative sur trois systèmes de captation, présentant par nature la possibilité de recréer une spatialisation totale en tenant compte de la phase des signaux, des réflexions naturelles de la salle et du sol et bien sûr des variations de niveau gauche\droite.

Nous avons ainsi comparé un couple de micro de type ORTF, un couple dit XY et un ensemble de trois micros combinés de telle sorte que l’on peut nommer cet ensemble : un arbre Decca ou Decca Tree. Les différents systèmes ont permis d’enregistrer des sources sonores mobiles qui ont répété leur mouvement de façon à permettre une comparaison entre la sensation de spatialisation créée par les sources en écoute directe et la sensation de spatialisation à l’écoute des enregistrements.

Avertissement au lecteur

Ce travail de recherche ne prétend pas être un travail de référence. Il est une tentative d’exploration subjective de la capacité actuelle par trois expérimentateurs professionnels et passionnés du son, à ressentir la spatialisation de sources physiques organiques que nous nommerons “naturelles” en les comparant à des sources recréées électriquement à travers un système de reproduction stéréophonique à partir d’une captation par microphones .

Nous n’avons pas, pour des raisons évidentes de moyen, effectué ces tests sur un échantillon de population représentatif et devant la difficulté à transmettre nos sensations renoncé, bien que l’ayant probablement prévu, à remplir des questionnaires comparatifs.

Ce travail est donc en quelque sorte une pré-exploration subjective et nous reconnaissons humblement un nombre de carences importantes par rapport à un travail de recherche abouti. Cependant, devant l'absence totale de publication sur ce sujet, il nous a semblé intéressant de publier un article présentant notre démarche et nos conclusions. De plus, la disponibilité des enregistrements audios et vidéos permet aux lecteurs d’analyser leurs propres sensations de spécialisations sur les sources virtuelles ainsi créées. Le son des trois prises a été reporté sur les images d’une session sans aucune modification, equalisation ou compression.

Il ne faut pas oublier que les écoutes comparatives ont été réalisées uniquement sur des enceintes et non avec un casque ou des écouteurs.

Contexte et état de l’art

Il est primordial de comprendre comment le travail des ingénieurs du son a évolué afin d’offrir plus de confort et de capacité créative aux musiciens mais sans tenir suffisamment compte de la complexité du système auditif dans ses capacités de localisation sonore.

Pour cela il est indispensable de bien faire la différence entre écoute stéréophonique et captation stéréophonique.

La localisation de l'origine d’un son par les systèmes auditif et cognitif humains

Les systèmes auditif et cognitif humains utilisent plusieurs informations pour localiser une source sonore. Tout d'abord, la localisation de la source sonore peut être déterminée à partir de la différence de temps d'arrivée du son à chaque oreille. En effet, le son atteint l'oreille la plus proche en premier, créant ainsi un léger décalage temporel entre les deux oreilles. On parle de stéréophonie de phase.

De plus, la localisation de la source sonore peut également être déterminée à partir de la différence d'intensité sonore entre les deux oreilles. Cette différence d’intensité est causée par les perturbations liées à la présence de la tête dans le champ sonore. On parle de stéréophonie d’intensité. La présence de la tête ainsi que du corps de l’auditeur dans le champ sonnore est modélisée dans une fonction mathématique nommée la fonction de transfert relative à la tête ou HRTF.

En outre, la localisation peut être évaluée par l’auditeur en fonction de son expérience et de sa connaissance des lieux et des interactions entre la source et ce lieu.

En combinant ces différentes informations, les systèmes auditif et cognitif humains peuvent localiser de manière fiable une source sonore dans l'environnement sonore complexe qui nous entoure.

L’écoute en stéréophonie

La stéréophonie, ou "stéréo", est une technique d'enregistrement et de reproduction du son qui utilise deux canaux audio distincts pour créer une impression de son spatial.

L'histoire de la stéréophonie remonte au début du 20ème siècle, lorsque des ingénieurs et des chercheurs ont commencé à explorer des méthodes pour capturer et reproduire le son en deux, voire trois dimensions. La première tentative enregistrée de recréer un son stéréophonique a été faite par le Français Clément Ader en 1881, mais cette expérience qui n’était pas liée à la restitution d’un enregistrement mais était le transport de message sonore d’une salle vers une autre dans une autre salle, n'a pas eu de répercussion commerciale.

La première utilisation commerciale de la stéréophonie a eu lieu en 1957 avec la sortie de l'album "Stereo Demonstration Record" de la société Audio Fidelity Records. Cet album d’évangélisation a été produit pour démontrer les capacités de la stéréophonie et pour inciter les consommateurs à acheter des équipements de reproduction stéréo. C’est à partir de 1958 que les disques deviennent stéréophoniques.

Du côté des radios, la première radio à émettre en stéréo était la station de radio publique américaine WEFM, basée à Chicago. Le 1er juin 1961, WEFM a diffusé un programme en stéréo pour la première fois de l'histoire de la radio. Le premier poste récepteur de radio stéréophonique à avoir été commercialisé est le modèle 8X-500 de la marque américaine Motorola en 1958. La même année, la compagnie américaine RCA Victor commercialise le premier système de lecture de disque en stéréo.

A partir du début des années 1960, écouter en stéréophonie est devenue chose possible et l'industrie musicale l’a rapidement et largement adoptée tant les fabricants de disques vinyles que les stations de radio.

Aujourd'hui, la stéréophonie est une caractéristique standard de la plupart des équipements audio et vidéo, y compris les systèmes de sonorisation pour les événements en direct et les concerts.

Dans les premiers enregistrements stéréophoniques les sources sont positionnées soit sur le canal droit soit sur celui de gauche. Cela pour des raisons de limite du matériel d’enregistrement et aussi pour que l’écoute en monophonie ne soit pas dégradée, car un grand nombre d'écoutes se font encore sur des systèmes monophoniques.

Ce n’est que petit à petit avec l’arrivée de la chaîne stéréophonique dans les foyers vers le milieu des années soixante, les disques seront véritablement stéréophoniques en plaçant les sources sonores dans des positions intermédiaires.

On ne peut finir ce chapitre sans parler des nouvelles technologies multi-canaux. Si ces solutions, au départ développées pour le cinéma, sont aujourd’hui parfois utilisées pour enregistrer et écouter de la musique, elles ne font pas partie de cette étude.

Les débuts de la captation sonore en stéréo

La stéréophonie d'enregistrements et de restitution a été inventée dans les années 1930 par le chercheur britannique Alan Blumlein. Il a conçu un système d'enregistrement et de lecture à deux canaux qui permettait de reproduire une image sonore réaliste. Dès sa conception Alan Blumlein va proposer un système de captation qui va essayer de respecter les différences de phase : c’est le Blumlein Pair. Ce système utilise deux microphones bidirectionnels placés à angle droit l'un par rapport à l'autre de sorte que leurs diagrammes de directivité se croisent à un angle de 90 degrés pour capturer une image sonore stéréo qui se veut réaliste et précise.

Cependant, en raison de problèmes de brevet et de la Seconde Guerre mondiale et même si les enregistreurs stéréophoniques vont exister rapidement puisque le premier enregistreur stéréophonique est le "Ampex Model 200", introduit par la société Ampex Corporation en 1948, le système de Blumlein n'a pas été largement utilisé avant les années 1950 et a alors eu rapidement à faire face à la concurrence des systèmes de captation (table de mixage) multi pistes puis carrément des systèmes d'acquisition multi pistes incorporant un magnétophone multipiste permettant de séparer les phases d'enregistrement et de “mixage” durant laquelle on va reconstruire la spatialisation des sources par le truchement du réglage panoramique.

Dans un système de captation multi pistes où l’on utilise une table multipiste, même si le support récepteur est simplement stéréophonique (une bande à deux pistes ou une matrice de disque vinyl), les captations se font à travers des microphones monophoniques puis sont mélangées et positionnées par le potentiomètre de panoramique entre les canaux de l’enregistreur stéréophonique par la modification uniquement de le niveau de signal injecté dans chaque canaux en fonction de la sensation de la position recherchée.

La période de l’enregistrement stéréophonique, captée en stéréophonie et enregistrée telle quelle, fut furtive. Certes, certains ont fait de la résistance, on ne peut pas tous les nommer. Simplement nous évoquerons André Charlin qui, à partir d’une tête stéréophonique, enregistrera pour sa propre compagnie de disques essentiellement de musique classique de 1963 à 1979.

 

André Charlin et son invention la "tête artificielle", le micro stéréophonique (Source Wikipedia)

La souplesse de l’enregistrement en multipistes est trop importante pour continuer à se contenter d’une simple captation stéréo. Par exemple, le système de captation utilisé pour l'enregistrement du disque "Kind of Blue" de Miles Davis en 1959, qui fait encore référence aujourd'hui pour sa qualité, est déjà basé sur un enregistrement en quatre pistes (sur une console de mixage analogique à tube de la marque Presto).

Les quatre pistes disponibles ont été utilisées de manière stratégique par l'ingénieur du son Fred Plaut, pour capturer les différents instruments et les solos des musiciens. La légende disant que, la première piste a été utilisée pour la batterie, la deuxième pour la contrebasse, la troisième pour la trompette de Miles, et la quatrième pour les saxophones de Coltrane et Cannonball Adderley et si la légende ne dit pas sur quelle piste était le piano, chaque instrument est au final renvoyé soit sur le canal de gauche soit sur celui de droite.

Les enregistrements vont devenir encore plus simples à réaliser pour les ingénieurs du son, parfois avec la tentation d’utiliser la matière sonore comme une base à travailler permettant l’expression d’une créativité et non plus comme un objet à sauvegarder et à transmettre.

Les enregistrements multipistes

La captation et l’enregistrement sonore en multipiste consiste à enregistrer chaque instrument ou voix séparément sur une piste audio distincte, afin de pouvoir les mixer ensuite pour créer la version finale de la chanson ou de la composition. Cette technique permet aux ingénieurs du son de contrôler le niveau de chaque élément sonore et de modifier leur balance pour créer un ensemble équilibré en fonction de l'effet recherché et non plus du niveau relatif de chacun des instruments. Un autre avantage de cette technique c’est qu’elle permet le choix des capteurs en fonction des sources, leur positionnement par une plus grande proximité est garante d’un son plus détaillé et moins pollué par les sons étrangers ou les réflexions de la salle. Le système permet de plus la souplesse d’enregistrer les sources en décalé, soit les musiciens les uns après les autres et ainsi de n’avoir à recommencer que la partie concernée par le musicien concerné en cas d’erreur ou de faiblesse dans l’interprétation.

 

L'utilisation de la captation sonore en multipiste a commencé dès les années 1950. Le premier enregistreur multipiste a été inventé par Les Paul, un célèbre guitariste et inventeur américain, en collaboration avec Ampex Corporation en 1955. Cet enregistreur était le "Ampex 8-Track Tape Recorder", également connu sous le nom de "Sel-Sync" (pour Selective Synchronous Recording). Le Sel-Sync permettait déjà l'enregistrement de huit pistes simultanées sur une bande magnétique de deux pouces de largeur. Les Beatles ont été parmi les premiers à utiliser des enregistreurs multipistes pour créer des chansons à plusieurs couches et des arrangements complexes.

La malédiction du bouton dit “Le Panoramique”

C’est dès 1938 que les studios Disney ont inventé le potentiomètre dit “Le Panoramique”. Le but est alors de permettre des réglages intermédiaires entre le tout à droite ou tout à gauche dans Fantasia, leur premier film diffusé initialement sur trois canaux dans un système nommé pour l'occasion Fantasound. Comme dans un panoramique cinématographique qui est un mouvement horizontal de la caméra sur son axe, le son doit pouvoir passer progressivement d'un côté à l'autre de l’écran.

La première table commerciale de mixage audio utilisant un panoramique a été la console de mixage Model 2 de la société britannique Decca Records. Cette console a été utilisée pour la première fois 20 ans plus tard, en 1958 lors de l'enregistrement de l'opéra "The Fairy Queen" de Henry Purcell.

Le panoramique a un rôle très précis, il doit par sa rotation distribuer le signal entre les deux voies gauche et droite de telle façon que le signal sonore est augmenté du côté de la rotation et diminué d’une même valeur sur l’autre voie . La puissance totale ne devant pas être modifiée.

Dans les positions intermédiaires la spatialisation des sources est approximative.

De plus à notre connaissance il n’a jamais été réalisé sur des populations représentatives  d’étude sur le lien entre la perception de la localisation de la source et la position du bouton.  La mise en œuvre de plus en plus commune d’enregistrement “musicien par musicien” dans des systèmes multipistes interdit la comparaison entre un son stéréophonique reconstitué et un son direct de l’ensemble des sources.

Cette situation où l'œil remplace l’oreille et où les références auditives acoustiques sont rares va créer un mode de réalisation d’enregistrement qui ne tient pas suffisamment  compte des sons originels.

Pour essayer de recréer une spatialisation sans utiliser de panoramique, nous avons testé trois systèmes créant nativement une stéréophonie.  Nous les comparerons ensuite à l’écoute acoustique des sources. 

Comparaison auditive de trois systèmes de captation et de la restitution à la réalité d’une situation physique

Notre expérimentation a pour but d’établir un différentiel entre les ressentis d’un auditeur dans la spatialisation de sources acoustiques et la reproduction de ces sources par un système de référence à partir de captation effectuée par des systèmes nativement stéréo.

Pour cela les sources seront placées en face de l’auditeur dans un angle de 100° et à une distance de 5 à 6 mètres environ dans la salle de cinéma de la ville de Carbonne en Occitanie.

La salle de l’expérimentation

La salle de cinéma de Carbone est une salle de 174 places. L’écran est placé au fond d’une scène de 7 mètres sur 15. Le sol de la salle et de la scène sont recouverts de moquette. La scène est entourée de rideau sur trois côtés placés à l'allemande. Un passage de 1.5 mètre existe entre la première rangée de sièges et le bord de scène. L’acoustique de la salle est mate sans être oppressante. La salle placée dans un environnement très calme est idéale pour ce type d’expérience.

Vérification de la capacité à localiser les sources naturelles depuis le premier rang

Un des auteurs s’est placé sur un fauteuil central de la première rangée en fermant les yeux, alors qu’un autre se tenait sur scène et prenait aléatoirement une des cinq positions de bases prédéterminées et déclarant : “Je suis là !”. Le spectateur au premier rang montre par la position du bras et de la main la localisation ressentie.

Le test est très rapide et extrêmement positif. La localisation pour l’auditeur du premier rang étant évidente à réaliser et un sans faute sur les réponses, le prouve. L’auditeur professionnel du son, paraît même surpris de la simplicité de l’expérience. Il déclare n’avoir aucune difficulté à localiser la voix qui se déplace et la main et le bras trouvent toujours l’angle exact correspondant à la localisation de la personne qui parle sur scène.

Dans la salle de Cinéma, notre auditeur-test au premier rang ressent donc la localisation d’une source acoustique placée à 5 mètres de lui avec précision et sans effort.

Par contre l’auditeur placé à 5 mètres des sources ne peut pas ressentir les variations de hauteur (position à genou ou sur le tabouret). Il fut donc décidé de ne pas traiter cet aspect.

Le dispositif du test comparatif

Le dispositif est composé de deux parties. Une première partie sur scène et une seconde en salle au niveau des 7 et 8ème rangs des sièges.

La partie du dispositif placée sur scène

Sur scène on trouve du matériel et des sources naturelles (Voix et création de son à partir de sources mécaniques). Le matériel est un ensemble de microphones et d’interfaces audio-numériques permettant l'acquisition des sources pour enregistrement.

Les microphones sur scène

  • Un microphone de type couple ORTF Superlux S502
  • Un couple de microphone Neumann K184 monté en couple XY avec des capsules cardioïdes appairées
  • Un arbre de Type Decca Tree (Arbre Decca) constitué de trois microphones Rode NT5 avec des capsules omnidirectionnelles
  • Un micro Rode Classic II en mode cardioïde pour des prises monos témoin de type

Sur l’image, on trouve, de gauche à droite l’arbre Decca, les deux couples Ortf et XY sur la même perche et le Rode Classic II en cardioïde.

 

Les axes des couples XY et ORTF sont placés à 2 mètres des sources acoustiques.

 

Les sources sur scènes

 

Placés à deux mètres des couples et en demi-cercle, cinq sources acoustiques sont chacune espacée de 90 cm. Sur scène à une distance de 3 mètres du bord de scène, cinq positions ont été déterminées à 1m50 les unes des autres. Telles que depuis la salle la première position à gauche est nommée : “Tout à gauche” puis en suivant les 4 autres positions sont respectivement nommée “Gauche”, “Centre”, “Droite” et “Tout à droite”.

 

Les sources acoustiques sur scène

Les événements auditifs du test comparatif

Les cinq sources sont représentées par cinq personnes physiques qui auront deux événements sonores à générer :

  1. Dire à haute voix le nom de leur position et leur mouvement ou action
  2. Mettre en mouvement une feuille de papier de façon à créer une source possédant des micro-déplacements.

Le premier évènement est essentiellement destiné à évaluer la capacité des enregistrements à recréer une position rappelant la position de la source naturelle et le second à évaluer la largeur de la source dans l'exécution des mêmes enregistrements.

Les résultats auditifs et les réflexions subjectives

La mémoire auditive étant de courte durée, généralement estimée entre 2 et 4 secondes [5], [6] nous avons placé un système d’écoute des enregistrements dans la salle et dans la continuité de la possibilité de re-faire exécuter les instructions aux sources naturelles pour pouvoir les comparer immédiatement aux sources virtuelles créées par les enceintes et issues des enregistrements.

Le système d’enregistrement et d’écoute dans la salle

Placée à 90° au niveau du troisième rang des sièges une paire de monitors Genelec 1030 A est affecté à l’écoute

Les niveaux issus de la lecture des enregistrements sur les enceintes sont réglés de telle sorte qu’ils soient équivalents aux niveaux des sources acoustiques.

Une première écoute est faite durant la captation des sources en plaçant les auditeurs sur les rangées une et deux. Puis les auditeurs se déplacent vers les rangs 4 et 5 de façon à rester centrés pour une écoute des enregistrements des 3 systèmes de captation en demandant aux sources de refaire une partie des déplacements afin de comparer dans les délais le plus bref possible.

Le couple superlux ORTF

 

Couple ORTF Superlux S502

Lien vidéo

Session 1 



Session 7



Présentation

Le couple de microphones ORTF remonte aux années 1960, lorsque l'ingénieur du son français, André Charlin a commencé à travailler sur un nouveau système dans le but de reproduire l'effet de localisation sonore naturelle de l'oreille humaine. Charlin a conçu un système de microphone stéréo qui utilisait deux microphones placés à une distance de 17 cm l'un de l'autre et inclinés à un angle de 110 degrés. Cette distance et cet angle ont été choisis pour correspondre à la distance moyenne entre les oreilles humaines et l'angle de convergence entre les lignes de visée de chaque oreille.

 

Aujourd'hui, le couple de microphones ORTF est largement utilisé dans l'industrie de la musique pour capturer des performances en direct, des concerts et des enregistrements en studio.

 

Caractéristiques de la prise de son stéréophonique

Le couple ORTF permet une captation qui va faire intervenir à la fois une stéréophonie liée au temps de propagation différents en canal droit et gauche car les deux capsules sont éloignées de 17cm et une stéréophonie d’intensité car les capsules possèdent des caractéristiques de directivité de type cardioïde. Il est donc utilisé dans l’espoir de pouvoir capter puis reproduire une spatialisation le plus proche de l’écoute directe des sources acoustiques.

 

Spatialisation

Premier auditeur

L’écoute des enregistrements du couple ORTF est dans un premier temps immersive. Mais très rapidement l’on s'aperçoit que les dimensions ne sont pas respectées. Si la source au centre est particulièrement facile à positionner, la source Droite se retrouve basculée sur la position identique à celles de Toute à droite et de même pour Gauche qui semble se superposer sur Toute à gauche. Un peu comme si le centre était très défini et précis en termes de position et qu'en s’écartant de cette position il y avait un basculement vers les extrêmes.

Deuxième auditeur

l’auditeur reconnaît que les positions intermédiaires ne sont pas parfaitement placées et renvoyées légèrement vers les extrêmes. Cependant, elles restent différentes des positions extrêmes même si elles s’en rapprochent.

Troisième auditeur

La scène sonore est homogène, et semble symétrique. On reconnait bien les positions mais la localisation reste imprécise.Peut-être y a-til un peu moins d’espace entre “tout à droite” et “droite” qu’entre “droite” et “centre”. Idem du côté gauche. J'ai également une sensation d’éloignement en profondeur qui augmente régulièrement quand on s’éloigne du centre. En augmentant le volume de 3 dB pour “gauche” et “droite” et de 6 dB pour “tout à gauche” et “tout à droite”, je retrouve la sensation que les protagonistes sont globalement sur une ligne droite, et non plus sur les côtés d’un triangle.

La feuille de papier semble à l'avant par rapport aux voix, mais impossible de dire si cela semble exagéré ou non, a part quand les protagonistes secouent énergiquement la feuille, la différence de volume crée alors un zoom net.

On entend bien les déplacement vers l’avant et l’arrière, principalement par l’effet de proximité des micros.


Cohérence de la largeur de l’image

Premier auditeur

Sur le test de la feuille de papier, le couple ORTF va sur le centre présenter une source très large allant de la gauche à la droite, alors que la voix est parfaitement contenue et centrée, la feuille de papier s’étire de la gauche à la droite comme si son mouvement était sur plusieurs mètres.

Ce phénomène de source large est atténué sur les autres positions puisque les sources étant exagérément basculées sur les extrêmes leur largeur est donc moins importante.

Deuxième auditeur

L’auditeur trouve effectivement que le test de la feuille de papier est très large pour la position centre. Il explique cet effet par la position de proximité de la source par rapport aux deux micros. Les quatres positions lui apparaissent au moins aussi cohérentes que les voies.

Troisième auditeur

La largeur correspond bien à l’espacement des enceintes. La scène sonore ne semble ni plus grande ni plus petite que cet écartement. J’entend une légère exagération de la largeur de la feuille de papier, quelques coups s’éloignent parfois légèrement du centre.

L’analyseur vient confirmer ces sensations. (répartition spectrale droite / gauche)

Conclusion

Le couple ORTF Superlux a un effet que l’on pourrait nommer d’étirement de la scène. Avec un effet de loupe sur la partie centrale où les sources restent très précises mais rapidement élargies dès qu'elles se déplacent même très peu, vers les côtés où là trop rapidement elles basculent vers les positions extrêmes.

 

Le couple YX

Couple XY de Neumann K184

Lien vidéo

Session 1



Session 7




Présentation

Le couple de microphones XY est une technique d'enregistrement stéréophonique qui utilise deux microphones cardioïdes placés de manière à ce que les capsules soient coincidentes avec une inclinaison de 90 degrés entre elles, formant ainsi un angle de même valeur.

Cette technique de microphone a été développée au cours des années 1930 et 1940 pour la radio et la télévision en direct, mais elle a été popularisée pour l'enregistrement stéréophonique dans les années 1950 et 1960. Elle est aujourd’hui la technique que l’on trouve sur l’ensemble des enregistreurs portables numériques, sans aucun doute en premier lieu pour sa compacité.

Dans notre cas, le couple XY est constitué de Neumann K184 appairés montés sur un support adapté.

Caractéristiques de la prise de son stéréophonique

Les deux capsules du couple XY sont alignées sur un même axe vertical. Il n’y a donc pas de différence de temps de programmation notable qui puisse être enregistré entre les deux canaux. C’est donc une stéréophonie d’intensité qui est captée. Les deux capsules étant de type cardioïde elles offrent une baisse de niveau de la captation en fonction de l’angle sous lequel se présente la source.

Spatialisation ressentie

Premier auditeur

La progressivité de la position ressentie de l'extrême gauche à l'extrême droite est juste. Cependant nous n’avons pas cet effet de précision de la localisation que l’on retrouve à l’écoute directe des sources et dans une certaine mesure sur la source centrale avec le couple ORTF.

Deuxième auditeur

La spatialisation semble correcte et représentative du positionnement effectif sans retrouver toutefois l’évidence des sources en écoutes directes.

Troisième auditeur

La scène sonore est homogène mais ne semble pas tout à fait symétrique. Les positions sont plus précises, mieux définies, mais “droite” et “tout à droite” sont presque confondue s, ce qui n’est pas le cas du côté gauche. L’analyseur spectral confirme cette sensation.

La feuille de papier semble située largement en avant plan par rapport aux voix, d’une maniere evidente, dû au fait du caractère peu périodique de leur son et de l’augmentation de volume. Les voix sont légèrement réverbérées mais le papier sonne très sec, ce qui le rapproche drastiquement. La sensation diminue si on ajoute une réverbération sur l’ensemble, ou si on atténue les transitoires. On entend bien les déplacements vers l’avant et l’arrière, principalement par l’effet de proximité des micros.

Cohérence de la largeur de l’image

Premier auditeur

La largeur est raisonnable. Le test de la feuille de papier ne renvoie pas l’écoute de l'extrême gauche à l'extrême droite. Ni trop étroite, ni trop large elle semble juste, même si encore par rapport au ressenti de l’écoute des sources en direct, elle n’est pas aussi juste et précise.

Deuxième auditeur

La largeur des sources est globalement correcte.

Troisième auditeur

La scène sonore semble réduite par rapport à l’écartement des enceintes. De fait, l’analyseur confirme que la répartition spectrale est moins large qu’avec le couple ORTF.

La feuille de papier ne semble pas exagérément large. J’ai la sensation de percevoir comment la feuille est secouée et de pouvoir l’imaginer.

Conclusion

Le couple XY présente une sensation de spatialisation équilibrée et de dimension raisonnable. Cependant par un manque de précision, il ne crée pas l'illusion d’une écoute en direct de sources naturelles. La raison pourrait en être qu’il existe un flou qui semble comme une aura autour de la position de la source.

L’Arbre Decca ou Decca Tree

 

Stand Typique Decca Tree

Lien vidéo

Session 1 

Session 7


Présentation

Le Decca Tree a été développé par la compagnie britannique Decca Records dans les années 1950. Il a été utilisé pour la première fois en 1954 pour enregistrer de la musique classique.

Le Decca Tree est basé sur une approche de captation dite "en trois points", qui consiste à utiliser trois microphones équidistants pour créer une image sonore stéréo large et précise. Les trois microphones sont placés en hauteur, à une distance égale les uns des autres, avec un angle de 60 à 90 degrés entre chaque paire de microphones.

Dans notre cas les microphones son des Rode NT5 équipés de capsule omnidirectionnelle TT 450-O calibrées en gain entre eux à partir d’une source de calibration.

Caractéristiques de la prise de son stéréophonique

Le Decca Tree mis en œuvre est légèrement différent de celui proposé habituellement, nous avons réduit les branches car la scène sonore enregistrée n’était pas un orchestre symphonique mais cinq sources uniquement.

La nature des capsules utilisées de type omnidirectionnelle ne vient pas mettre en avant une stéréophonie d’amplitude. Cependant avec une distance de 1.7m entre chaque micro il y a par rapport au couple ORTF une augmentation des différences temporelles entre les canaux droit et gauche. C’est donc comme une loupe des différences temporelles entre les deux canaux Gauche et Droit que peut être interprété son écoute, le canal central ayant pour rôle d’assurer plus de stabilité et de présence des sources en position centrale.

Réglage du mixage

La stéréophonie étant réalisée à partir de trois capteurs, une phase de mélange, même si celle-ci est triviale, est indispensable. Le micro gauche est affecté en totalité au canal gauche, le droit au canal droit et le micro central se voit affecter à 50% à chacun des canaux droite et gauche avec un ajustement de -3db de sa puissance

Spatialisation et localisation

Premier auditeur

Nous sommes ici dans une spatialisation qui est un peu à l’opposée de celle proposée par le couple ORTF. Les extrêmes à gauche et à droite sont bien positionnées alors que Gauche et Droit semblent trop centrés. Le Centre lui-même est flou et faiblement focalisé.

Deuxième auditeur

La spatialisation est décevante. gauche et droite sont renvoyées vers le centre.

Troisieme auditeur

La spatialisation est plus floue, et la scène sonore manque de cohérence. Les deux positions à gauche et les deux positions à droite sont à peu près confondues. Les positions extrêmes débordent simplement plus sur les côtés et les positions intermédiaires semblent un peu plus contenues.

Les voix sont plus réverbèrées. Les protagonistes semblent bien positionnés en ligne droite, il n’y en a pas un qui semble plus en arrière qu’un autre.

La feuille de papier se ballade allègrement entre la droite et la gauche comme un effet ping pong. En revanche, elle ne semble pas en avant-plan par rapport aux voix.

Cohérence de la largeur de l’image

Premier auditeur

Sur le test de la feuille de papier, nous retrouvons des caractéristiques qui peuvent sembler liées au type de spatialisation.Tout à gauche et Tout à droite sont contenus avec une image de taille raisonnable, Droite, Gauche et Centre présentent une taille imprécise s’étirant de l’enceinte gauche à l’enceinte droite.

Deuxième auditeur

La spatialisation est floue et la largeur de l’image n’est pas facilement déterminable.

Troisieme auditeur

La scène semble plus large, sans pour autant dépasser l'écartement des enceintes. On sent bien l’effet de la stéréophonie de phase en passant de l’arbre decca au couple XY sur la largeur de la scène.

Conclusion

L’arbre Decca est un système qui n’est plus très employé. Sa complexité de mise en œuvre en est sans doute responsable. Pourtant s’il semble peu efficace pour créer une spatialisation de l’espace médian, il est pertinent sur les extrêmes Droite et Gauche.

Comparaison des trois solutions

Il convient avant de livrer nos conclusions de replacer cette recherche sans son contexte et dans ces limites. Même pour des professionnels du son, il est difficile de comparer sans être impacté par la qualité globale des capsules et les capsules des trois solutions comparées ne sont pas identiques. C’est un biais que nous avons tenté de limiter en comparant le son enregistré en premier lieu avec le son des sources naturelles.

Aucune des solutions n’est apparue parfaitement capable de reproduire une spatialisation comparable à celle ressentie à l’écoute directe de sources naturelles. Chacune des trois solutions apparaît avoir ses points forts et ses points faibles.

Le couple ORTF semble presque réaliste sur la position centrale mais écrase les sources sur les positions extrêmes du côté où elles sont situées.

Le couple XY est plus équilibré, mais ne possède aucune position parfaite. Il est moyen “bon” partout dirons-nous. C’est quand même le moins mauvais compromis.

L’arbre Decca est lui très flou sur Gauche, Centre et Droit, mais possède une grande cohérence sur les positions Tout à Gauche et Tout à Droite.

Si nous faisons maintenant une tentative de placer ces écoutes en intégrant les notions de nature de stéréophonie soit d'amplitude soit de différences de temps de propagation, il semble que la stéréophonie d’amplitude (couple XY) soit plus facile à réaliser de manière satisfaisante. Elle donne un sentiment global d’équilibre. La cohérence de la largeur de l’image est aussi plus acceptable. Sur les prises faisant intervenir davantage la stéréophonie liée à la différence de temps de propagation les images Droite et Gauche sont pour le couple ORTF comme basculées soit tout à gauche soit tout à droite soit au contraire pour le Decca Tree très étirées au centre. Nous comprenons alors le succès de cette solution dans les enregistreurs portables.

Cependant, notre conclusion ne peut être complète sans rappeler qu’aucunes de ces solutions n’est capable de représenter la réalité de la spatialisation ressentie à l’écoute des sources naturelles.

 

Conclusion

Ce travail d’écoute et d’enregistrement a été fait avec sérieux, en essayant de ne se focaliser uniquement sur les caractéristiques de spatialisation des trois systèmes.

Nous devons avant de conclure rappeler toutes les limites de notre expérimentation: les trois systèmes n'étaient pas composés des mêmes capsules, les auditeurs bien que professionnels du son ne sont pas un échantillon représentatif de la population mondiale, la répétition des mêmes scènes par les sources naturelles n’était jamais exactement identiques à celles enregistrées, le matériel d’écoute possède aussi des limites. Et au final la perception de la spatialisation est un phénomène subjectif comme toute perception, il faut donc rester humble et ne pas conclure trop définitivement.

Cependant, il nous apparaît que cette expérimentation a un intérêt; celui de nous rappeler la complexité de notre capacité à “voir avec les oreilles” d’un système que [7] Jean Hiraga appelait “le décodeur de complexité infinie qu’est le système binauriculaire humain” et les faiblesses relatives de trois systèmes testés ici, qui prétendent essayer de nous redonner “à voir” des enregistrements sonores à partir d’une source stéréophonique.

Mais aussi de nous amener la confirmation que la stéréophonie recréée par des différences de niveau uniquement entre les deux canaux est un compromis très imparfait mais dont la simplicité de mise en œuvre dans le matériel actuel permet des résultats qui présentent à l’écoute une certaine cohérence et un certain équilibre.

 

Bibliographie

[1] Blauert, J. (1997). Spatial hearing: the psychophysics of human sound localization. MIT Press.

[2] Middlebrooks, J. C. (1999). Auditory system: peripheral mechanisms and organization. Current Opinion in Neurobiology, 9(4), 475-481.

[3] Joris, P. X. (1996). Envelope coding in the lateral superior olive. I. Sensitivity to interaural time differences. Journal of Neurophysiology, 76(2), 213-232.

[4] Colburn, H. S. (1977). Theory of binaural interaction based on auditory‐nerve data. The Journal of the Acoustical Society of America, 61(2), 525-533.

[5] Cowan, N. (1995). Attention and memory: An integrated framework. Oxford University Press.

[6] Darwin, C.J., Turvey, M.T. & Crowder, R.G. (1972). An auditory analogue of the sperling partial report procedure: Evidence for brief auditory storage. Cognitive Psychology, 3(2), 255-267. https://doi.org/10.1016/0010-0285(72)90015-7

[7] Hiraga, Jean, Nouvelle Revue du Son (1977) numéro 7 et 8. https://www.lesonbinaural.fr/EDIT/DOCS/hiraga_nrds_n%C2%B07et8_1977.PDF Consulté le 24/01/2023

 


Commentaires