Comparaison de trois systèmes de captation sonore nativement stéréo avec l’écoute en direct des sources
Comparaison de trois systèmes de captation sonore
nativement stéréo avec l’écoute en direct des
sources acoustiques
Télécharger le document en pdf
Christian Belbeze - Nicolas Lesaint - Benoit Soula
Christian@belbeze.com, saxobar@me.com, sbsons@hotmail.com
Mars 2023
Remerciements
Nous remercions la mairie de Carbonne pour
nous avoir permis l’accès à la salle de Cinéma dans des conditions très
favorables et Lily Belbèze pour le montage des vidéos.
Abstract
This paper deals
with the subjective comparison of three sound recording systems and their
ability to subsequently reproduce a stereo image upon playback on a stereo
system in such a way that listeners can perceive spatialization with precision
of horizontal source placement, physical width of sources, or their
micro-movements, as closely as possible to that experienced when listening to
organic or mechanical sources directly.
After a brief
overview of the history of stereophony, the elements allowing sound
localization, and the notion of panning, the experimenters propose a
comparative recording and listening test of an Ortf pair, an XY pair, and a
Decca tree with three sensors.
The conclusion of
the test is that each system has strengths and weaknesses. The XY pair
represents, nevertheless, a compromise of quality under the test conditions.
Résumé
Cet article traite de la comparaison subjective de trois systèmes d'acquisition sonore et de leur capacité à ensuite reproduire à la réécoute sur un système stéréo une image stéréo de telle façon que les auditeurs puissent avoir l’impression de spatialisation tant en précision de placement des sources horizontalement que de largeur physique des sources ou leurs micro-déplacements, la plus proche possible de celle ressentie à l’écoute de sources organiques ou mécaniques directement.
Après un rapide rappel de l’histoire de la stéréophonie, des éléments permettant la localisation d’un son et de la notion de panoramique, les expérimentateurs proposent un test d’enregistrement et d’écoute comparative d’ un couple Ortf, un couple XY et un arbre Decca à trois capteurs.
La conclusion du test nous apparaît être que chacun des systèmes présente des caractéristiques différentes. Le couple XY est quand même dans les conditions du test et sur le respect de la spatialisation un compromis intéressant.
Introduction
Les techniques
d’enregistrement ont depuis plusieurs années considérablement évoluées. Et le
passage au numérique est aujourd’hui total. Il existe aussi une standardisation
de la mise en oeuvre des microphones durant la phase de captation: les
microphones sont placés à proximité des sources de façon à relever un maximum
de détails et de grain, de permettre un choix de microphone adapté à la source
tant pour ce qui est du niveau que du respect du timbre , de la bande passante
nécessaire, par choix esthétique du rendu final et en fonction de la
disponibilité de ceux-ci dans le parc de microphone.
Les différentes pistes captées en monophonie pour la plupart sont ensuite positionnées par le réglage panoramique des tables de mixage pour recomposer une “image” parfois nommée fantôme de la position relative des sources entre elles.
Ce procédé de
spatialisation aussi efficace soit-il n’est pas satisfaisant pour un grand
nombre d'auditeurs et d'audiophiles qui recherchent la sensation la plus proche
possible de celle ressentie à l’écoute directe de la source originale. En effet
la comparaison du résultat final de ce mixage ainsi traité n’est en rien
comparable dans sa capacité de nous permettre la localisation à celle d’une
écoute directe de la source ou des sources originelles.
En 2023, le marché de l’écoute de musique s'est clairement séparé en deux. Une partie des écoutes se faisant à partir de fichiers compressés sur une enceinte monophonique et une autre partie étant des écoutes stéréophoniques à partir de fichiers en qualité studio la plupart du temps échantillonnés en 24 bits et 96 kHz . C’est pour ce second marché qu’il est apparu important de mieux cerner les capacités des enregistrements à recréer une spatialisation cohérente.
Notre cerveau recherche en permanence la localisation des sons. La capacité de localisation d’un son est un phénomène complexe qui n’est pas uniquement lié à des différences de niveau droite/gauche mais aussi à la position physique de l’auditeur qui s’accompagne d’une différence temporelle entre l’onde sonore provenant d’une source unique mais avec des temps différents fonction de la distance entre l’oreille gauche et l’oreille droite.
Une solution simple pour tenter de “retrouver” ces informations de décalage temporel entre les deux canaux stéréophoniques est d’utiliser un système de captation lui-même stéréophonique. Oui mais lequel ? car il en existe plusieurs.
C’est à partir de ces considérations que nous avons décidé de mener une recherche comparative sur trois systèmes de captation, présentant par nature la possibilité de recréer une spatialisation totale en tenant compte de la phase des signaux, des réflexions naturelles de la salle et du sol et bien sûr des variations de niveau gauche\droite.
Nous avons ainsi comparé un couple de micro de type ORTF, un couple dit XY et un ensemble de trois micros combinés de telle sorte que l’on peut nommer cet ensemble : un arbre Decca ou Decca Tree. Les différents systèmes ont permis d’enregistrer des sources sonores mobiles qui ont répété leur mouvement de façon à permettre une comparaison entre la sensation de spatialisation créée par les sources en écoute directe et la sensation de spatialisation à l’écoute des enregistrements.
Avertissement
au lecteur
Ce travail de recherche ne prétend pas être un travail de référence. Il est une tentative d’exploration subjective de la capacité actuelle par trois expérimentateurs professionnels et passionnés du son, à ressentir la spatialisation de sources physiques organiques que nous nommerons “naturelles” en les comparant à des sources recréées électriquement à travers un système de reproduction stéréophonique à partir d’une captation par microphones .
Nous n’avons pas, pour des raisons évidentes de moyen, effectué ces tests sur un échantillon de population représentatif et devant la difficulté à transmettre nos sensations renoncé, bien que l’ayant probablement prévu, à remplir des questionnaires comparatifs.
Ce travail est donc en quelque sorte une pré-exploration subjective et nous reconnaissons humblement un nombre de carences importantes par rapport à un travail de recherche abouti. Cependant, devant l'absence totale de publication sur ce sujet, il nous a semblé intéressant de publier un article présentant notre démarche et nos conclusions. De plus, la disponibilité des enregistrements audios et vidéos permet aux lecteurs d’analyser leurs propres sensations de spécialisations sur les sources virtuelles ainsi créées. Le son des trois prises a été reporté sur les images d’une session sans aucune modification, equalisation ou compression.
Il ne faut pas oublier que les écoutes comparatives ont été réalisées uniquement sur des enceintes et non avec un casque ou des écouteurs.
Contexte
et état de l’art
Il est primordial
de comprendre comment le travail des ingénieurs du son a évolué afin d’offrir
plus de confort et de capacité créative aux musiciens mais sans tenir
suffisamment compte de la complexité du système auditif dans ses capacités de
localisation sonore.
Pour cela il est indispensable de bien faire la différence entre écoute stéréophonique et captation stéréophonique.
La
localisation de l'origine d’un son par les systèmes auditif et cognitif humains
Les systèmes auditif et cognitif humains utilisent plusieurs informations pour localiser une source sonore. Tout d'abord, la localisation de la source sonore peut être déterminée à partir de la différence de temps d'arrivée du son à chaque oreille. En effet, le son atteint l'oreille la plus proche en premier, créant ainsi un léger décalage temporel entre les deux oreilles. On parle de stéréophonie de phase.
De plus, la localisation de la source sonore peut également être déterminée à partir de la différence d'intensité sonore entre les deux oreilles. Cette différence d’intensité est causée par les perturbations liées à la présence de la tête dans le champ sonore. On parle de stéréophonie d’intensité. La présence de la tête ainsi que du corps de l’auditeur dans le champ sonnore est modélisée dans une fonction mathématique nommée la fonction de transfert relative à la tête ou HRTF.
En outre, la localisation peut être évaluée par l’auditeur en fonction de son expérience et de sa connaissance des lieux et des interactions entre la source et ce lieu.
En combinant ces
différentes informations, les systèmes auditif et cognitif humains peuvent
localiser de manière fiable une source sonore dans l'environnement sonore
complexe qui nous entoure.
L’écoute
en stéréophonie
La stéréophonie, ou "stéréo", est une technique d'enregistrement et de reproduction du son qui utilise deux canaux audio distincts pour créer une impression de son spatial.
L'histoire de la stéréophonie remonte au début du 20ème siècle, lorsque des ingénieurs et des chercheurs ont commencé à explorer des méthodes pour capturer et reproduire le son en deux, voire trois dimensions. La première tentative enregistrée de recréer un son stéréophonique a été faite par le Français Clément Ader en 1881, mais cette expérience qui n’était pas liée à la restitution d’un enregistrement mais était le transport de message sonore d’une salle vers une autre dans une autre salle, n'a pas eu de répercussion commerciale.
La première utilisation commerciale de la stéréophonie a eu lieu en 1957 avec la sortie de l'album "Stereo Demonstration Record" de la société Audio Fidelity Records. Cet album d’évangélisation a été produit pour démontrer les capacités de la stéréophonie et pour inciter les consommateurs à acheter des équipements de reproduction stéréo. C’est à partir de 1958 que les disques deviennent stéréophoniques.
Du côté des radios, la première radio à émettre en stéréo était la station de radio publique américaine WEFM, basée à Chicago. Le 1er juin 1961, WEFM a diffusé un programme en stéréo pour la première fois de l'histoire de la radio. Le premier poste récepteur de radio stéréophonique à avoir été commercialisé est le modèle 8X-500 de la marque américaine Motorola en 1958. La même année, la compagnie américaine RCA Victor commercialise le premier système de lecture de disque en stéréo.
A partir du début des années 1960, écouter en stéréophonie est devenue chose possible et l'industrie musicale l’a rapidement et largement adoptée tant les fabricants de disques vinyles que les stations de radio.
Aujourd'hui, la stéréophonie est une caractéristique standard de la plupart des équipements audio et vidéo, y compris les systèmes de sonorisation pour les événements en direct et les concerts.
Dans les premiers enregistrements stéréophoniques les sources sont positionnées soit sur le canal droit soit sur celui de gauche. Cela pour des raisons de limite du matériel d’enregistrement et aussi pour que l’écoute en monophonie ne soit pas dégradée, car un grand nombre d'écoutes se font encore sur des systèmes monophoniques.
Ce n’est que petit à petit avec l’arrivée de la chaîne stéréophonique dans les foyers vers le milieu des années soixante, les disques seront véritablement stéréophoniques en plaçant les sources sonores dans des positions intermédiaires.
On ne peut finir ce chapitre sans parler des nouvelles technologies multi-canaux. Si ces solutions, au départ développées pour le cinéma, sont aujourd’hui parfois utilisées pour enregistrer et écouter de la musique, elles ne font pas partie de cette étude.
Les
débuts de la captation sonore en stéréo
La stéréophonie d'enregistrements et de restitution a été inventée dans les années 1930 par le chercheur britannique Alan Blumlein. Il a conçu un système d'enregistrement et de lecture à deux canaux qui permettait de reproduire une image sonore réaliste. Dès sa conception Alan Blumlein va proposer un système de captation qui va essayer de respecter les différences de phase : c’est le Blumlein Pair. Ce système utilise deux microphones bidirectionnels placés à angle droit l'un par rapport à l'autre de sorte que leurs diagrammes de directivité se croisent à un angle de 90 degrés pour capturer une image sonore stéréo qui se veut réaliste et précise.
Cependant, en raison de problèmes de brevet et de la Seconde Guerre mondiale et même si les enregistreurs stéréophoniques vont exister rapidement puisque le premier enregistreur stéréophonique est le "Ampex Model 200", introduit par la société Ampex Corporation en 1948, le système de Blumlein n'a pas été largement utilisé avant les années 1950 et a alors eu rapidement à faire face à la concurrence des systèmes de captation (table de mixage) multi pistes puis carrément des systèmes d'acquisition multi pistes incorporant un magnétophone multipiste permettant de séparer les phases d'enregistrement et de “mixage” durant laquelle on va reconstruire la spatialisation des sources par le truchement du réglage panoramique.
Dans un système de captation multi pistes où l’on utilise une table multipiste, même si le support récepteur est simplement stéréophonique (une bande à deux pistes ou une matrice de disque vinyl), les captations se font à travers des microphones monophoniques puis sont mélangées et positionnées par le potentiomètre de panoramique entre les canaux de l’enregistreur stéréophonique par la modification uniquement de le niveau de signal injecté dans chaque canaux en fonction de la sensation de la position recherchée.
La période de
l’enregistrement stéréophonique, captée en stéréophonie et enregistrée telle
quelle, fut furtive. Certes, certains ont fait de la résistance, on ne peut pas
tous les nommer. Simplement nous évoquerons André Charlin qui, à partir d’une
tête stéréophonique, enregistrera pour sa propre compagnie de disques
essentiellement de musique classique de 1963 à 1979.
André Charlin et son invention la "tête artificielle", le micro stéréophonique (Source Wikipedia)
La souplesse de l’enregistrement en multipistes est trop importante pour continuer à se contenter d’une simple captation stéréo. Par exemple, le système de captation utilisé pour l'enregistrement du disque "Kind of Blue" de Miles Davis en 1959, qui fait encore référence aujourd'hui pour sa qualité, est déjà basé sur un enregistrement en quatre pistes (sur une console de mixage analogique à tube de la marque Presto).
Les quatre pistes disponibles ont été utilisées de manière stratégique par l'ingénieur du son Fred Plaut, pour capturer les différents instruments et les solos des musiciens. La légende disant que, la première piste a été utilisée pour la batterie, la deuxième pour la contrebasse, la troisième pour la trompette de Miles, et la quatrième pour les saxophones de Coltrane et Cannonball Adderley et si la légende ne dit pas sur quelle piste était le piano, chaque instrument est au final renvoyé soit sur le canal de gauche soit sur celui de droite.
Les enregistrements
vont devenir encore plus simples à réaliser pour les ingénieurs du son, parfois
avec la tentation d’utiliser la matière sonore comme une base à travailler
permettant l’expression d’une créativité et non plus comme un objet à
sauvegarder et à transmettre.
Les
enregistrements multipistes
La captation et
l’enregistrement sonore en multipiste consiste à enregistrer chaque instrument
ou voix séparément sur une piste audio distincte, afin de pouvoir les mixer
ensuite pour créer la version finale de la chanson ou de la composition. Cette
technique permet aux ingénieurs du son de contrôler le niveau de chaque élément
sonore et de modifier leur balance pour créer un ensemble équilibré en fonction
de l'effet recherché et non plus du niveau relatif de chacun des instruments.
Un autre avantage de cette technique c’est qu’elle permet le choix des capteurs
en fonction des sources, leur positionnement par une plus grande proximité est
garante d’un son plus détaillé et moins pollué par les sons étrangers ou les
réflexions de la salle. Le système permet de plus la souplesse d’enregistrer
les sources en décalé, soit les musiciens les uns après les autres et ainsi de
n’avoir à recommencer que la partie concernée par le musicien concerné en cas
d’erreur ou de faiblesse dans l’interprétation.
L'utilisation de la
captation sonore en multipiste a commencé dès les années 1950. Le premier
enregistreur multipiste a été inventé par Les Paul, un célèbre guitariste et
inventeur américain, en collaboration avec Ampex Corporation en 1955. Cet
enregistreur était le "Ampex 8-Track Tape Recorder", également connu
sous le nom de "Sel-Sync" (pour Selective Synchronous Recording). Le
Sel-Sync permettait déjà l'enregistrement de huit pistes simultanées sur une
bande magnétique de deux pouces de largeur. Les Beatles ont été parmi les
premiers à utiliser des enregistreurs multipistes pour créer des chansons à
plusieurs couches et des arrangements complexes.
La
malédiction du bouton dit “Le Panoramique”
C’est dès 1938 que les studios Disney ont inventé le potentiomètre dit “Le Panoramique”. Le but est alors de permettre des réglages intermédiaires entre le tout à droite ou tout à gauche dans Fantasia, leur premier film diffusé initialement sur trois canaux dans un système nommé pour l'occasion Fantasound. Comme dans un panoramique cinématographique qui est un mouvement horizontal de la caméra sur son axe, le son doit pouvoir passer progressivement d'un côté à l'autre de l’écran.
La première table commerciale de mixage audio utilisant un panoramique a été la console de mixage Model 2 de la société britannique Decca Records. Cette console a été utilisée pour la première fois 20 ans plus tard, en 1958 lors de l'enregistrement de l'opéra "The Fairy Queen" de Henry Purcell.
Le panoramique a un rôle très précis, il doit par sa rotation distribuer le signal entre les deux voies gauche et droite de telle façon que le signal sonore est augmenté du côté de la rotation et diminué d’une même valeur sur l’autre voie . La puissance totale ne devant pas être modifiée.
Dans les positions intermédiaires la spatialisation des sources est approximative.
De plus à notre connaissance il n’a jamais été réalisé sur des populations représentatives d’étude sur le lien entre la perception de la localisation de la source et la position du bouton. La mise en œuvre de plus en plus commune d’enregistrement “musicien par musicien” dans des systèmes multipistes interdit la comparaison entre un son stéréophonique reconstitué et un son direct de l’ensemble des sources.
Cette situation où l'œil remplace l’oreille et où les références auditives acoustiques sont rares va créer un mode de réalisation d’enregistrement qui ne tient pas suffisamment compte des sons originels.
Pour essayer de recréer une spatialisation sans utiliser de panoramique, nous avons testé trois systèmes créant nativement une stéréophonie. Nous les comparerons ensuite à l’écoute acoustique des sources.
Comparaison
auditive de trois systèmes de captation et de la restitution à la réalité d’une
situation physique
Notre expérimentation a pour but d’établir un différentiel entre les ressentis d’un auditeur dans la spatialisation de sources acoustiques et la reproduction de ces sources par un système de référence à partir de captation effectuée par des systèmes nativement stéréo.
Pour cela les sources seront placées en face de l’auditeur dans un angle de 100° et à une distance de 5 à 6 mètres environ dans la salle de cinéma de la ville de Carbonne en Occitanie.
La
salle de l’expérimentation
La salle de cinéma
de Carbone est une salle de 174 places. L’écran est placé au fond d’une scène
de 7 mètres sur 15. Le sol de la salle et de la scène sont recouverts de
moquette. La scène est entourée de rideau sur trois côtés placés à l'allemande.
Un passage de 1.5 mètre existe entre la première rangée de sièges et le bord de
scène. L’acoustique de la salle est mate sans être oppressante. La salle placée
dans un environnement très calme est idéale pour ce type d’expérience.
Vérification
de la capacité à localiser les sources naturelles depuis le premier rang
Un des auteurs s’est placé sur un fauteuil central de la première rangée en fermant les yeux, alors qu’un autre se tenait sur scène et prenait aléatoirement une des cinq positions de bases prédéterminées et déclarant : “Je suis là !”. Le spectateur au premier rang montre par la position du bras et de la main la localisation ressentie.
Le test est très rapide et extrêmement positif. La localisation pour l’auditeur du premier rang étant évidente à réaliser et un sans faute sur les réponses, le prouve. L’auditeur professionnel du son, paraît même surpris de la simplicité de l’expérience. Il déclare n’avoir aucune difficulté à localiser la voix qui se déplace et la main et le bras trouvent toujours l’angle exact correspondant à la localisation de la personne qui parle sur scène.
Dans la salle de Cinéma, notre auditeur-test au premier rang ressent donc la localisation d’une source acoustique placée à 5 mètres de lui avec précision et sans effort.
Par contre l’auditeur placé à 5 mètres des sources ne peut pas ressentir les variations de hauteur (position à genou ou sur le tabouret). Il fut donc décidé de ne pas traiter cet aspect.
Le
dispositif du test comparatif
Le dispositif est
composé de deux parties. Une première partie sur scène et une seconde en salle
au niveau des 7 et 8ème rangs des sièges.
La
partie du dispositif placée sur scène
Sur scène on trouve
du matériel et des sources naturelles (Voix et création de son à partir de
sources mécaniques). Le matériel est un ensemble de microphones et d’interfaces
audio-numériques permettant l'acquisition des sources pour enregistrement.
Les microphones sur scène
- Un microphone de type couple ORTF Superlux S502
- Un couple de microphone Neumann K184 monté en couple XY avec des capsules cardioïdes appairées
- Un arbre de Type Decca Tree (Arbre Decca) constitué de trois microphones Rode NT5 avec des capsules omnidirectionnelles
- Un micro Rode Classic II en mode cardioïde pour des prises monos témoin de type
Sur l’image, on
trouve, de gauche à droite l’arbre Decca, les deux couples Ortf et XY sur la
même perche et le Rode Classic II en cardioïde.
Les axes des couples XY et ORTF sont placés à 2 mètres
des sources acoustiques.
Les
sources sur scènes
Placés à deux
mètres des couples et en demi-cercle, cinq sources acoustiques sont chacune
espacée de 90 cm. Sur scène à une distance de 3 mètres du bord de scène, cinq
positions ont été déterminées à 1m50 les unes des autres. Telles que depuis la
salle la première position à gauche est nommée : “Tout à gauche” puis en
suivant les 4 autres positions sont respectivement nommée “Gauche”, “Centre”,
“Droite” et “Tout à droite”.
Les sources acoustiques sur scène
Les événements auditifs du test comparatif
Les cinq sources sont représentées par cinq
personnes physiques qui auront deux événements sonores à générer :
- Dire à haute
voix le nom de leur position et leur mouvement ou action
- Mettre en mouvement une feuille de papier de façon à créer une source possédant des micro-déplacements.
Le premier évènement est essentiellement destiné à évaluer la capacité des enregistrements à recréer une position rappelant la position de la source naturelle et le second à évaluer la largeur de la source dans l'exécution des mêmes enregistrements.
Les
résultats auditifs et les réflexions subjectives
La mémoire auditive étant de courte durée, généralement estimée entre 2 et 4 secondes [5], [6] nous avons placé un système d’écoute des enregistrements dans la salle et dans la continuité de la possibilité de re-faire exécuter les instructions aux sources naturelles pour pouvoir les comparer immédiatement aux sources virtuelles créées par les enceintes et issues des enregistrements.
Le système d’enregistrement et
d’écoute dans la salle
Placée à 90° au niveau du troisième rang des sièges une paire de monitors Genelec 1030 A est affecté à l’écoute
Les niveaux issus de la lecture des enregistrements sur les enceintes sont réglés de telle sorte qu’ils soient équivalents aux niveaux des sources acoustiques.
Une première écoute est faite durant la captation des sources en plaçant les auditeurs sur les rangées une et deux. Puis les auditeurs se déplacent vers les rangs 4 et 5 de façon à rester centrés pour une écoute des enregistrements des 3 systèmes de captation en demandant aux sources de refaire une partie des déplacements afin de comparer dans les délais le plus bref possible.
Le couple superlux ORTF
Couple ORTF Superlux S502
Lien vidéo
Présentation
Le couple de
microphones ORTF remonte aux années 1960, lorsque l'ingénieur du son français,
André Charlin a commencé à travailler sur un nouveau système dans le but de
reproduire l'effet de localisation sonore naturelle de l'oreille humaine.
Charlin a conçu un système de microphone stéréo qui utilisait deux microphones
placés à une distance de 17 cm l'un de l'autre et inclinés à un angle de 110
degrés. Cette distance et cet angle ont été choisis pour correspondre à la
distance moyenne entre les oreilles humaines et l'angle de convergence entre
les lignes de visée de chaque oreille.
Aujourd'hui, le
couple de microphones ORTF est largement utilisé dans l'industrie de la musique
pour capturer des performances en direct, des concerts et des enregistrements
en studio.
Caractéristiques
de la prise de son stéréophonique
Le couple ORTF
permet une captation qui va faire intervenir à la fois une stéréophonie liée au
temps de propagation différents en canal droit et gauche car les deux capsules
sont éloignées de 17cm et une stéréophonie d’intensité car les capsules
possèdent des caractéristiques de directivité de type cardioïde. Il est donc
utilisé dans l’espoir de pouvoir capter puis reproduire une spatialisation le
plus proche de l’écoute directe des sources acoustiques.
Spatialisation
Premier
auditeur
L’écoute des
enregistrements du couple ORTF est dans un premier temps immersive. Mais très
rapidement l’on s'aperçoit que les dimensions ne sont pas respectées. Si la
source au centre est particulièrement facile à positionner, la source Droite se
retrouve basculée sur la position identique à celles de Toute à droite et de
même pour Gauche qui semble se superposer sur Toute à gauche. Un peu comme si
le centre était très défini et précis en termes de position et qu'en s’écartant
de cette position il y avait un basculement vers les extrêmes.
Deuxième
auditeur
l’auditeur reconnaît que les positions intermédiaires ne sont pas parfaitement placées et renvoyées légèrement vers les extrêmes. Cependant, elles restent différentes des positions extrêmes même si elles s’en rapprochent.
Troisième auditeur
La scène sonore est homogène, et semble
symétrique. On reconnait bien les positions mais la localisation reste
imprécise.Peut-être y a-til un peu moins d’espace entre “tout à droite” et
“droite” qu’entre “droite” et “centre”. Idem du côté gauche. J'ai également une
sensation d’éloignement en profondeur qui augmente régulièrement quand on
s’éloigne du centre. En augmentant le volume de 3 dB pour “gauche” et “droite”
et de 6 dB pour “tout à gauche” et “tout à droite”, je retrouve la sensation
que les protagonistes sont globalement sur une ligne droite, et non plus sur
les côtés d’un triangle.
La feuille de papier semble à l'avant par
rapport aux voix, mais impossible de dire si cela semble exagéré ou non, a part
quand les protagonistes secouent énergiquement la feuille, la différence de
volume crée alors un zoom net.
On entend bien les déplacement vers l’avant et l’arrière, principalement par l’effet de proximité des micros.
Cohérence
de la largeur de l’image
Premier
auditeur
Sur le test de la
feuille de papier, le couple ORTF va sur le centre présenter une source très
large allant de la gauche à la droite, alors que la voix est parfaitement
contenue et centrée, la feuille de papier s’étire de la gauche à la droite
comme si son mouvement était sur plusieurs mètres.
Ce phénomène de source large est atténué sur les autres positions puisque les sources étant exagérément basculées sur les extrêmes leur largeur est donc moins importante.
Deuxième
auditeur
L’auditeur trouve effectivement que le test de la feuille de papier est très large pour la position centre. Il explique cet effet par la position de proximité de la source par rapport aux deux micros. Les quatres positions lui apparaissent au moins aussi cohérentes que les voies.
Troisième auditeur
La largeur correspond bien à l’espacement des
enceintes. La scène sonore ne semble ni plus grande ni plus petite que cet
écartement. J’entend une légère exagération de la largeur de la feuille de
papier, quelques coups s’éloignent parfois légèrement du centre.
L’analyseur vient confirmer ces sensations. (répartition spectrale droite / gauche)
Conclusion
Le couple ORTF
Superlux a un effet que l’on pourrait nommer d’étirement de la scène. Avec un
effet de loupe sur la partie centrale où les sources restent très précises mais
rapidement élargies dès qu'elles se déplacent même très peu, vers les côtés où
là trop rapidement elles basculent vers les positions extrêmes.
Le couple YX
Couple XY de Neumann K184
Lien vidéo
Présentation
Le couple de microphones XY est une technique d'enregistrement stéréophonique qui utilise deux microphones cardioïdes placés de manière à ce que les capsules soient coincidentes avec une inclinaison de 90 degrés entre elles, formant ainsi un angle de même valeur.
Cette technique de microphone a été développée au cours des années 1930 et 1940 pour la radio et la télévision en direct, mais elle a été popularisée pour l'enregistrement stéréophonique dans les années 1950 et 1960. Elle est aujourd’hui la technique que l’on trouve sur l’ensemble des enregistreurs portables numériques, sans aucun doute en premier lieu pour sa compacité.
Dans notre cas, le
couple XY est constitué de Neumann K184 appairés
montés sur un support adapté.
Caractéristiques
de la prise de son stéréophonique
Les deux capsules
du couple XY sont alignées sur un même axe vertical. Il n’y a donc pas de
différence de temps de programmation notable qui puisse être enregistré entre
les deux canaux. C’est donc une stéréophonie d’intensité qui est captée. Les
deux capsules étant de type cardioïde elles offrent une baisse de niveau de la
captation en fonction de l’angle sous lequel se présente la source.
Spatialisation
ressentie
Premier auditeur
La progressivité de la position ressentie de l'extrême gauche à l'extrême droite est juste. Cependant nous n’avons pas cet effet de précision de la localisation que l’on retrouve à l’écoute directe des sources et dans une certaine mesure sur la source centrale avec le couple ORTF.
Deuxième
auditeur
La spatialisation semble correcte et représentative du positionnement effectif sans retrouver toutefois l’évidence des sources en écoutes directes.
Troisième auditeur
La scène sonore est homogène mais ne semble
pas tout à fait symétrique. Les positions sont plus précises, mieux définies,
mais “droite” et “tout à droite” sont presque confondue s, ce qui n’est pas le
cas du côté gauche. L’analyseur spectral confirme cette sensation.
La feuille de papier semble située largement en avant plan par rapport aux voix, d’une maniere evidente, dû au fait du caractère peu périodique de leur son et de l’augmentation de volume. Les voix sont légèrement réverbérées mais le papier sonne très sec, ce qui le rapproche drastiquement. La sensation diminue si on ajoute une réverbération sur l’ensemble, ou si on atténue les transitoires. On entend bien les déplacements vers l’avant et l’arrière, principalement par l’effet de proximité des micros.
Cohérence
de la largeur de l’image
Premier
auditeur
La largeur est raisonnable. Le test de la feuille de papier ne renvoie pas l’écoute de l'extrême gauche à l'extrême droite. Ni trop étroite, ni trop large elle semble juste, même si encore par rapport au ressenti de l’écoute des sources en direct, elle n’est pas aussi juste et précise.
Deuxième
auditeur
La largeur des sources est globalement correcte.
Troisième auditeur
La scène sonore semble réduite par rapport à
l’écartement des enceintes. De fait, l’analyseur confirme que la répartition
spectrale est moins large qu’avec le couple ORTF.
La feuille de papier ne semble pas exagérément large. J’ai la sensation de percevoir comment la feuille est secouée et de pouvoir l’imaginer.
Conclusion
Le couple XY présente une sensation de spatialisation équilibrée et de dimension raisonnable. Cependant par un manque de précision, il ne crée pas l'illusion d’une écoute en direct de sources naturelles. La raison pourrait en être qu’il existe un flou qui semble comme une aura autour de la position de la source.
L’Arbre Decca ou Decca Tree
Stand Typique Decca Tree
Lien vidéo
Présentation
Le Decca Tree a été développé par la compagnie britannique Decca Records dans les années 1950. Il a été utilisé pour la première fois en 1954 pour enregistrer de la musique classique.
Le Decca Tree est basé sur une approche de captation dite "en trois points", qui consiste à utiliser trois microphones équidistants pour créer une image sonore stéréo large et précise. Les trois microphones sont placés en hauteur, à une distance égale les uns des autres, avec un angle de 60 à 90 degrés entre chaque paire de microphones.
Dans notre cas les
microphones son des Rode NT5 équipés de capsule omnidirectionnelle TT 450-O
calibrées en gain entre eux à partir d’une source de calibration.
Caractéristiques
de la prise de son stéréophonique
Le Decca Tree mis
en œuvre est légèrement différent de celui proposé habituellement, nous avons
réduit les branches car la scène sonore enregistrée n’était pas un orchestre
symphonique mais cinq sources uniquement.
La nature des
capsules utilisées de type omnidirectionnelle ne vient pas mettre en avant une
stéréophonie d’amplitude. Cependant avec une distance de 1.7m entre chaque
micro il y a par rapport au couple ORTF une augmentation des différences
temporelles entre les canaux droit et gauche. C’est donc comme une loupe des
différences temporelles entre les deux canaux Gauche et Droit que peut être
interprété son écoute, le canal central ayant pour rôle d’assurer plus de
stabilité et de présence des sources en position centrale.
Réglage
du mixage
La stéréophonie
étant réalisée à partir de trois capteurs, une phase de mélange, même si
celle-ci est triviale, est indispensable. Le micro gauche est affecté en
totalité au canal gauche, le droit au canal droit et le micro central se voit
affecter à 50% à chacun des canaux droite et gauche avec un ajustement de -3db
de sa puissance
Spatialisation et localisation
Premier auditeur
Nous sommes ici dans une spatialisation qui est un peu à l’opposée de celle proposée par le couple ORTF. Les extrêmes à gauche et à droite sont bien positionnées alors que Gauche et Droit semblent trop centrés. Le Centre lui-même est flou et faiblement focalisé.
Deuxième
auditeur
La spatialisation est décevante. gauche et droite sont renvoyées vers le centre.
Troisieme auditeur
La spatialisation est plus floue, et la scène
sonore manque de cohérence. Les deux positions à gauche et les deux positions à
droite sont à peu près confondues. Les positions extrêmes débordent simplement
plus sur les côtés et les positions intermédiaires semblent un peu plus
contenues.
Les voix sont plus réverbèrées. Les
protagonistes semblent bien positionnés en ligne droite, il n’y en a pas un qui
semble plus en arrière qu’un autre.
La feuille de papier se ballade allègrement entre la droite et la gauche comme un effet ping pong. En revanche, elle ne semble pas en avant-plan par rapport aux voix.
Cohérence de la largeur de l’image
Premier
auditeur
Sur le test de la feuille de papier, nous retrouvons des caractéristiques qui peuvent sembler liées au type de spatialisation.Tout à gauche et Tout à droite sont contenus avec une image de taille raisonnable, Droite, Gauche et Centre présentent une taille imprécise s’étirant de l’enceinte gauche à l’enceinte droite.
Deuxième
auditeur
La spatialisation est floue et la largeur de
l’image n’est pas facilement déterminable.
Troisieme auditeur
La scène semble plus large, sans pour autant
dépasser l'écartement des enceintes. On sent bien l’effet de la stéréophonie de
phase en passant de l’arbre decca au couple XY sur la largeur de la scène.
Conclusion
L’arbre Decca est un système qui n’est plus très employé. Sa complexité de mise en œuvre en est sans doute responsable. Pourtant s’il semble peu efficace pour créer une spatialisation de l’espace médian, il est pertinent sur les extrêmes Droite et Gauche.
Comparaison
des trois solutions
Il convient avant de livrer nos conclusions de replacer cette recherche sans son contexte et dans ces limites. Même pour des professionnels du son, il est difficile de comparer sans être impacté par la qualité globale des capsules et les capsules des trois solutions comparées ne sont pas identiques. C’est un biais que nous avons tenté de limiter en comparant le son enregistré en premier lieu avec le son des sources naturelles.
Aucune des solutions n’est apparue parfaitement capable de reproduire une spatialisation comparable à celle ressentie à l’écoute directe de sources naturelles. Chacune des trois solutions apparaît avoir ses points forts et ses points faibles.
Le couple ORTF semble presque réaliste sur la position centrale mais écrase les sources sur les positions extrêmes du côté où elles sont situées.
Le couple XY est plus équilibré, mais ne possède aucune position parfaite. Il est moyen “bon” partout dirons-nous. C’est quand même le moins mauvais compromis.
L’arbre Decca est lui très flou sur Gauche, Centre et Droit, mais possède une grande cohérence sur les positions Tout à Gauche et Tout à Droite.
Si nous faisons maintenant une tentative de placer ces écoutes en intégrant les notions de nature de stéréophonie soit d'amplitude soit de différences de temps de propagation, il semble que la stéréophonie d’amplitude (couple XY) soit plus facile à réaliser de manière satisfaisante. Elle donne un sentiment global d’équilibre. La cohérence de la largeur de l’image est aussi plus acceptable. Sur les prises faisant intervenir davantage la stéréophonie liée à la différence de temps de propagation les images Droite et Gauche sont pour le couple ORTF comme basculées soit tout à gauche soit tout à droite soit au contraire pour le Decca Tree très étirées au centre. Nous comprenons alors le succès de cette solution dans les enregistreurs portables.
Cependant, notre conclusion ne peut être
complète sans rappeler qu’aucunes de ces solutions n’est capable de représenter
la réalité de la spatialisation ressentie à l’écoute des sources naturelles.
Conclusion
Ce travail d’écoute et d’enregistrement a été fait avec sérieux, en essayant de ne se focaliser uniquement sur les caractéristiques de spatialisation des trois systèmes.
Nous devons avant de conclure rappeler toutes les limites de notre expérimentation: les trois systèmes n'étaient pas composés des mêmes capsules, les auditeurs bien que professionnels du son ne sont pas un échantillon représentatif de la population mondiale, la répétition des mêmes scènes par les sources naturelles n’était jamais exactement identiques à celles enregistrées, le matériel d’écoute possède aussi des limites. Et au final la perception de la spatialisation est un phénomène subjectif comme toute perception, il faut donc rester humble et ne pas conclure trop définitivement.
Cependant, il nous apparaît que cette expérimentation a un intérêt; celui de nous rappeler la complexité de notre capacité à “voir avec les oreilles” d’un système que [7] Jean Hiraga appelait “le décodeur de complexité infinie qu’est le système binauriculaire humain” et les faiblesses relatives de trois systèmes testés ici, qui prétendent essayer de nous redonner “à voir” des enregistrements sonores à partir d’une source stéréophonique.
Mais aussi de nous
amener la confirmation que la stéréophonie recréée par des différences de
niveau uniquement entre les deux canaux est un compromis très imparfait mais
dont la simplicité de mise en œuvre dans le matériel actuel permet des
résultats qui présentent à l’écoute une certaine cohérence et un certain
équilibre.
Bibliographie
[1] Blauert, J. (1997). Spatial hearing: the psychophysics of human sound localization. MIT Press.
[2] Middlebrooks, J. C. (1999). Auditory system: peripheral mechanisms and organization. Current Opinion in Neurobiology, 9(4), 475-481.
[3] Joris, P. X. (1996). Envelope coding in the lateral superior olive. I. Sensitivity to interaural time differences. Journal of Neurophysiology, 76(2), 213-232.
[4] Colburn, H. S. (1977). Theory of binaural interaction based on auditory‐nerve data. The Journal of the Acoustical Society of America, 61(2), 525-533.
[5] Cowan, N. (1995). Attention and memory: An integrated framework. Oxford University Press.
[6] Darwin, C.J., Turvey, M.T. & Crowder, R.G. (1972). An auditory analogue of the sperling partial report procedure: Evidence for brief auditory storage. Cognitive Psychology, 3(2), 255-267. https://doi.org/10.1016/0010-0285(72)90015-7
[7] Hiraga, Jean, Nouvelle Revue du Son (1977)
numéro 7 et 8. https://www.lesonbinaural.fr/EDIT/DOCS/hiraga_nrds_n%C2%B07et8_1977.PDF
Consulté le 24/01/2023
Commentaires
Enregistrer un commentaire