Comment bien se faire comprendre et maximiser l’intelligibilité de la parole.

Pour être compris lorsque nous parlons ou chantons, les mots et les phrases que nous employons doivent être parfaitement intelligibles et compréhensibles.

Malheureusement, il peut être techniquement difficile de conserver l’intelligibilité de la voix lors d’un enregistrement ou de l’amplification de la parole. Dans cet article, nous expliquerons pourquoi une phrase est intelligible et compréhensible de tous, et surtout comment la conserver dans un enregistrement ou une prise de son.

En bref

Le langage et la parole proviennent des mots que nous prononçons. Ainsi, lors de l’enregistrement de la voix, vous devez toujours tenir compte de l’intelligibilité des mots.

L’air passe les cordes vocales et crée du son. En contrôlant nos cordes vocales, le niveau et la hauteur de la voix peuvent varier. En modifiant les cavités au-dessus des cordes vocales (pharynx, cavité orale ou nasale), un filtrage est ajouté au spectre vocal.

La modification de la cavité buccale modifie à la fois le niveau et la bande de fréquences du son de la voix. Même la hauteur de la voix change avec ces variations.

Lors d’un enregistrement, vous constaterez que les pics (ou crête) du signal acoustique sont beaucoup plus élevés que le RMS ou le niveau moyen. Assurez-vous que toutes les crêtes et transitoires sont correctement retranscrites sur toute la chaine audio.

Dans les langues non tonales, les consonnes sont importantes. Les consonnes (k, p, s, t, etc.) se trouvent principalement dans la gamme de fréquences supérieure à 500 Hz. Plus précisément, dans la gamme de fréquences 2 kHz-4 kHz.

Nous percevons la voix comme naturelle et avec la plus grande intelligibilité lorsque nous sommes à environ 1 mètre devant la personne qui parle. Se tenir sur le côté ou derrière la personne réduit le naturel et l’intelligibilité.

Chaque positionnement du microphone, qu’il soit sur la tête ou sur la poitrine, va avoir sa propre couleur sonore – ou timbre. Par exemple, si l’on place un microphone sur le buste d’une personne, le spectre de la parole enregistré va manquer de fréquences dans la plage importante de 2 à 4 kHz. Il en résulte une intelligibilité réduite de la parole. Si le microphone ne compense cette baisse de fréquences naturellement, vous devez faire des corrections avec un égaliseur.

Donc, lorsque vous placez un microphone, soyez conscient de ces problèmes. Soyez prêt à choisir le bon microphone conçu pour être utilisé dans la position où vous le placez. Sinon, soyez prêt à compenser (égaliser) pour obtenir le son correct.

Vous pouvez prendre une longueur d’avance en regardant une série de courtes vidéos qui présentent et expliquent certains facteurs importants qui influent sur l’intelligibilité de la voix. La suite de cette article abordera pus en détail les phénomènes et solution liées à l’intelligibilité de la voix.

 

1. La voix comme source sonore acoustique

La voix comme source sonore est importante à comprendre. Alors que le langage peut être quelque chose que des groupes de personnes ont en commun, le son et le timbre de la voix sont individuels d’une personne à l’autre. Dans le même temps, la parole, considérée comme un signal acoustique, est le type de son que nous connaissons le mieux.

Niveau sonore

La voix humaine est capable de créer des sons très faibles jusqu’à des pressions sonores très importantes ; d’un chuchotement modéré à des cris puissants. Il est difficile de définir un niveau sonore moyen de la voix, car il est différent d’une personne à l’autre. Les valeurs du tableau ci-dessous indiquent le niveau de parole moyen pondéré A du discours d’un adulte.

Il convient de noter que la capacité à comprendre la parole est optimale lorsque le niveau sonore de la parole correspond au niveau sonore de la parole normale à une distance de 1 mètre. En d’autres termes, un niveau de pression acoustique d’environ 55 à 65 dB pour 20 μPa. (Dans ce cas, «re» signifie «en référence à»; la référence est le niveau de pression acoustique audible le plus faible.)

 

Niveau de parole

 
Listening distance [m] Normal Elevé Fort Cris
0.25 70 76 82 88
0.5 65 71 77 83
1.0 58 64 70 76
1.5 55 61 67 73
2.0 52 58 64 70
3.0 50 56 62 68
5.0 45 51 57 63

Niveau de parole moyen en fonction de la distance d’écoute / d’enregistrement. Il y a une différence de près de 20 dB entre la parole normale et les cris.

 

Facteur de crête

Notez que chaque niveau présenté dans le tableau est un niveau RMS moyen et non un niveau de crête. En règle générale, les pics sont de 20 à 23 dB au-dessus du niveau RMS. Le rapport entre le niveau de crête et le niveau RMS est appelé facteur de crête. Ce facteur est un paramètre important lorsqu’une voix doit être enregistrée ou reproduite dans un système électroacoustique.

À noter également: lorsque l’on chante fort, avec un niveau sonore élevé, le son mesuré au niveau des lèvres peut atteindre des niveaux de 130 dB pour 20 μPa RMS et des niveaux de crête supérieurs à 150 dB pour 20 μPa.

Voix masculine, parole normale (durée 18 secondes). RMS moyen: -21,5 dBFS, crête: -0,5 dBFS. Facteur de crête 11 (21 dB). La ligne rouge pointillée indique le niveau RMS.

 

Le spectre de la parole

Le spectre de la parole couvre une assez grande partie du spectre sonore complet. Dans les langues non tonales, on peut dire que la parole est constituée de voyelles et de sons consonantiques (consonnes). Les voyelles sont générées par les cordes vocales et filtrées par les cavités vocales. Un murmure est sans sons vocaux.

Cependant, les cavités qui contribuent à la formation des différentes voyelles affectent toujours le flux d’air qui passe. C’est pourquoi les caractéristiques des voyelles sont également présentes dans un murmure. En général, la fréquence fondamentale de la tonalité vocale complexe – également connue sous le nom de hauteur ou f0 – se situe dans la plage de 100 à 120 Hz pour les hommes, mais des variations en dehors de cette plage peuvent se produire. Le f0 pour les femmes se trouve environ une octave plus haut. Pour les enfants, f0 est d’environ 300 Hz.

Les consonnes sont créées par des blocages d’air et des sons formés par le passage de l’air à travers la gorge et la bouche, en particulier la langue et les lèvres. En termes de fréquence, les consonnes se situent au dessus de 500 Hz.

À une intensité vocale normale, l’énergie des voyelles diminue généralement rapidement au-dessus d’environ 1 kHz. Notez cependant que l’énergie du spectre de la parole se déplace d’une à deux octaves vers des fréquences plus élevées lorsque le niveau de la voix augmente. Notez également qu’il n’est pas possible d’augmenter le niveau sonore des consonnes dans la même mesure que les voyelles. En pratique, cela signifie que l’intelligibilité de la parole n’augmente pas en criant, par rapport à l’application d’un effort vocal normal dans des situations où le bruit de fond n’est pas significatif.

Spectres vocaux (1/3 d’octave) en fonction du niveau sonore de la voix.

 

Formants

Si vous écoutez deux personnes qui parlent ou chantent la même voyelle à la même hauteur (f0), les voyelles sont vraisemblablement reconnaissables et identiques dans les deux cas. Cependant, deux voix quelconques ne produisent pas nécessairement exactement le même spectre. Les formants fournissent les sons de voyelle perçus. De plus, les formants fournissent des informations différentes d’un locuteur à l’autre. Les formants s’expliquent par le filtrage acoustique du spectre généré par les cordes vocales. Les voyelles sont créées par le «réglage» des résonances des cavités dans le tractus vocal.

 

2. Qu’est-ce qui affecte l’intelligibilité?

Dans les langues tonales comme le chinois et le thaï, les locuteurs utilisent un ton lexical ou une fréquence fondamentale pour être intelligible.

Dans les langues non tonales comme l’anglais, l’espagnol, le japonais, etc., les mots se distinguent en changeant une voyelle, une consonne ou les deux. Cependant, entre les deux, les consonnes sont les plus importantes.

Fréquences importantes

Les fréquences importantes dans les langues non tonales (occidentales) sont illustrées par le diagramme ci-dessous. Ici, la bande de fréquence autour de 2 kHz est la gamme de fréquences la plus importante en ce qui concerne l’intelligibilité perçue. La plupart des consonnes se trouvent dans cette bande de fréquences.

 

Un spectre de parole est filtré avec un passe-haut et un passe-bas. L’utilisation d’un filtre passe haut à 20 Hz (en haut à gauche) laisse le discours 100% compréhensible. (C’est parce que le spectre vocal est complet). Un filtre Passe Haut coupant tout en dessous de 500 Hz laisse toujours le signal vocal compréhensible. Même si la majeure partie de l’énergie de la parole est coupée, l’intelligibilité n’est réduite que de 5%. Cependant, l’application d’un seuil plus élevé fait chuter l’intelligibilité.

Dans l’autre sens, l’application d’un filtre Passe Bas fait chuter l’intelligibilité très rapidement. Lors d’une découpe à 1 kHz, l’intelligibilité est déjà inférieure à 40%. On peut voir que la plage de fréquences entre 1 kHz et 4 kHz est d’une grande importance pour l’intelligibilité.

 

Bruit de fond

Le bruit de fond a une influence sur l’intelligibilité perçue du signal vocal. Dans ce cas, tous les signaux autres que la parole elle-même peuvent être considérés comme du bruit. Ainsi, dans un auditorium ou une salle de classe, la climatisation et autres installations bruyantes peuvent rendre la parole moins intelligible. De plus, la présence d’autres personnes génère du bruit. En son TV ou film, il s’agit très souvent de la relation entre le niveau du dialogue et le niveau des sons d’ambiance / musique de fond.

Dans ce diagramme, l’intelligibilité de la parole est tracée en fonction du rapport signal / bruit (S / B). La courbe inférieure montre que la parole peut toujours être intelligible dans une certaine mesure même si le S / B est négatif, ce qui signifie que le bruit est 10 dB plus fort que le niveau de la parole. Cependant, un niveau de parole perçu d’environ 60 dB pour 20 μPa est optimal.

Dans ce diagramme, l’intelligibilité de la parole est tracée en fonction du rapport signal / bruit (S / B). La courbe inférieure montre que la parole peut toujours être intelligible dans une certaine mesure même si le S / B est négatif, ce qui signifie que le bruit est 10 dB plus fort que le niveau de la parole. Mais dans tous les cas, l’optimum est un niveau de parole perçu autour de 60 dB pour 20 μPa.

 

De nombreuses recherches ont été menées dans ce domaine. En général, les résultats démontrent que :

  1. Le niveau de parole optimal est constant lorsque le niveau de bruit de fond est inférieur à 40 dB (A)
  2. Le niveau de parole optimal correspond 15 dB de S/B lorsque le niveau de bruit de fond est supérieur à 40 dB (A)
  3. La difficulté d’écoute et la perte d’intelligibilité augmente à mesure que le niveau de la parole augmente dans des conditions où le rapport S / N est suffisamment bon pour maintenir l’intelligibilité presque parfaite.

En outre, la plage de fréquences de 1 à 4 kHz doit être «maintenue dégagée». Par exemple, lorsque vous ajoutez de la musique comme arrière-plan pour la narration, un égaliseur paramétrique coupant la musique de 5 à 10 dB dans cette plage de fréquences améliorera l’intelligibilité.

 

Réverbération

La réverbération est considérée comme du bruit lorsque l’on parle d’intelligibilité de la parole. Une petite réverbération peut soutenir le discours, mais dès que les consonnes sont étalées, l’intelligibilité baisse.

 

3. Le champ sonore

Le champ sonore autour de la personne qui parle est affecté non seulement par la forme de la bouche et des cavités buccales de l’orateur, mais aussi par la tête et le corps de la personne.

Directivité

Vous trouverez ci-dessous des diagrammes polaires de locuteurs humains dans les plans vertical et horizontal.

Polar patterns human talker. (ref.: Chu, W.T.; Warnock, A.A.C.: Detailed Directivity of Sound Fields Around Human Talkers.)

Le niveau tracé est pondéré A. Tous les orateurs étaient assis. Les niveaux ont été mesurés à 1 mètre. On peut voir que la différence entre l’avant et l’arrière est d’environ 7 dB. Cependant, cela ne fournit aucune information sur la dépendance en fréquence : les hautes fréquences sont plus atténuées à l’arrière que les basses fréquences.

Veuillez noter que dans le plan vertical, le niveau est plus élevé dans la direction 330 ° par rapport aux autres directions. Ceci est principalement dû au fait que le son est réfléchi sur la poitrine.

Ce diagramme montre le niveau des fréquences de 160 Hz (en rouge) jusqu’à 8 kHz (en bleu).

On peut voir que la directivité augmente avec les fréquences. Une plus grande intelligibilité est obtenue lors de l’enregistrement devant plutôt que derrière la personne.

Human talker, polar plots 1/3-octave intervals. Division 5 dB.(ref.: Chu, W.T.; Warnock, A.A.C.: Detailed Directivity of Sound Fields Around Human Talkers.)

 

Distance et direction

Comme tous les microphones ne sont pas toujours placés à une distance de 1 mètre du locuteur, il est intéressant de savoir ce qui se passe lorsque l’on se rapproche de la source sonore.

Les diagrammes suivants montrent l’écart par rapport au spectre de la parole enregistré à 1 mètre. Les angles (+45 degrés, 0 degrés et -45 degrés) sont dans le plan vertical. Ces résultats sont des moyennes de 10 locuteurs.

Les lignes dans chacun des trois diagrammes montrent les écarts respectivement   80 cm, 40 cm, 20 cm et 10 cm.

S’il n’y avait pas de changement de spectre lors du changement de direction et de distance, toutes les courbes seraient des lignes droites, mais l’écart augmente à mesure que nous nous rapprochons du locuteur.

Le diagramme de gauche montre les positions de mesure à 45 ° vers le haut par rapport à l’axe. L’écart d’ici est subtil. C’est pourquoi réaliser une prise son avec une perche ne modifie presque pas le spectre de la parole et ne dépend pas tellement de la distance.

Le diagramme de droite montre ce qui se passe lorsque nous captons la voix sous le plan sur l’axe. L’influence du son réfléchi par le corps est considérable.

Les écarts sur l’axe sont quelque peu entre les deux autres, ce qui signifie que le spectre de la parole change avec la distance au microphone.

(Ref: Brixen, Eddy B.: Near field registration of the human voice: Spectral changes due to positions. AES Convention 104, Amsterdam, the Netherlands. Preprint 4728)

 

Tête et poitrine

En broadcast et diffusions en direct, le microphone préféré est souvent un micro cravate (porté sur la poitrine) ou un micro serre-tête (porté sur la tête), permettant une plus grande liberté pour l’utilisateur. Il faut être conscient du fait que placer le microphone à cette courte distance donne un spectre enregistré différent du spectre naturel et neutre perçu à une distance d’écoute normale. Cette différence est loin d’être négligeable.

La courbe supérieure quantifie la manière dont le spectre de la parole capté à la poitrine diffère du spectre de la parole de la même personne capté à 1 mètre. (Toutes les courbes sont basées sur une moyenne de 10 personnes).

La courbe supérieure (poitrine) quantifie la façon dont le spectre de la parole capté dans la poitrine diffère du spectre de la parole de la même personne captée à 1 mètre sur l’axe. Lorsque vous placez un microphone sur la poitrine, il y a une réduction substantielle des fréquences dans la plage critique de 2 à 4 kHz.

 

La deuxième courbe (cou) montre l’écart si le microphone est encore plus proche, juste en dessous du menton. Cette position s’applique beaucoup à la diffusion car c’est le seul moyen pratique de placer un micro cravate si le journaliste ou l’interviewé porte un t-shirt, un sweat-shirt ou autre ou s’il porte un manteau. Pour une utilisation en extérieur, le microphone peut être habillé de fourrure ou placé derrière un foulard. En toutes circonstances : il y a une réduction massive des fréquences consonantiques.

 

La courbe pour un placement sur le front montre que cette position est la moins obstructive pour le spectre. Cette position est parfaite pour la scène et le film mais pas pour la TV.

 

La courbe de l’oreille montre un déclin progressif des fréquences plus élevées à cet emplacement. Il peut être pratique de placer le microphone à l’oreille; cependant, il a besoin d’une compensation pour conserver l’intelligibilité de la parole.

 

Lorsque vous placez le microphone sur la joue (micro serre-tête), la plage de 2 à 4 kHz est meilleure que la plupart des autres positions. Cependant, il faut encore un léger boost aux fréquences les plus élevées. Les serre-têtes DPA ont une pré-accentuation dans cette gamme de fréquence pour palier naturellement à ce phénomène.

Il convient de mentionner que le niveau de la parole au «coin de votre sourire» (au niveau de la joue) est d’environ 10 dB plus élevé par rapport à une position thoracique.

D’après les courbes, on peut voir qu’il y a une tendance générale à une augmentation autour de 800 Hz qui doit être compensée. Cependant, l’écart le plus important est l’atténuation qui entraîne une baisse de l’intelligibilité de la parole.

(Ref: Brixen, Eddy B.: Spectral degradation of speech captured by miniature microphones mounted on Persons’ heads and chests. AES Convention no. 100, Copenhagen, Denmark. Preprint 4284.)

 

4. Bien placer les microphones

A partir de ces conditions, un ensemble de règles peut être établi pour la sélection et le placement d’un microphone chaque fois que l’intelligibilité de la parole est importante.

Microphones voix à main

  • Les micros main doivent être placés devant la bouche dans un angle de ± 30 °
  • Si vous utilisez un microphone directif (de type cardioïde ou canon), il doit être placé dans l’axe de la voix (et non comme un cornet de crème glacée)
  • Des bonnettes trop denses peuvent réduire les fréquences plus élevées. N’oubliez pas de compenser cela.

Cravate / microphone porté sur la poitrine

Le spectre de la parole dans cette position typique sur poitrine manque de fréquences dans la plage essentielle de 3-4 kHz. Si un microphone avec une réponse en fréquence linéaire est positionné sur la poitrine d’une personne, la plage 3-4 kHz doit être amplifiée autour de 5-10 dB juste pour compenser la perte.

  • En pratique, il existe deux solutions: utilisez un microphone pré-égalisé pour compenser, ou réalisez une bonne égalisation.
  • Notez qu’aucun mélangeur ou caméra ENG ne compense automatiquement cela et aucune commande n’est disponible pour le faire. Dans de nombreux cas, cela n’est jamais compensé. Par conséquent, l’intelligibilité est souvent faible.

 

Micro casque (micro serre-tête)

  • Le niveau du micro serre-tête est environ 10 dB plus fort sur la joue par rapport à une position de poitrine
  • Le spectre est moins affecté par rapport à la position de la poitrine. Cependant, dans une certaine mesure, une légère accentuation des haute fréquences doit être réalisée.
  • Une position sur le front (près de la racine des cheveux), souvent utilisée dans les films et les performances sur scène, est relativement neutre en ce qui concerne l’intelligibilité de la parole.

 

Microphones pupitres

  • Les microphones de pupitres sont souvent utilisés à différentes distances. Par conséquent, le microphone doit être directif, en particulier dans la gamme de fréquences supérieure à 1 kHz
  • Le microphone doit pointer vers la bouche du locuteur
  • Les microphones montés sur les podiums ne doivent pas être sensibles aux vibrations ou à tout bruit de manipulation.

 

Microphones individuels pour chaque locuteurs

  • Placez chaque microphone le plus près possible de chaque locuteur
  • Choisissez des microphones directifs
  • Lorsque plusieurs personnes parlent à la fois, le microphone de chaque locuteur doit atténuer le son des autres locuteurs d’au moins 10 dB

 

Micro sur perche

  • Lors d’une prise de son avec une perche, le spectre le plus neutre est obtenu lors du positionnement du microphone devant et au-dessus de la tête
  • Si l’environnement le permet, d’autres microphones que des micros canon peuvent être utilisés

 

Environnement bruyant / réverbérant

  • Positionnez le microphone au plus près de la source sonore principale (bouche du locuteur)
  • Utilisez un microphone avec suppression du bruit élevé, généralement de type cardioïde / supercardioïde