Introduction
Lorsque tu écoutes de la musique sur ton téléphone ou que tu enregistres un message vocal, le son n’est plus conservé sous sa forme « naturelle » analogique (une onde continue dans le temps), mais sous une forme numérique, adaptée aux ordinateurs. Ce passage de l’analogique au numérique repose sur deux étapes : l’échantillonnage et la quantification. Le choix des paramètres conditionne à la fois la fidélité du son et la taille du fichier audio. Ces notions sont au cœur de l’histoire des sciences et des technologies, des théories de Nyquist et Shannon au CD audio lancé par Sony et Philips dans les années 1980.
Du signal continu au signal numérique
Un son est une onde mécanique longitudinale, faite de compressions et de raréfactions de l’air. Capté par un micro, il est transformé en signal électrique analogique. Or, un ordinateur ne peut traiter que des suites de nombres : il faut donc numériser ce signal.
On peut décrire ce processus en trois étapes :
Signal continu : une courbe fluide et ininterrompue.
Signal échantillonné : on relève régulièrement des points de la courbe.
Signal quantifié : on arrondit ces points à la valeur la plus proche dans une grille finie de niveaux.
L’échantillonnage : mesurer à intervalles réguliers
L’échantillonnage consiste à mesurer le signal sonore à intervalles réguliers. La fréquence d’échantillonnage (en hertz, Hz = nombre de mesures par seconde) fixe le nombre de relevés effectués chaque seconde.
Le théorème de Nyquist-Shannon établit qu’il faut échantillonner à une fréquence strictement supérieure au double de la fréquence maximale du signal. Comme l’oreille perçoit en moyenne jusqu’à 20 kHz, les ingénieurs ont retenu une fréquence de 44,1 kHz pour les CD audio. Ce choix garantit de reproduire fidèlement les sons audibles, tout en restant techniquement réalisable dans les années 1980.
Il faut rappeler que cette limite de 20 kHz n’est qu’une moyenne : les enfants et adolescents entendent parfois un peu au-delà, tandis que la sensibilité diminue avec l’âge. Cela rend encore plus concrète la justification des 44,1 kHz.
Si la fréquence est trop basse, le signal se déforme : c’est l’aliasing, où des aigus sont restitués comme de faux graves.
À retenir
Pour éviter l’aliasing, la fréquence d’échantillonnage doit être strictement supérieure au double de la fréquence maximale du signal.
La quantification : transformer en nombres entiers
Chaque échantillon est arrondi à une valeur dans une grille finie : c’est la quantification. Le nombre de valeurs possibles dépend du nombre de bits utilisés.
Avec 8 bits, on dispose de 256 niveaux.
Avec 16 bits (cas du CD), 65 536 niveaux.
Plus il y a de bits, plus le signal numérique est précis. Une quantification trop faible ajoute un bruit de quantification (un grésillement).
On mesure la qualité en utilisant le rapport signal/bruit, exprimé en décibels (dB). Pour un codage sur bits, ce rapport vaut environ :
Ainsi, pour 16 bits, on obtient environ 96 dB : cela correspond à la plage dynamique d’un CD, suffisante pour couvrir toute l’étendue de l’audition humaine, du chuchotement au seuil de douleur.
À retenir
La quantification arrondit chaque échantillon à un niveau codé en bits. Plus il y a de bits, plus le rapport signal/bruit est élevé (≈ 96 dB pour 16 bits).
Fidélité, taille et compression
La qualité et la taille d’un fichier audio dépendent directement des paramètres :
une fréquence d’échantillonnage élevée permet de restituer plus d’aigus, mais produit plus de données ;
un nombre de bits plus grand augmente la précision, mais aussi la taille du fichier.
Exemple : un enregistrement stéréo à 44,1 kHz et 16 bits génère environ 1,4 Mbit/s, soit 10 Mo par minute sans compression (format WAV). C’est bien plus lourd qu’un fichier compressé en MP3 à 128 kbit/s, qui occupe environ 1 Mo par minute.
Pour réduire la taille, on utilise la compression :
Sans perte (exemple : FLAC), qui réduit la taille mais conserve toutes les informations.
Avec perte (exemple : MP3), qui élimine certaines informations jugées secondaires.
Les compressions avec perte s’appuient sur la psychoacoustique, c’est-à-dire la manière dont nous percevons les sons. Elles exploitent deux phénomènes :
La sensibilité variable de l’oreille selon la fréquence (courbes de Fletcher-Munson : nous sommes moins sensibles aux graves et aux très aigus).
L’effet de masquage : un son faible disparaît si un son plus fort proche en fréquence est présent.
C’est ainsi que le MP3 supprime des données sans que la majorité des auditeurs ne perçoivent de différence.
À retenir
Un fichier WAV non compressé ≈ 10 Mo/minute, un MP3 à 128 kbit/s ≈ 1 Mo/minute. La compression avec perte repose sur la psychoacoustique (sensibilité de l’oreille et effet de masquage).
Conclusion
La numérisation du son transforme une onde analogique en une suite de nombres par échantillonnage et quantification. Le théorème de Nyquist (1928), prolongé par la théorie de l’information de Shannon (1948), a posé les bases de cette transformation. Le CD audio, lancé dans les années 1980, en fut la première grande application grand public. Le rapport signal/bruit lié au nombre de bits, la fréquence d’échantillonnage et les méthodes de compression illustrent l’équilibre entre fidélité sonore et taille des fichiers. Enfin, la psychoacoustique rappelle que la numérisation du son n’est pas qu’une affaire de calcul : elle dépend aussi de la perception humaine, reliant ainsi science, technologie et expérience musicale.
