Introduction
Aujourd’hui, la quasi-totalité de la musique que nous écoutons est stockée et diffusée sous forme numérique. Mais un fichier audio en qualité CD est volumineux : il faut en effet prendre en compte la fréquence d’échantillonnage (44,1 kHz, soit 44 100 mesures par seconde), la quantification (16 bits par échantillon) et la stéréo (2 canaux). Le débit correspondant est d’environ 1,4 Mbit/s, ce qui donne environ 10,5 Mo par minute de musique. C’est ce volume important qui a conduit à développer des techniques de compression pour réduire la taille des fichiers et permettre leur diffusion à grande échelle.
De l’analogique au numérique : échantillonnage et quantification
Un son est d’abord une onde mécanique captée par un micro et transformée en signal analogique. Pour qu’un ordinateur puisse le traiter, il faut le numériser, c’est-à-dire le convertir en une suite de nombres.
Cette conversion repose sur deux étapes : l’échantillonnage et la quantification. L’échantillonnage consiste à mesurer le signal sonore à intervalles réguliers. Selon le théorème de Nyquist-Shannon, la fréquence d’échantillonnage doit être strictement supérieure au double de la fréquence maximale contenue dans le signal. Comme l’oreille humaine entend jusqu’à environ 20 kHz, on choisit une fréquence de 44,1 kHz pour les CD, lancés en 1982 par Sony et Philips. La quantification consiste ensuite à coder chaque échantillon avec un nombre de bits. Avec 16 bits par échantillon, on dispose de 65 536 niveaux possibles.
Le rapport signal/bruit lié à cette quantification vaut environ 6n dB pour un codage sur bits, soit environ 96 dB pour 16 bits. Ce chiffre n’atteint pas la totalité de la plage dynamique de l’oreille (qui peut dépasser 120 dB), mais il est suffisant pour couvrir la majorité des contrastes sonores perceptibles en musique, du chuchotement aux sons très puissants.
À retenir
L’échantillonnage (44,1 kHz) et la quantification (16 bits stéréo) expliquent le volume des fichiers CD. Le rapport signal/bruit obtenu (≈ 96 dB) est suffisant pour couvrir la plage utile de l’audition musicale.
Compression sans perte : réduire sans dégrader
La compression sans perte réduit la taille d’un fichier en réorganisant les données, sans supprimer d’information. Un fichier WAV de 50 Mo peut ainsi être compressé en FLAC ou ALAC pour ne plus occuper que 25 à 30 Mo, tout en restituant exactement le signal original. Ce type de compression est recherché par les professionnels du son et les auditeurs exigeants.
Compression avec perte : la psychoacoustique et l’effet de masque
La compression avec perte, comme le format MP3 ou AAC, repose sur la psychoacoustique, c’est-à-dire le domaine qui étudie la manière dont l’oreille et le cerveau perçoivent les sons. L’oreille humaine n’est pas également sensible à toutes les fréquences : elle entend moins bien les graves et les aigus. De plus, certains sons faibles disparaissent lorsqu’ils sont proches en fréquence d’un son beaucoup plus intense : c’est ce qu’on appelle l’effet de masque. Par exemple, un souffle discret peut devenir totalement inaudible derrière un coup de grosse caisse ou de batterie.
Les algorithmes de compression exploitent ces limites perceptives pour supprimer les informations considérées comme inutiles. C’est le principe du MP3, normalisé dans les années 1990 par le Fraunhofer Institut. En éliminant les sons masqués ou imperceptibles, il divise par dix la taille des fichiers. Un morceau de trois minutes pèse alors environ 3 Mo à 128 kbit/s, contre plus de 30 Mo en qualité CD.
Le paramètre clé est le débit binaire (en kbit/s), qui relie directement le taux de compression à la qualité sonore. Plus il est élevé, plus la fidélité est grande, mais plus le fichier est lourd.
À retenir
La compression avec perte repose sur la psychoacoustique et notamment sur l’effet de masque. Le débit binaire contrôle le compromis entre taille et qualité sonore.
Stockage, streaming et enjeux écologiques
La compression audio ne répond pas seulement à un enjeu de confort mais aussi à un enjeu écologique. Un fichier compressé téléchargé en local ne consomme de l’énergie qu’au moment de sa lecture. En revanche, le streaming entraîne une circulation constante des données via les réseaux et les centres de données, ce qui augmente la consommation énergétique.
À titre d’ordre de grandeur, écouter une heure de musique en streaming correspond à environ 50 à 100 Wh consommés, soit l’équivalent de l’éclairage d’une ampoule LED de 10 W pendant 5 à 10 heures. Multiplions ce chiffre par des milliards d’écoutes quotidiennes et on comprend l’importance de réfléchir à une sobriété numérique, en choisissant par exemple des débits adaptés ou en privilégiant le téléchargement local quand c’est possible.
À retenir
Le streaming consomme davantage que le stockage local, car il mobilise en permanence serveurs et réseaux. À l’échelle mondiale, cela représente un enjeu écologique majeur.
Conclusion
La compression audio est née de la nécessité de réduire la taille des fichiers sonores, dont le volume initial s’explique par l’échantillonnage et la quantification théorisés par Nyquist et Shannon. La compression sans perte conserve toutes les informations mais réduit peu, tandis que la compression avec perte, fondée sur la psychoacoustique et l’effet de masque, permet de diviser la taille par dix au prix d’une fidélité légèrement réduite. L’histoire du CD (1982, Sony/Philips) et du MP3 (années 1990, Fraunhofer) montre combien ces innovations ont transformé la musique. Aujourd’hui, l’essor du streaming pose la question de l’écologie du numérique, en rappelant que nos choix d’écoute influencent à la fois la qualité sonore et l’impact environnemental.
