Come comprimere una voce umana: la storia dell’MP3

Dal blog https://www.labottegadelbarbieri.org/

jolek78

Una canzone, un algoritmo e la fine del mondo analogico

C’è un momento, nella storia della tecnologia, in cui tutto cambia. Non sempre lo riconosciamo. A volte ci vuole tempo per capire che quella piccola scintilla, quel dettaglio apparentemente insignificante, ha innescato una rivoluzione che avrebbe cambiato per sempre il modo in cui viviamo, comunichiamo, consumiamo cultura. Nel 1987, una cantautrice americana di nome Suzanne Vega pubblicò un brano minimalista chiamato “Tom’s Diner“. Due minuti e nove secondi di voce a cappella, senza accompagnamento strumentale, senza effetti particolari. Solo una voce che racconta una mattina qualunque in una tavola calda di New York. Una canzone così essenziale, così pura nella sua semplicità, che qualcuno dall’altra parte del mondo – un ingegnere tedesco ossessionato dalla compressione audio – l’avrebbe usata come pietra di paragone per creare una tecnologia che avrebbe sconvolto l’industria musicale globale. Quella tecnologia si chiamava MP3. E quella voce, quella “warm a cappella voice” come l’avrebbe definita Karlheinz Brandenburg, sarebbe diventata il test definitivo per determinare se un algoritmo di compressione funzionava davvero o no.

Questa è la storia – parte realtà documentata, parte leggenda metropolitana – di come una canzone folk diventò la madre involontaria della più grande rivoluzione nella distribuzione musicale dai tempi del vinile. Una storia che mi ha sempre affascinato perché contiene, in sé, tutte le contraddizioni della nostra era digitale: innovazione e distruzione, democratizzazione e perdita di qualità, apertura e controllo. E sì, c’entra anche il fatto che ho sempre avuto un debole per le storie che si intrecciano in modi inaspettati. Forse perché anch’io, nei miei anni di radio, ho visto da vicino cosa significa lavorare con l’audio, manipolarlo, comprimerlo, trasmetterlo. Forse perché, come molti di noi che hanno vissuto il passaggio dall’analogico al digitale, porto ancora dentro il ricordo di quelle prime collezioni MP3 scaricate via un modem 56k (i reati vanno in prescrizione dopo 20 anni, vero?). Ma soprattutto, questa storia mi affascina perché ci ricorda che dietro ogni innovazione tecnologica c’è sempre un elemento umano: una voce, una scelta estetica, un’ossessione. E nel caso dell’MP3, quell’elemento umano era proprio la voce di Suzanne Vega che cantava di caffè e pioggia in una mattina di novembre.


Fine anni ’80: la corsa alla compressione

Per capire come “Tom’s Diner” finì nei laboratori del Fraunhofer Institute, dobbiamo fare un passo indietro e capire cosa stava succedendo nel mondo dell’audio digitale alla fine degli anni ’80. Il CD era arrivato nel 1981, portando con sé la promessa di una qualità audio perfetta, cristallina, immune ai graffi e all’usura del tempo. Ma c’era un problema enorme: i file audio digitali erano mastodontici. Una canzone da tre minuti, codificata in formato PCM (Pulse–Code Modulation) a 44.1 kHz e 16 bit, occupava circa 30–35 megabyte. Un album intero? Oltre 600 megabyte.

Per avere un’idea concreta: negli anni ’80, la rivoluzione dell’ascolto portatile era il Sony Walkman, che leggeva cassette analogiche. Con l’arrivo del CD, Sony lanciò il Discman, ma questi lettori CD portatili erano ingombranti, consumavano batterie, e saltavano al minimo movimento. L’idea di portarsi dietro un’intera discoteca era ancora fantascienza.

Nei tempi in cui un hard disk da 40 MB era considerato gigantesco, questi numeri erano semplicemente impraticabili. Non si poteva pensare di trasmettere musica via internet – che all’epoca era ancora un network accademico e militare – né di archiviarla efficacemente sui computer domestici. Serviva una soluzione radicale: bisognava comprimere l’audio mantenendo una qualità accettabile. È qui che entra in scena la piccola città di Erlangen, in Baviera. Non esattamente Silicon Valley, ma una cittadina tedesca con una lunga tradizione di eccellenza scientifica. Qui aveva sede il Fraunhofer Institute for Integrated Circuits, un centro di ricerca che avrebbe cambiato per sempre il modo in cui ascoltiamo la musica. Il team era guidato da un uomo chiamato Dieter Seitzer, che aveva lavorato per anni sulla psicoacustica – quella branca della scienza che studia come gli esseri umani percepiscono i suoni. Seitzer aveva una visione: trovare un modo per trasmettere musica di alta qualità attraverso le linee telefoniche ISDN. Sembrava fantascienza, ma il suo studente di dottorato, un giovane ingegnere di nome Karlheinz Brandenburg, era convinto che fosse possibile. L’idea di fondo era elegante nella sua semplicità: l’orecchio umano non è perfetto. Ci sono frequenze che non sentiamo, suoni che vengono “mascherati” da altri più forti, dettagli sonori che il nostro cervello semplicemente scarta. Perché sprecare spazio disco per informazioni che tanto non percepiamo?

L’obiettivo, dunque, era creare un algoritmo che eliminasse tutto ciò che l’orecchio umano non poteva distinguere, riducendo un file audio a un decimo delle sue dimensioni originali senza che l’ascoltatore medio si accorgesse della differenza.Ma c’era una competizione feroce. Nel 1989, quando il Moving Picture Experts Group (MPEG) – l’organizzazione internazionale che si occupava di standardizzazione – indisse una chiamata per proposte di codec audio, arrivarono 14 candidati da tutto il mondo. Fra questi c’erano AT&T Bell Labs negli Stati Uniti, Thomson in Francia, Philips nei Paesi Bassi, e naturalmente il team di Erlangen con il loro algoritmo chiamato ASPEC (Adaptive Spectral Perceptual Entropy Coding). Era una gara dove vinceva chi dimostrava di avere l’algoritmo più efficiente: massima compressione, minima perdita di qualità percepibile. E per dimostrarlo, servivano test. Tanti test. Test ossessivi, maniacali, ripetuti centinaia, migliaia di volte. Serviva, in altre parole, una canzone di riferimento. Una canzone che mettesse alla prova l’algoritmo nel modo più spietato possibile.


Perché proprio quella voce?

Esistono diverse versioni di come Brandenburg scoprì “Tom’s Diner”. In un’intervista, racconta di averla sentita alla radio mentre camminava in corridoio. In un’altra, dice di aver letto di questa canzone su una rivista hi–fi che la usava per testare altoparlanti di alta qualità. Le storie cambiano, si sovrappongono, si contraddicono. Brandenburg stesso ha dato versioni diverse negli anni. Ma una cosa è certa: quando sentì quella voce, capì immediatamente che aveva trovato il suo test definitivo.”I was ready to fine–tune my compression algorithm,” ricorda Brandenburg in un’intervista del 2009, “and somewhere down the corridor a radio was playing Tom’s Diner. I was electrified. I knew it would be nearly impossible to compress this warm a cappella voice.

Ed è proprio in quella frase – “nearly impossible – quasi impossibile” – che si capisce la sfida. La voce umana è lo strumento più difficile da comprimere. Evolutivamente, il nostro orecchio è ottimizzato per riconoscere le voci. Ci siamo evoluti per sentire le sfumature, le emozioni, le micro–variazioni tonali che distinguono una persona dall’altra, che ci dicono se qualcuno è felice o triste, sincero o bugiardo. La voce è l’interfaccia primaria della comunicazione umana, e il nostro cervello ha sviluppato sofisticati meccanismi per analizzarla. Per questo motivo, qualsiasi artefatto, qualsiasi distorsione introdotta dalla compressione, salta fuori immediatamente quando si tratta di voce. Se l’MP3 poteva riprodurre fedelmente la voce di Suzanne Vega, allora poteva gestire qualsiasi cosa.

Ma perché proprio “Tom’s Diner”? Cosa rendeva questa canzone così speciale?

Primo: è una registrazione a cappella. Non ci sono strumenti che mascherano o distraggono. Non c’è un basso potente che copre le frequenze basse, non ci sono chitarre elettriche che riempiono lo spettro medio. È solo voce. Nuda, esposta, senza alcun luogo dove nascondersi. Secondo: è una registrazione di qualità eccezionale. È stata registrata nello studio di A&M Records con equipaggiamento professionale, il che significa che cattura tutte le sfumature, tutti i respiri, tutti i dettagli della performance di Vega. Non ci sono rumori di fondo che potrebbero mascherare gli artefatti della compressione. Terzo: la voce di Suzanne Vega ha una timbrica particolare – calda, intima, con quel tocco di raucedine che la rende riconoscibilissima. Ha un range dinamico interessante, con passaggi più sussurrati e altri più decisi. È, in sostanza, una voce “complessa” dal punto di vista acustico.

Brandenburg cominciò a lavorare ossessivamente su quella canzone. La ascoltava centinaia di volte al giorno, modificando l’algoritmo, riascoltando, modificando ancora. Era un processo estenuante, maniacale. Ogni volta che faceva un cambiamento al codice, doveva riascoltare per verificare se il risultato era accettabile o meno. Il problema era che dove la musica strumentale suonava ancora accettabile, la voce diventava un disastro.

Brandenburg dovette continuare a raffinare, ottimizzare, aggiustare l’algoritmo finché quella voce non suonò bene, finché non riuscì a catturare quel calore, quella intimità, quella qualità umana che rendeva “Tom’s Diner” così speciale. Va detto, ad onor del vero, che “Tom’s Diner” non fu l’unica canzone usata nei test. Brandenburg e il suo team usarono anche altri brani: “Mountains O’ Things” di Tracy Chapman, “In All Languages” di Ornette Coleman, “Diamonds on the Soles of Her Shoes” di Paul Simon. Anche James Johnston, del team di AT&T che lavorava su un algoritmo concorrente, usava alcuni di questi brani. Ma “Tom’s Diner” divenne il simbolo, il test definitivo, la pietra di paragone. Se l’algoritmo poteva riprodurre quella voce, poteva riprodurre tutto.


1992: Nasce lo standard MPEG Audio Layer–3

Il duro lavoro pagò. Nel 1992, dopo anni di test comparativi condotti da istituti indipendenti, il comitato MPEG approvò lo standard MPEG–1 Audio Layer–3. Il team di Brandenburg aveva vinto la competizione. Il loro algoritmo era risultato superiore agli altri, capace di comprimere l’audio di un fattore 10–12 mantenendo una qualità che la maggior parte degli ascoltatori giudicava “indistinguibile” dall’originale. Ma nessuno, in quel momento, poteva immaginare cosa stava per succedere. MPEG–1 includeva tre layer di codifica audio: Layer–1, Layer–2 e Layer–3. Il Layer–3 era il più complesso e il più efficiente, ma anche il più esigente dal punto di vista computazionale. Nei primi anni ’90, i computer domestici erano ancora troppo lenti per codificare audio in Layer–3 in tempo reale. Era una tecnologia all’avanguardia, ma senza applicazioni pratiche immediate. Il Layer–2, più semplice e meno efficiente, fu adottato per la Digital Audio Broadcasting (DAB) in Europa. Sembrava che il Layer–3 – quello che poi sarebbe diventato l’MP3 – fosse destinato a un ruolo marginale, una curiosità tecnica per audiofili con computer potenti.

Brandenburg stesso aveva già sviluppato un successore chiamato Advanced Audio Coding (AAC), che era ancora più efficiente dell’MP3. Sembrava che Layer–3 fosse destinato al dimenticatoio prima ancora di decollare. E poi arrivò il 1995. Due cose cambiarono tutto: il World Wide Web e Windows 95. Il Web stava esplodendo. Improvvisamente, milioni di persone avevano accesso a internet e volevano condividere cose: immagini, testi, e, naturalmente, musica. Ma le connessioni erano lentissime – modem 28.8k, se eri fortunato, che impiegavano ore per scaricare file di pochi megabyte. Serviva un formato che permettesse di condividere musica in dimensioni ragionevoli. Windows 95 portò nelle case di milioni di persone computer sempre più potenti, con processori in grado di decodificare audio compresso in tempo reale. E, cosa fondamentale, Windows usava file extension a tre caratteri per identificare i tipi di file. Il 14 luglio 1995, con una semplice email interna al Fraunhofer Institute, il Layer–3 ottenne il suo nome definitivo: .mp3

Date: Fri, 14 Jul 1995 12:29:49 +0200
Subject: File extension for Layer 3: .mp3
Hello, In light of the overwhelming consensus of the survey participants, the file extension for ISO MPEG Audio Layer 3 is .mp3

Tre lettere che avrebbero cambiato la storia della musica.

Ma l’MP3 aveva ancora bisogno di un catalizzatore per decollare. Quel catalizzatore arrivò in forma di software. Brandenburg e il suo team, forse intuendo le possibilità, forse solo per sperimentare, svilupparono un player software per Windows. Lo rilasciarono gratuitamente. Altri sviluppatori cominciarono a creare encoder MP3, alcuni legali con licenza Fraunhofer, altri meno. Il formato si diffuse in modo virale, completamente fuori dal controllo dei suoi creatori. E quando nel 1999 arrivò Napster – il servizio di file sharing peer–to–peer – l’MP3 divenne il formato standard per la pirateria musicale su larga scala. L’industria discografica, colta completamente impreparata, gridò allo scandalo. I Metallica protestarono (chi si ricorda di quel periodo alzi la mano…). Ma era troppo tardi. Il genio era uscito dalla bottiglia.


L’ironia: Una tecnologia lossy per democratizzare la musica

C’è un’ironia profonda in tutto questo. L’MP3 è una tecnologia “lossy” – con perdita di informazioni. Ogni volta che si comprime un file audio in MP3, si perdono dati. Permanentemente. Non è reversibile. Un MP3, tecnicamente parlando, è una versione degradata dell’originale. Eppure questa tecnologia “imperfetta” ha democratizzato l’accesso alla musica in un modo che nessuno avrebbe potuto prevedere. Ha reso possibile avere un’intera discoteca in tasca. Ha permesso a milioni di persone di scoprire artisti che non avrebbero mai ascoltato altrimenti. Ha dato agli artisti indipendenti la possibilità di distribuire la propria musica senza bisogno di etichette discografiche. Brandenburg stesso ha sempre avuto sentimenti contrastanti riguardo al successo dell’MP3. Da una parte, era orgoglioso del fatto che la sua tecnologia avesse avuto un impatto così enorme. Dall’altra, era frustrato dal fatto che molte persone usassero bitrate bassi – 128 kbps o meno – che producevano artefatti sonori evidenti.

L’MP3 a 320 kbps suonava eccellente, praticamente indistinguibile dall’originale per la maggior parte degli ascoltatori. Ma per motivi di spazio e velocità di download, molti si accontentavano di qualità inferiori.E poi c’era la questione della pirateria. Brandenburg non aveva mai immaginato che la sua tecnologia sarebbe stata usata principalmente per violare il copyright su scala industriale. Il team di Fraunhofer aveva lavorato per anni su sistemi di protezione dalla copia, DRM, watermarking digitale. Ma nessuna di queste tecnologie fu mai implementata efficacemente nell’ecosistema MP3 che si sviluppò nel selvaggio (ma bellissimo) west di internet alla fine degli anni ’90. In un’intervista del 1994, Ricky Adar – un imprenditore indo–britannico – disse a Brandenburg: “Do you know that you will destroy the music industry?

Brandenburg, all’epoca, pensò che fosse un’esagerazione. Non lo era. L’MP3 non distrusse l’industria musicale nel senso letterale – la musica esiste ancora, gli artisti continuano a creare, le persone continuano ad ascoltare. Ma la trasformò radicalmente. Il modello di business basato sulla vendita di album fisici collassò. Le etichette discografiche persero il loro potere, per poi riorganizzarsi e riacquistarlo negli  anni successivi. La distribuzione si democratizzò. E tutto questo grazie a una formula matematica che eliminava le frequenze che l’orecchio umano fatica a percepire.


Box: come funziona “davvero” la compressione MP3

Dietro la “magia” dell’MP3 c’è matematica solida. L’algoritmo si basa su quattro pilastri fondamentali:

– Trasformata MDCT
Il segnale audio viene scomposto in 576 campioni per frame, trasformati dal dominio del tempo al dominio delle frequenze. Praticamente, invece di avere una forma d’onda, otteniamo uno spettro.

– Psicoacustica
L’algoritmo calcola quali frequenze vengono “mascherate” da altre più forti. Esempio: se c’è un tamburo a 100 Hz molto potente, il nostro orecchio non sentirà un suono debole a 110 Hz. Perché sprecare bit per codificarlo? Il modello psicoacustico divide lo spettro in 32 bande critiche che corrispondono alla risoluzione in frequenza dell’orecchio umano.

– Quantizzazione
Le frequenze “importanti” (quelle che sentiamo) vengono codificate con più bit. Quelle mascherate o poco udibili vengono quantizzate grossolanamente o eliminate del tutto. Un suono a 15 kHz, quasi al limite dell’udibile, potrebbe essere rappresentato con 2-3 bit invece di 16.

– Codifica di Huffman
I dati già compressi vengono ulteriormente compressi con codifica entropica. I pattern più frequenti ottengono codici più corti.

– Risultato numerico:
Audio PCM: 44100 campioni/sec × 16 bit × 2 canali = 1411.2 kbps
MP3 a 128 kbps: rapporto di compressione 11:1
MP3 a 320 kbps: rapporto di compressione 4.4:1


Suzanne Vega scopre di essere la madre degli MP3

Per anni, Suzanne Vega non aveva idea del ruolo che la sua canzone aveva giocato nello sviluppo dell’MP3. Era il 2000. Vega, ormai artista affermata con una carriera consolidata, stava accompagnando sua figlia all’asilo. Un padre si avvicinò e la congratulò per essere “la madre dell’MP3”. Vega non aveva idea di cosa stesse parlando. L’uomo le spiegò di aver letto un articolo – iperbolicamente intitolato “Ich Bin Ein Paradigm Shifter: The MP3 Format is a Product of Suzanne Vega’s Voice and This Man’s Ears” – che raccontava di come Brandenburg avesse usato “Tom’s Diner” per sviluppare l’algoritmo di compressione.Vega rimase sbalordita. La sua canzone, quel piccolo brano intimo che aveva scritto negli anni ’80 mentre frequentava il Barnard College, era diventata un pezzo fondamentale nella storia della tecnologia digitale.

Nel 2007, Vega fu invitata al Fraunhofer Institute a Erlangen. Brandenburg e il suo team le fecero ascoltare come “Tom’s Diner” suonava nelle prime versioni dell’algoritmo, prima che venisse raffinato. Era, nelle parole di Brandenburg stesso, “horrible”. La voce era distorta, piena di artefatti, quasi irriconoscibile.Le mostrarono poi come avevano lavorato per mesi, iterazione dopo iterazione, per catturare quella qualità vocale che rendeva il brano speciale. Le spiegarono la psicoacustica, i test di ascolto, l’ossessione per i dettagli. Vega, che era sempre stata attenta alla qualità delle sue registrazioni, apprezzò l’ironia: una canzone registrata con cura maniacale aveva aiutato a sviluppare una tecnologia di compressione che, in un certo senso, sacrificava parte di quella qualità per ragioni di praticità.

E c’è un’altra ironia in questa storia. Nel 2012, Vega fu invitata al Thomas Edison National Historical Park nel New Jersey. Lì, cantò “Tom’s Diner” – la canzone che era diventata il simbolo della rivoluzione digitale – incidendola su un cilindro Edison, una delle tecnologie di registrazione più antiche e più analogiche che esistano. Era un gesto simbolico: riportare la canzone alle sue radici analogiche, registrarla con una tecnologia che precedeva di decenni anche il vinile. E naturalmente, qualcuno prese quella registrazione su cilindro Edison e la convertì in MP3, chiudendo il cerchio in un modo che solo la tecnologia moderna potrebbe permettere. Il Museum of Portable Sound ha reso disponibile quel file MP3 – una registrazione analogica su cera del brano che ha definito la compressione audio digitale – come un regalo per gli appassionati. Un atto che collega, simbolicamente, l’era di Edison all’era di Spotify. Audio Player

00:00

00:00

Usa i tasti freccia su/giù per aumentare o diminuire il volume.


Dal Walkman a Spotify, passando per l’iPod

Prima dell’iPod: per vent’anni, dal 1979, il Sony Walkman aveva dominato
l’ascolto portatile. Prima con le cassette, poi con il Discman per i CD. Ma
avevi sempre un limite fisico: una cassetta, un CD alla volta. Gli MP3 player
pre-iPod – come l’MPMan F10 del 1998 – promettevano di risolvere questo problema, ma con soli 32MB di storage (circa 8 canzoni a 128kbps) erano poco più che curiosità tecnologiche.

1999: Arriva Napster. Shawn Fanning, uno studente diciannovenne, crea un software che permette di condividere file MP3 direttamente tra utenti, senza server centrali. In pochi mesi, milioni di persone scaricano musica gratuitamente. L’industria discografica va nel panico. Seguono cause legali, battaglie in tribunale. Napster viene chiuso nel 2001, ma è troppo tardi. Il modello è stato stabilito: la musica può circolare liberamente online.

2001: Apple lancia l’iPod. “1000 songs in your pocket” è lo slogan. L’MP3 player definitivo, elegante, con un’interfaccia intuitiva. L’iPod non fu il primo MP3 player – ce n’erano già dozzine sul mercato – ma fu quello che rese l’idea mainstream. Improvvisamente, avere la tua intera collezione musicale in tasca non era più un sogno da nerd, era una realtà consumer.

2003: Apple lancia iTunes. Finalmente, un modo legale di acquistare musica digitale. 99 centesimi per canzone, qualità ragionevole, niente DRM invasivo. Non risolve il problema della pirateria, ma offre un’alternativa valida. In pochi anni, iTunes diventa il più grande rivenditore di musica al mondo.

2008: Spotify viene lanciato in Svezia. Un nuovo modello: streaming, non download. Accesso illimitato a milioni di brani per una fee mensile (o gratis con pubblicità). L’MP3 come file da possedere inizia lentamente a diventare obsoleto. Perché avere file sul tuo hard disk quando puoi avere accesso istantaneo a tutto?

2017: I brevetti sull’MP3 scadono. Il Fraunhofer Institute annuncia ufficialmente la “morte” dell’MP3 e si concentra su codec più moderni come AAC e Opus. Ma è una morte puramente tecnica: l’MP3 continua ad essere usato ovunque, un formato legacy che probabilmente non morirà mai completamente.

Durante tutti questi anni, Fraunhofer ha guadagnato centinaia di milioni di euro in royalty dai brevetti MP3. Quel denaro è stato reinvestito nella ricerca, creando nuove generazioni di codec audio sempre più efficienti: AAC (usato da Apple), MPEG–H (per l’audio immersivo), EVS (per le chiamate 5G). Brandenburg, che nel 2000 ricevette il prestigioso “Deutscher Zukunftspreis” (il premio tedesco per l’innovazione), non si è mai fermato. Oggi dirige il Brandenburg Labs, una startup che lavora su tecnologie audio avanzate come l’audio immersivo per cuffie, cercando di creare esperienze sonore che siano indistinguibili dalla realtà. Il team originale del Fraunhofer – Brandenburg, Bernhard Grill, Jürgen Herre, Harald Popp, Ernst Eberlein – è stato insignito di premi e riconoscimenti in tutto il mondo. Sono entrati nella Internet Hall of Fame. Nella CE Hall of Fame. Nel German Research Hall of Fame. Ma forse il riconoscimento più significativo è il più semplice: vai in qualsiasi angolo del mondo, chiedi a qualcuno di qualsiasi età cosa sia un “MP3”, e lo sapranno. Un formato che ha definito un’intera era della cultura digitale.


FLAC, OGG, vinile, e il ritorno della qualità

E qui arriviamo a una delle parti più interessanti di questa storia. Perché non tutti hanno abbracciato l’MP3. Non tutti hanno abbracciato lo streaming. Non tutti si sono accontentati della convenienza a scapito della libertà e del controllo. Negli anni 2000, mentre l’MP3 dominava e Fraunhofer lucrava sui brevetti, c’era già una controcultura che cresceva silenziosamente.

OGG Vorbis – rilasciato nel 2000 dalla Xiph.Org Foundation – fu la risposta della comunità open source al monopolio dell’MP3. Mentre Fraunhofer e Thomson richiedevano licenze e royalty per encoder MP3, OGG era completamente libero, senza brevetti, senza restrizioni. Non solo: a parità di bitrate, OGG offriva spesso una qualità superiore all’MP3. Era tecnicamente migliore e filosoficamente coerente con l’etica del software libero. Per chi credeva nell’open source, per chi rifiutava l’idea di pagare royalty su un formato audio, per chi voleva avere il pieno controllo sui propri strumenti, OGG divenne il formato di elezione. Non era solo una questione tecnica: era una questione di principio. Lo stesso spirito che aveva animato il movimento del software libero negli anni ’80 – la GPL, la Free Software Foundation, tutto il lavoro di Stallman – si estendeva ora al mondo degli audio codec.

E poi c’erano quelli che rifiutavano completamente la compressione lossy. FLAC – Free Lossless Audio Codec, rilasciato nel 2001 – offriva compressione senza perdita di dati. File più grandi, certo, ma identici bit per bit all’originale. Per gli audiofili più intransigenti, FLAC era l’unica scelta accettabile. Ma non si trattava solo di formati digitali. Proprio mentre il digitale sembrava aver vinto, i dischi in vinile hanno cominciato a tornare. Le vendite, che erano crollate negli anni ’90 e 2000, hanno ricominciato a crescere. Nel 2020, per la prima volta in decenni, le vendite di vinile hanno superato quelle dei CD.

Nostalgia, certo. Il fascino dell’oggetto fisico, della copertina grande, del rituale di mettere il disco sul piatto, certo. Ma c’è anche un elemento “carnale”: possedere un vinile, o un CD, significa possedere qualcosa di reale, di tangibile. Qualcosa che non può essere cancellato da un server, revocato da un servizio di streaming, perso in un crash del disco rigido.

Io stesso, da anni, ho deciso di stare fuori dai servizi streming. Acquisto, fisicamente, CD (quasi sempre usati), li rippo in OGG, li taggo “a modino” e li metto sul mio NAS FreeBSD con ZFS. E poi il mio server Navidrome, richiamandoli in NFS, fa il resto. Ho scelto di mantenere il controllo sui miei dati, di privilegiare un formato libero e open source rispetto alla convenienza proprietaria. È una scelta che richiede tempo (e qualche bestemmia sparsa…), hard disk da gestire, docker compose da aggiornare, backup da fare, player da configurare. Ma è anche una scelta che mi dà una sensazione di proprietà, di controllo che lo streaming non può dare.

C’è un’ironia in tutto questo: la tecnologia che “Tom’s Diner” ha contribuito a creare – l’MP3, la compressione lossy, l’idea che “abbastanza buono” sia sufficiente – ha innescato due tipi di resistenza. Chi la rifiutava per motivi di qualità (gli audiofili con FLAC), e chi la rifiutava per motivi di libertà (la comunità open source con OGG). E spesso, queste due anime si sovrapponevano.

Ma questa scelta è possibile solo perché gli hard disk sono diventati enormi, le connessioni internet veloci, lo storage economico. Le stesse tecnologie che hanno reso l’MP3 obsoleto hanno reso possibile collezionare OGG o FLAC senza pensarci due volte. In un certo senso, l’MP3 ha creato le condizioni per la propria obsolescenza – e per la nascita di alternative più libere e spesso migliori.


Qualche insegnamento da trarre

Questa storia ci ha insegnato diverse cose. Ci ha insegnato che la convenienza spesso batte la perfezione. Ci ha insegnato che le tecnologie sviluppate per uno scopo (trasmissione professionale via ISDN) possono finire per essere usate in modi completamente diversi (file sharing di massa). Ci ha insegnato che le industrie consolidate possono essere sconvolte da tecnologie che inizialmente sembrano marginali o di nicchia. Ma forse la lezione più importante è questa: la tecnologia è sempre, in fondo, una questione umana. L’MP3 non è solo un algoritmo matematico. È la voce di Suzanne Vega che canta di un caffè e di pioggia.

I am sitting in the morning
At the diner on the corner
I am waiting at the counter
For the man to pour the coffee

È l’ossessione di Brandenburg per catturare quella calda tonalità vocale. Stiamo vivendo, in altre parole, le conseguenze di quelle migliaia di ascolti ripetuti di “Tom’s Diner”, di quell’ossessione per i dettagli, di quella ricerca della compressione perfetta.

E se Suzanne Vega non avesse scritto quella canzone? Se Brandenburg avesse scelto un altro brano per i suoi test? Probabilmente l’MP3 sarebbe stato sviluppato comunque. La tecnologia era nell’aria, il problema della compressione audio doveva essere risolto. Ma forse ci sarebbe voluto più tempo. Forse l’algoritmo sarebbe stato leggermente diverso. Forse la storia avrebbe preso una piega diversa.

Mi piace pensare che il progresso tecnologico sia inevitabile, deterministico, che segua una logica interna inarrestabile. Ma storie come questa ci ricordano quanto sia casuale, quanto dipenda da scelte individuali, da coincidenze.

E ora, se mi scusate, vado ad aggiornare l’ultima release di Navidrome sul mio server Proxmox. Con Docker, ovviamente.


Fonti

Timeline:
https://www.mp3–history.com/en/timeline.html

Fraunhofer Alumni Interview:
https://www.fraunhofer.de/en/quick–links/alumni/news/mp3–inventor–brandenburg–interview.html

Internet History Podcast
https://www.internethistorypodcast.com/2015/07/on-the-20th-birthday-of-the-mp3-an-interview-with-the-father-of-the-mp3-karlheinz-brandenburg/

Ghost in MP3
https://www.theghostinthemp3.com/theghostinthemp3.html
https://www.theghostinthemp3.com/media_files/pdf/TheGhostICMC.pdf

Museum of Portable Sound – MP3@25:
https://museumofportablesound.com/mp325-1a/

Martin Vetterli blog:
https://medium.com/martinvetterli/suzanne–vega–and–the–father–of–mp3–7bc546f76442

KEF Audio Blog:
https://us.kef.com/blogs/news/tom-s-diner-and-the-birth-of-the-mp3?srsltid=AfmBOoqOymmH-xhPIUy34SC736bgMP5qNXdFm9f-cK7VoKBE1VyGU0ms

Lascia un commento

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.