| 09 Novembre 2006
Audio digitale frequenza di campionamento
e risoluzione.
|
INTRODUZIONE Questo rappresenta il primo di una serie di articoli dedicati all’ audio digitale e finalizzati ad evidenziarne i pregi ed i difetti, in maniera tale che, noti questi, si potrà procedere alla creazione ed al trattamento dei nostri file audio cercando di minimizzare i problemi ad essi legati e magari evitare anche alcuni tipici errori che tutti noi abbiamo commesso almeno per una volta durante l’uso della nostra Digital Audio Workstation. Chiaramente non approfondirò in maniera estrema gli aspetti più squisitamente teorici, anche se qualche piccolo ragguaglio in merito sarà indispensabile per capire un po’ meglio il perché di molte scelte che nella pratica ci troveremo Vi auguro, quindi, una buona lettura sperando di riuscire ad essere chiaro ed esauriente e soprattutto scorrevole. IL FENOMENO FISICOInnanzitutto bisogna specificare per bene cosa sia il suono dal punto di vista fisico (ovviamente allo stato analogico).Alla luce di ciò, si capisce facilmente che per interrompere la propagazione del suono, cosa che facciamo ad esempio quando cerchiamo di isolare un ambiente rispetto all’esterno, bisogna per prima cosa interrompere la continuità dell’aria interna alla stanza da isolare con l’aria esterna tramite una chiusura ermetica della stessa e poi rendere le pareti immuni alle vibrazioni per evitare che esse stesse si trasformino in un grosso corpo vibrante con conseguente propagazione di onde elastiche all’esterno tramite l’uso di strati di materiali refrattari al suono. Appartiene alla categoria delle onde elastiche che, a differenza delle onde elettromagnetiche, si propagano all’interno di un mezzo materiale tramite l’interazione degli atomi e delle molecole del mezzo stesso. Perciò il fatto di sentire un suono da parte nostra implica una serie di fenomeni collegati fra loro. L’onda elastica in questione viene prodotta da un qualunque corpo vibrante, ad esempio la nostra laringe che vibra mentre parliamo oppure le corde di una chitarra ecc… Quest’onda crea una perturbazione dello stato di equilibrio della pressione e della densità dell’aria circostante la quale reagisce elasticamente innescando la propagazione della perturbazione stessa un po’ come avviene quando si propaga un’onda nel mare e ad una velocità di circa 343 metri al secondo (oppure circa 1235 chilometri all’ora nota anche come MACH 1). Tale perturbazione arriva poi al nostro orecchio facendo vibrare la membrana elastica del timpano per arrivare infine come impulso elettrico al cervello ed ivi interpretata. La presenza di un mezzo materiale, come nel nostro caso l’aria, è fondamentale per la propagazione del suono. Infatti se come caso limite ci trovassimo nel vuoto più completo le onde sonore non si propagherebbero e non giungerebbero mai al nostro orecchio. Il perché di quest’ultimo fatto si può capire facilmente se consideriamo che l’onda sonora non è un’entità materiale, che se lo fosse potrebbe quindi viaggiare essa stessa, ma è soltanto una perturbazione (o vibrazione) che sfrutta la materia in cui è immersa (l’aria o altro gas) per interagire col mondo materiale. Nel caso nostro tale perturbazione crea un movimento oscillatorio delle molecole dell’aria intorno alla loro posizione di equilibrio. Tali molecole, dopo essere state investite dall’onda, ritornano in quiete (o meglio nella posizione di equilibrio precedente alla sollecitazione ondosa) trasmettendo la perturbazione alle molecole successive con una sorta di reazione a catena. Risulta perciò intuitivo notare che l’intensità del suono diminuisce (l’onda si smorza pian piano) man mano che ci allontaniamo dalla sorgente vibrante che l’ha prodotta a causa della resistenza dell’aria che muovendosi consuma progressivamente l’energia sonora. PRINCIPALI PROPRIETA’ DELLE ONDE ACUSTICHE //Se pensiamo al fenomeno suono come un’onda, che è quindi un qualche cosa di oscillante, diventa abbastanza naturale riconoscere in esso le proprietà principali che caratterizzano le onde che sono l’ampiezza, la In alternativa a questo terzo parametro si può considerare la frequenza dell’oscillazione, legata alla durata tramite una proporzionalità inversa (in pratica la frequenza è il reciproco della durata). Per cercare di semplificare le cose e soprattutto per capire cosa rappresentino nella pratica queste proprietà, farò degli esempi grafici usando come suono di riferimento un’onda sinusoidale che rappresenta il suono più semplice da interpretare. Nell’immagine soprastante è raffigurata un’onda sinusoidale in un sitema di riferimento in cui l’asse orizzontale rappresenta la variabile Tempo mentre l’asse verticale rappresenta la variabile Ampiezza. Chiaramente si vede la natura periodica (ripetitiva) dell’onda stessa, infatti possiamo distinguere il suo periodo (indicato dalla quantità P) o durata temporale come l’intervallo di tempo che intercorre fra 2 onde uguali. Inoltre, se conosciamo il periodo P (espresso in secondi) di una oscillazione, possiamo ottenerne la frequenza Ad esempio, se ho un periodo P della durata di 0.5 secondi otterrò, applicando la formula, una frequenza F di 1 / 0.5 = 2 Hertz ; se ho un periodo P di 0.05 secondi avrò una frequenza F di 1 / 0.05 = 20 Hertz e così via… Perciò un periodo Nella realtà si può osservare che i suoni non sono sempre periodici (onde ripetute identicamente) , ma possono essere anche dei singoli impulsi isolati oppure delle onde periodiche che però si modificano man mano durante la loro evoluzione, ma noi per semplicità ci riferiremo a titolo d’esempio alle onde periodiche in senso stretto. Se guardiamo adesso l’altezza dell’onda, possiamo identificarne l’ampiezza (indicata dalla quantità A) come il massimo intervallo in ampiezza (asse verticale) che intercorre fra i due picchi (uno positivo e l’altro negativo) della sinusoide. Perciò un’ampiezza maggiore si traduce in un’onda più alta e viceversa. Inoltre possiamo ancora distinguere dal grafico la zona evidenziata in giallo che è contraddistinta da valori positivi di A ed è la Fase Positiva dell’onda. Al contrario la zona evidenziata in rosa, contraddistinta da valori negativi di A, è la Fase Negativa. Se vogliamo capire cosa vuol dire tutto ciò nella pratica, è sufficiente collegare alla frequenza di un suono la sua altezza tonale ed all’ampiezza il suo volume sonoro. Riguardo alla fase
Ma allora perché ci concentriamo anche sulla fase dell’onda se l’orecchio non fa differenza? E’ semplice, se noi pensiamo di sommare (mixare) il suono A ed il suono B otterremo semplicemente del silenzio (vedi suono C) poiché due onde una l’inversa dell’altra (ovvero in controfase) sommandosi si annullano completamente. Ovviamente quest’ultimo è il caso limite (totale annullamento del suono) , ma se ci dovessimo trovare a sommare due onde che hanno anche solo parzialmente delle zone in controfase, nel risultato finale annullerò il suono parzialmente ed in particolare se ne andranno quelle precise zone di segnale relative alle zone in controfase delle due onde di partenza. Questo fenomeno è noto con il nome di cancellazione di fase e si può verificare ogni qualvolta sommiamo (mixiamo) due o più segnali. Ad esempio, una traccia audio stereofonica è la somma di due tracce distinte relative una al canale destro e l’altra al canale sinistro. E se i due canali dovessero per qualche motivo andare in controfase, mi ritroverei durante l’ascolto della traccia stereofonica delle cancellazioni di fase o peggio ancora l’annullamento totale del suono. Alla luce di ciò, spero risulti evidente l’importanza della fase dei segnali audio, cosa che il nostro orecchio non riesce a percepire direttamente su un singolo suono ma che, nell’interazione fra vari suoni che poi è la situazione reale di un brano qualunque, risulta una variabile estremamente presente e condizionante sul risultato finale. Viste allora cosa sono l’ampiezza, il periodo (o la frequenza) e la fase di un’onda sonora, seguiranno alcuni esempi di onde ove possiamo riconoscere ad occhio le differenze fra queste stesse variabili e dedurre dai grafici qualcosa in più sul suono di ogni onda.
Innanzitutto c’e da dire che la prima differenza che salta all’occhio fra le onde 1,2,3 e le onde 4,5,6 è che hanno una forma diversa, cosa che all’ascolto si tradurrà in un timbro sonoro diverso. In particolare le onde 1,2,3 suoneranno come delle sinusoidi (ovviamente) e le onde 4,5,6 suoneranno più o meno come delle onde a dente di sega (o sawtooth). Ma cos’altro si può dedurre dal confronto di tali onde? Le onde 1 e 3 hanno la stessa forma, lo stesso periodo (o frequenza) ma hanno ampiezze diverse. Ciò vorrà dire che il suono 3 ha lo stesso timbro e stessa nota del suono 1 ma differisce solo per il fatto che ha un volume sonoro più basso dovuto alla minore ampiezza. Lo stesso dicasi dal confronto fra l’onda 4 con l’onda 6. Se ora confrontiamo le onde 1 e 2 vediamo che hanno la stessa forma, la stessa ampiezza ma periodi (o frequenze) diverse. Ciò vorrà dire che il suono 2 ha lo stesso timbro e lo stesso volume sonoro del suono 1 e differirà per l’altezza della nota ed in particolare la nota suonata dall’onda 2 sarà più alta di quella suonata dall’onda 1. Ovviamente lo stesso si può notare confrontando l’onda 4 con l’onda 5. Infine se confronto i suoni relativi alle onde 2 e 3, così come le onde 5 e 6, si può vedere che hanno in comune soltanto il timbro sonoro ed hanno volume ed altezze di nota differenti. Avendo chiarito quindi quali sono le proprietà caratterizzanti del suono possiamo introdurci nel mondo dell’ audio digitale per cercare di capire quali sono le sue peculiarità anche in rapporto al mondo analogico. IL DIGITALE E LA DISCRETIZZAZIONENel mondo degli apparecchi analogici le onde sonore vengono descritte da variazioni continue di voltaggio al trascorrere del tempo (è come se avessimo la variabile Volt al posto della variabile Ampiezza sull’asse verticale dei grafici soprastanti) e poi si trasforma il segnale elettrico in vibrazioni udibili per mezzo degli altoparlanti (una specie di grossa laringe). Al contrario, un microfono si occupa di captare le vibrazioni nell’aria tramite la sua membrana interna per poi trasformarle in segnale elettrico (come un grosso timpano). Ovviamente i microfoni e gli altoparlanti (ed i loro comportamenti) rimangono tali e quali sia che si usino apparecchi analogici che digitali. Se per esempio consideriamo una situazione tipica ove abbiamo un microfono che capta dei suoni, attaccato a mixer e registratore ed infine delle casse monitor (tutto in analogico) , avremo che l’onda sonora viene trasformata in un segnale elettrico dal microfono, poi viene trattata a nostro piacere dal mixer e registrata su di un supporto analogico (ad esempio il nastro magnetico) per poi essere rispedita in ascolto agli altoparlanti che ritrasformano il segnale elettrico in vibrazioni udibili. Se riconsideriamo l’esempio precedente in un contesto di apparecchiature digitali a livello fenomenologico non cambia nulla ma fra microfono e casse monitor (che sono sempre gli stessi componenti analogici di prima) non avremo più delle apparecchiature che gestiscono segnali elettrici analogici (e quindi continui) ma dei dispositivi digitali che, in quanto tali, trattano il segnale come una variazione di ampiezza non più continua ma discreta. La trasformazione del segnale continuo uscente dal microfono in un segnale discreto avviene per mezzo dei convertitori A/D (analogico/digitale). A questo punto le operazioni di Ma cosa vuol dire avere a che fare con un segnale continuo o un segnale discreto ed in cosa differiscono?
Come si può notare dalla figura, sebbene i due segnali descrivano entrambi onde sinusoidali caratterizzate oltretutto da stessa ampiezza, fase e frequenza (o periodo) , situazione che porterebbe a dei suoni simili, si vede chiaramente che il segnale analogico percorre la sinusoide in maniera morbida e curvilinea invece quello digitale percorre la stessa curva con un andamento a gradini e con dei salti bruschi al posto delle transizioni graduali del caso analogico. Il motivo per cui avviene tutto ciò va ricercato nei numeri, o meglio nel modo in cui essi vengono rappresentati. Per chiarire meglio ques’ultimo concetto farò un esempio un po’ strano, ma che secondo me rende abbastanza l’idea… Se noi guardiamo il piano (Tempo-Ampiezza) dove è raffigurata l’onda sinusoidale della figura precedente e facciamo finta che sia un foglio bianco su cui vogliamo disegnare la nostra onda tracciando dei punti e poi unendoli con una riga, si capisce subito che per tracciare la curva relativa al segnale discreto è sufficiente tracciare i pochi punti relativi agli spigoli dei gradini unendoli con delle linee di una certa lunghezza che ricostruiscono proprio l’andamento a gradini. Invece, per tracciare la curva relativa al segnale continuo dovremmo tracciare un’infinità di punti molto più ravvicinati (diciamo infinitamente vicini) uniti da delle linee di lunghezza infinitamente piccola per ottenere l’andamento morbido e curvilineo della sinusoide analogica (ed i gradini diventano così piccoli da sparire del tutto). Ovviamente, sia nel caso continuo che nel caso discreto, i punti sono collegati a dei valori numerici che sono quei valori che il segnale può assumere durante la sua evoluzione. Questo vuol dire che, per descrivere delle onde nel caso analogico, troverò un valore buono (ovvero uno di quei punti) in un qualsiasi valore di tempo o di ampiezza fissi la mia attenzione. Invece, per descrivere delle onde nel caso digitale (e quindi discreto), troverò un valore buono solo se fisso valori di tempo ed ampiezza ben determinati, ovvero valori discreti, ed in particolare corrispondenti agli spigoli dei gradini in questione. Si deduce subito che in un sistema discreto non posso assumere dei valori ad esempio di tempo (o di ampiezza) che mi individuino un punto che cade a metà di un gradino.
Perciò avrò che, nel sistema discreto della figura di qui sopra, i valori numerici fissati dalle linee celesti e da quelle gialle sono dei valori possibili da ottenere mentre, ad esempio, due valori a caso fissati dalle linee rosse non possono essere assunti in questo sistema discreto. Allora, chiarita la principale differenza fra un sistema continuo (ove posso assumere qualsiasi valore) ed un sistema discreto (ove posso assumere solo determinati e ben precisi valori) , possiamo immaginare il piano in cui si può rappresentare un’onda qualunque in un sistema digitale come una specie di griglia e possiamo avere valori buoni solo in corrispondenza degli incroci fra le linee della griglia stessa. Ovviamente, se il mio sistema discreto avesse una griglia a maglie più strette, questo vorrebbe dire che il numero dei valori rappresentabili sarebbe maggiore e la mia sinusoide avrebbe un comportamento sempre a gradini ma di dimensione più piccola, e ciò si traduce in una curva che approssima meglio l’onda continua analogica. Come caso limite, se le maglie della griglia fossero infinitamente strette (e quindi non più distinguibili l’una dall’altra) avrei un sistema audio digitale discreto identico al sistema analogico continuo e le due sinuisoidi (analogica e digitale) risulterebbero anch’esse identiche. Questa approssimazione è la principale ragione per cui il suono analogico ed il suono digitale risultano diversi (quello audio digitale è più freddo ed artificiale per la sua minore precisione). FREQUENZA DI CAMPIONAMENTO E RISOLUZIONEContinuando a ragionare sulla griglia descritta nel precedente paragrafo, possiamo collegare le due principali prerogative di un sistema audio digitale alle dimensioni della maglia della griglia stessa. Più precisamente diremo che la frequenza di campionamento (o sample rate) del nostro sistema definisce la distanza fra due linee gialle, e più precisamente avremo che una frequenza di campionamento più alta renderà più piccola la dimensione delle maglie in direzione orizzontale (e quindi la distanza fra due linee gialle). Similmente la risoluzione (i Vedendo le cose in questa maniera, che poi è quello che accade veramente, risulta immediato notare che più alzo la sample rate e la risoluzione e più avrò delle curve digitali (discrete) con i gradini più piccoli, approssimando così con maggiore precisione il segnale continuo analogico. Come caso limite, ed ovviamente irrealizzabile nella pratica, se potessi avere un sistema audio digitale che campionasse con una sample rate infinita ed una risoluzione in bit infinita, allora le differenze fra analogico e digitale sparirebbero poiché approssimerei la curva analogica con una precisione infinita, ovvero le due curve (continua e discreta) sarebbero perfettamente identiche. Ma diamo adesso un po’ di numeri per farci un’idea più realistica della precisione dei nostri files digitali. Se campioniamo un segnale analogico con un sistema audio digitale che lavora a 44100 Hz ed a 16 bit abbiamo che, per ogni secondo di campionamento, il sistema audio digitale fotograferà il segnale analogico in ingresso al convertitore A/D per ben 44100 volte quindi, tornando alla nostra griglia, avrei che due linee gialle qualunque sull’asse orizzontale che individua il tempo trascorso avrebbero una distanza di 1/44100=0.0227 millisecondi. Per quanto riguarda la risoluzione in bit avremo che ogni nostro campione potrebbe assumere una quantità di valori d’ampiezza (livelli di volume sonoro) pari a 2^16=65536 valori possibili organizzati da –32768 a +32767 sull’asse verticale dell’ampiezza. Se poi ci concentriamo sulla dimensione che un file a 44.1 KHz ed a 16 bit arriva ad avere è sufficiente questo semplice calcolo: (44100 campioni al secondo) X (16 bit) X (60 secondi) X (2 canali in stereo) = 84672000 bits e se li divido per 8 ottengo i bytes (poiché 1 byte = 8 bits) ovvero 10584000 bytes. Ovvero un minuto di campionamento stereo a 44.1 KHz e 16 bit occupa circa 10 MegaBytes. Se adesso campioniamo un segnale usando una sample rate di 96 KHz ed una risoluzione di 24 bit abbiamo che per ogni secondo il sistema audio digitale fotograferà il segnale in ingresso per 96000 volte, e sulla mia griglia avrei come distanza fra due linee gialle un’intervallo di tempo pari a 1/96000=0.0104 millisecondi. In quanto alla risoluzione, ogni campione potrà assumere una quantità di valori d’ampiezza pari a 2^24=16777216. Un file audio a 96 KHz ed a 24 bit perciò ha una dimensione calcolata così: (96000 campioni al secondo) X (24 bit) X (60 secondi) X (2 canali in stereo) = 276480000 bits equivalenti a 34560000 bytes. Quindi un minuto di campionamento stereo a 96 KHz e 24 bit occupa circa 34 MegaBytes. A questo punto, se guardiamo con attenzione al modo in cui abbiamo correlato i numeri alla nostra griglia di campionamento ed osserviamo la griglia stessa, possiamo fare alcune considerazioni che risultano estremamente importanti per fare delle scelte più consapevoli riguardo alla sample rate ed alla risoluzione da scegliere durante l’uso della nostra DAW. (FOTO 6 Audio digitale) Avete notato che mentre le linee gialle (relative alla sample rate) hanno una distanza fra loro che si mantiene sempre uguale, invece le linee celesti (relative alla risoluzione) hanno una distanza che, allontanandomi dalla linea centrale (ovvero il valore di ampiezza zero, il silenzio) diminuisce progressivamente infittendo così il reticolo? Perché avviene tutto ciò? E soprattutto, quali effetti ha questa cosa nella pratica? Il perché avviene tutto ciò va ricercato nei numeri, o meglio nel modo in cui li usiamo per descrivere l’ audio digitale. Le linee gialle relative alla frequenza di campionamento sono state determinate in base a quante volte al secondo viene fotografato il suono in ingresso al convertitore A/D e questo fatto porta ad avere una corrispondenza lineare fra il lasso di tempo intercorrente fra due campioni (distanza fra due linee gialle adiacenti) ed il numero che specifica la frequenza di campionamento stessa. Ad esempio se raddoppio la frequenza di campionamento otterrò un’intervallo di tempo fra due campioni dimezzato. Nella pratica avrò che un raddoppio di sample rate si traduce in una qualità del suono doppia (numericamente parlando) ma anche in un file di dimensioni raddoppiate. La quantità di valori possibili delle linee azzurre relative alla risoluzione, invece, è stata definita numericamente come 2 elevato al numero di bit in questione. Questo fatto ci porta ad avere una corrispondenza esponenziale fra il numero dei bit ed il numero di valori di ampiezza rappresentabili nel sistema discreto digitale. Ad esempio l’aumento di un solo bit (e non il raddoppio dei bit!) mi porta ad avere un numero doppio di valori di ampiezza possibili. L’aumento di due soli bit mi restituisce un numero quadruplo di valori d’ampiezza possibili, e così via… Nella pratica avrò che ad esempio un file a 24 bit ha dimensioni di una volta e mezzo rispetto ad un file a 16 bit (di uguale sample rate) ma quell’aumento di 8 bit mi porta ad avere un incremento di valori di ampiezza rappresentabili (e quindi di qualità) di 2^8=256 volte rispetto al file a 16 bit. E questo è il motivo per cui si sente spesso dire in giro che aumentare il numero di bit porta ad una aumento di qualità molto più marcato rispetto ad un aumento di frequenza di campionamento. In effetti, l’ideale sarebbe registrare i suoni con la massima risoluzione ed anche con la massima frequenza di campionamento che il nostro sistema audio digitale permette, ma abbiamo visto che l’aumento di sample rate fa crescere di dimensioni il file audio corrispondente molto più rapidamente rispetto all’aumento di risoluzione. Perciò, se abbiamo dei problemi a gestire con la nostra DAW dei file audio che potrebbero diventare di dimensioni enormi con un conseguente aumento di stress per il povero malcapitato processore di turno, allora siamo costretti a fare delle scelte di compromesso fra la qualità dell’ audio digitale e le dimensioni dei files audio da gestire. Il mio consiglio al proposito è quello di usare la massima risoluzione possibile permessa dal nostro sistema audio digitale ed una frequenza di campionamento sufficientemente alta ma non così alta da far lievitare i files così tanto da renderli ingestibili. Per precisare meglio quale sia una sample rate sufficiente in base alle nostre necessità vi invito a leggere il paragrafo successivo, in cui cercerò di chiarire in maniera anche più pratica le cose. LIMITI INSORMONTABILI DEL SISTEMA DIGITALECome è ben noto, secondo la teoria di Nyquist, la massima frequenza sonora rappresentabile in un sistema audio digitale è pari alla metà della frequenza di campionamento che si sta utilizzando. Questo fatto si può capire se pensiamo che la nostra onda è sempre caratterizzata da un’alternanza di fasi, per cui l’onda più piccola (e quindi la frequenza più acuta) che possiamo descrivere nel sistema avrà un campione con valore d’ampiezza maggiore ed un secondo campione con un valore d’ampiezza minore (o viceversa). Perciò, il minimo numero di campioni da usare per rappresentare correttamente un’onda sarà due, con la logica conseguenza che la massima frequenza rappresentabile sarà la metà della frequenza di campionamento in uso. Allora, lavorando ad esempio a 44100 Hz di sample rate potrò rappresentare correttamente le frequenze sonore fino a 22050 Hz. Quindi la frequenza di campionamento sufficiente a soddisfare le nostre esigenze in quanto a qualità del suono deve essere almeno il doppio della massima frequenza sonora che intendiamo registrare e/o riprodurre. Inoltre, una sample rate più elevata permette a molti tipi di processori d’effetto di lavorare in maniera più precisa ma pagando un prezzo più alto in termini di stress sul sistema.
Se adesso ci concentriamo sull’ampiezza dell’onda riferendoci alla figura soprastante, possiamo notare altre cose importanti.Inoltre il clipping audio digitale risulta all’ascolto estremamente sgradevole (il suono risulta sporcato da dei veri e propri ‘ I convertitori A/D (ed ovviamente anche i convertitori D/A in uscita) hanno dei limiti ben precisi riguardo al livello sonoro di un segnale da campionare correttamente. In figura sono indicati con delle linee arancioni i massimi valori di ampiezza che l’onda può assumere, il che vuol dire che se vengono superati tali limiti, ad esempio alzando più del dovuto il livello di registrazione oppure alzando troppo il volume del file audio in fase di editing dello stesso, ci ritroveremo ad avere un’onda con delle zone appiattite, non potendo il sistema audio digitale oltrepassare i propri stessi limiti Questo appiattimento di porzioni di onda si traduce in pratica nella distorsione (o clipping)audio digitale, che, a differenza della distorsione in un sistema interamente analogico, sopraggiunge non appena si supera il limite del sistema anche di una quantità minima.
ALCUNE STRANEZZE DELL' AUDIO DIGITALEOltre ad avere dei problemi di distorsione quando superiamo il limite massimo d’ampiezza rappresentabile dal sistema audio digitale, possiamo riscontrare degli altri problemi se, nel caso contrario, ci troviamo a campionare i segnali analogici con un livello di registrazione troppo basso.
Se ripensiamo a quanto detto in precedenza sulla non linearità della disposizione dei possibili valori di ampiezza, ed in particolare detti valori si infittiscono allontanandoci dallo zero (quello individuato dalla linea rossa in figura) , possiamo ovviamente distinguere la zona centrale che ha una distribuzione di valori meno densa e le zone laterali contraddistinte da una distribuzione più densa di valori possibili di ampiezza. Questo vuol dire che i suoni con un livello di registrazione più basso (e quindi con onde situate più nella zona centrale) avranno a disposizione una griglia di quantizzazione con maglie più grandi rispetto ai suoni che hanno un livello di registrazione più alto, il che vorrà dire che i suoni a basso volume soffriranno maggiormente dell’approssimazione dei valori di ampiezza fra analogico e digitale. Infatti, in fase di campionamento, un suono che in analogico avrà un valore che cade in mezzo a due livelli digitali di ampiezza possibili, in audio digitale assumerà quello che dei due livelli digitali gli si avvicina maggiormente. E visto che le distanze fra i vari livelli digitali possibili sono maggiori a basso volume, in questi casi avrò un’approssimazione più spinta, ovvero dei suoni più ‘sgranati’ (per fare una similitudine con le immagini). Tutto ciò all’ascolto si traduce in quello che si dice ‘ Un buon modo per minimizzare questo problema è quello di cercare di campionare i segnali analogici ad un livello più alto possibile, stando comunque attenti a non superare il livello massimo consentito dai nostri convertitori a causa del clipping descritto in precedenza. Chiaramente, a livello professionale, si usa interporre fra la sorgente da campionare ed il convertitore una serie di dispositivi completamente analogici (tipo compressori e limitatori) atti ad alzare il più possibile il segnale analogico ma mantenendolo al di sotto della soglia di clipping. Altri fenomeni strani ed apparentemente inspiegabili si presentano se si cerca di campionare dei suoni che contengono delle frequenze che superano la frequenza massima gestibile dal sistema (o frequenza di Nyquist). Non entrerò nel dettaglio dei motivi per cui queste altre stranezze accadono perché tale scopo esula dagli obiettivi di questo tutorial, ma farò solo qualche esempio molto semplice per dirvi in pratica cosa succede in questi altri casi. Immaginiamo di campionare alla frequenza di 44100 Hz un suono che supera la frequenza di Nyquist che, con questa sample rate, ammonta a 22050 Hz. Ad esempio il suono da campionare ha una frequenza di 22100 Hz (50 Hz oltre Nyquist!). Avrò che, nel file audio digitale campionato, i suoni che superano Nyquist di una certa quantità di Hertz rimbalzeranno all’indietro della stessa quantità, ovvero il mio suono a 22100 Hz, una volta campionato , diventerà un suono a 22000 Hz e quindi sarà diverso dalla fonte analogica che abbiamo cercato di campionare. Questo fenomeno è noto con il nome di ‘aliasing’ ed all’ascolto si presenta come una sorta di modulazione delle frequenze più acute. L’aliasing si presenta anche quando convertiamo (ricampioniamo) un suono ad una sample rate più bassa. Per rendere un po’ meglio l’idea di che suono abbia questo fenomeno, vi invito ad ascoltare quello che accade nella parte più acuta del suono di un file mp3 con un basso bitrate, ovvero gli acuti risultano appunto modulati e sibilanti. Se poi proviamo a campionare un suono che supera come frequenza sonora addirittura la frequenza di campionamento stessa, il campione audio digitale ottenuto conterrà un suono con una frequenza sonora pari alla quantità che supera il valore di sample rate ma ripartendo da zero. Ad esempio se campioniamo un suono che ha una frequenza sonora di 44150 Hz usando una sample rate di 44100 Hz, il campione audio digitale conterrà un suono con una frequenza sonora di 50 Hz! Un altro fenomeno simile, noto col nome di ‘imaging’ , si manifesta in uscita quando il suono audio digitale viene riconvertito in analogico, perché l’andamento a gradini dell’onda digitale viene confuso dal convertitore D/A (digitale/analogico) come una serie di componenti armoniche di frequenza elevatissima che quindi supererebbero la sample rate del sistema. Comunque, con gli attuali convertitori A/D e D/A questi problemi sono stati minimizzati ricorrendo alla tecnologia dell’oversampling. In pratica i convertitori, in prima battuta, trattano i suoni con una sample rate multipla di quella che stiamo usando e, dopo opportuni trattamenti di filtraggio, ricampionano il suono alla sample rate in uso scongiurando così il rischio di avere aliasing ed imaging nel nostro suono. IL DC OFFSETUn altro problema che si presenta mentre registriamo è quello noto col nome di DC offset. Si manifesta come uno sfasamento fra il valore di ampiezza zero del suono campionato ed il valore di ampiezza zero del sistema audio digitale come indicato in figura.
Si presenta all’ascolto sotto forma di rumore di fondo e viene causato da elementi di disturbo contenuti nella corrente elettrica che alimenta il nostro sistema di registrazione. Inoltre la presenza di questo elemento di disturbo condiziona il buon funzionamento di alcuni tipi di processori audio tipo ad esempio compressori, limiters, expanders e distorsori. Per fortuna, il DC offset si può eliminare facilmente dai files già campionati poiché i software di editing e di montaggio generalmente sono dotati di una funzione apposita oppure, in alternativa, si può ricorrere all’uso di specifici plugins. Ovviamente l’eliminazione del DC offset è conveniente effettuarla prima di effettuare ulteriori elaborazioni sul nostro materiale audio. IL FLOATING POINTUn passo in avanti riguardo alla risoluzione dell’ audio digitale è stato compiuto con l’introduzione dei formati a virgola mobile (o floating point). Se ripensiamo ai problemi legati ai bit del nostro audio digitale e di conseguenza ai possibili livelli di ampiezza rappresentabili ed alle inevitabili approssimazioni che si porta dietro, risulta logico capire che tutte le operazioni di processing (ma proprio tutte!) che effettuiamo sul materiale audio digitale inducono ulteriori approssimazioni, ovvero ulteriore rumore di quantizzazione. Ciò accade perché le operazioni matematiche che stanno alla base delle operazioni di editing e di processing dell’ audio digitale ci restituiscono in uscita al processo dei valori numerici che non seguono mai la quantizzazione che l’audio aveva originariamente, ovvero degradano in parte la qualità e la fedeltà del nostro suono. La soluzione a questo problema è quella innanzitutto di ridurre al minimo i passaggi di elaborazione sull’audio, compresa la apparentemente innocua operazione di normalizzazione del livello audio, oppure si può ricorrere ad un formato di tipo floating point. Il formato in virgola mobile più usato al giorno d’oggi è il famigerato ’32 bit float’ che sta alla base del funzionamento interno dei motori audio di tutti i migliori software di editing e montaggio attualmente in commercio. Un campione in formato 32 bit float è strutturato in maniera tale da avere 24 bit relativi al segnale audio a numeri interi (come un normalissimo campione a 24 bit) ed i rimanenti 8 bit destinati alla parte decimale dei valori assumibili dall’ampiezza del segnale audio, permettendo così di raggiungere una precisione numerica virtualmente infinita. Perciò le elaborazioni effettuate su campioni a 32 bit float praticamente eliminano i problemi legati al rumore di quantizzazione ed al conseguente degrado della qualità dell’audio appena elaborato. Un altro vantaggio del formato a 32 bit float è che non risente del problema Per il momento non approfondisco oltre, perché il ‘floating point’ verrà trattato in maniera più dettagliata nei prossimi tutorials dedicati al meraviglioso mondo dell’ audio digitale. CONCLUSIONI PROVVISORIEIn questo tutorial è stata fatta una prima panoramica utile a capire cosa vuol dire ‘audio digitale’ in raffronto anche al mondo analogico e sono stati affrontati i problemi legati alle prime scelte da effettuare per ottenere i migliori risultati possibili dalle apparecchiature digitali a nostra disposizione.Per eventuali contatti o ulteriori chiarimenti vi rimando al bellissimo ed utilissimo forum che gentilmente mi ospita. Per il momento vi lascio e vi auguro una buona ‘digestione’ dei concetti esposti. Cordiali saluti. Audio digitale è un articolo by Vinz. |












