Ruido de cuantificación

Se define como error de cuantificación o ruido de cuantificación a la señal en tiempo discreto y amplitud continua introducida por el proceso de cuantificación (uno de los procesos que intervienen en la conversión analógica-digital, que sigue al de muestreo y precede al de codificación) y que resulta de igualar los niveles de las muestras de amplitud continua a los niveles de cuantificación más próximos. Una vez cuantificadas las muestras podrán ser codificadas ya que siempre se podrá establecer una correspondencia biunívoca entre cada nivel de cuantificación y un número entero. Para el caso del cuantificador ideal se trata del único error que introduce el proceso.

Figura 2: Función de transferencia del proceso de cuantificación. Un intervalo de valores de entrada (escalón de cuantificación) se corresponde con un único valor de salida. Así, por cada valor de entrada se obtiene un valor de salida y un error que, si se resta al de salida, devolvería el valor de entrada. El error es máximo cuando el valor de entrada es equidistante a sus dos niveles de cuantificación más próximos (se dice entonces que se encuentra sobre el nivel de decisión). El error es cero cuando el valor de entrada equivale a un nivel de cuantificación y, por tanto, al nivel de salida. Se puede observar que la amplitud máxima del error es de medio escalón de cuantificación (Δ = Escalón de cuantificación) mientras la señal de entrada se encuentra dentro del rango de cuantificación.

Figura 1: Procesos de la conversión A/D.

El proceso de convertir una señal en tiempo discreto de amplitud continua (esto es, en el proceso de muestreo la señal se ha dividido en el tiempo en un número finito de muestras pero el valor de estas aún no ha sido limitado en precisión) en una señal discreta en tiempo y amplitud (sus dos dimensiones), expresando cada muestra por medio de una precisión finita y conocida (en contraposición a una precisión infinita -en matemática- o indeterminada -en física-) consecuencia del ajuste a un número finito y determinado de niveles, se denomina cuantificación. La diferencia que resulta de restar la señal de entrada a la de salida es el error de cuantificación, esto es, la medida en la que ha sido necesario cambiar el valor de una muestra para igualarlo a su nivel de cuantificación más próximo. Esta diferencia, entendida como una secuencia de muestras de tiempo discreto pero de amplitud continua (al igual que la señal de entrada), puede ser interpretado en la práctica como una señal indeseada añadida a la señal original (motivo por el que se denomina ruido, aunque no siempre cumpla con todos los criterios necesarios para ser considerado así y no distorsión), de modo que se cumple:

Figura 3: Modelo matemático del ruido de cuantificación.

e_{q}(n)=x_{q}(n)-x(n)\,\!

donde $x(n)\,\!$ representa a la secuencia de muestras de amplitud continua a la entrada del cuantificador, $x_{q}(n)\,\!$ a la secuencia de muestras de amplitud discreta (cuantificadas) a la salida del cuantificador y $e_{q}(n)\,\!$ representa a la secuencia de muestras de amplitud continua del error de cuantificación. El receptor/lector de $x_{q}(n)\,\!$ (o de su versión codificada posterior) no tiene la información necesaria para identificar el componente de error $e_{q}(n)\,\!$ que incluye y poder recuperar $x(n)\,\!$ . Es decir, la reconstrucción de las muestras originales de amplitud continua (sin cuantificar) no es posible solo a partir de las muestras cuantificadas: falta la información necesaria para distinguir el error de la señal una vez estos se suman en la cuantificación (véase Figura 3).

En la Figura 2 es posible verificar que el error de cuantificación $e_{q}(n)\,\!$ está siempre en el rango -Δ/2 a Δ/2 mientras la señal analógica de entrada se encuentre dentro del rango del cuantificador:

-{\frac {\Delta }{2}}<e_{q}(n)<{\frac {\Delta }{2}}\,\!

donde $\Delta \,\!$ es el tamaño del escalón de cuantificación que viene dado por:

\Delta ={\frac {R}{L}}\,\!

donde $R\,\!$ es el rango del cuantificador y $L\,\!$ el número de niveles de cuantificación.

Figura 4: La línea roja corresponde con las muestras (2000 en este ejemplo para el ciclo completo por lo que produce la ilusión de ser continua) sin cuantificar (muestras de entrada al cuantificador) de una señal original sinusoidal sin dither, la verde representa esas mismas muestras de entrada cuantificadas (salida del cuantificador ideal) y la azul muestra el error de cuantificación que resulta del proceso de cuantificación. La relación señal a ruido de cuantificación (SQNR) es para este caso de solo 24,74 dB con objeto de resaltar el error de cuantificación y su forma. Dicho de otro modo, la amplitud de la sinusoidal original de entrada (línea roja) es de 7,5 niveles de cuantificación (la máxima amplitud de una sinusoidal que puede cuantificar un cuantificador por redondeo de 4 bits ya que el nivel de cuantificación de valor 0 no puede estar centrado al haber un número par de niveles totales). Con objeto de poner de manifiesto el ruido de cuantificación, a la señal de entrada sinusoidal de este ejemplo no se le ha añadido Dither (un ruido analógico que se añade intencionadamente a la señal de entrada antes de la conversión A/D). En la práctica, y como consecuencia de la lógica y habitual práctica de añadir dither (véase Ruido o distorsión: la necesidad de añadir dither), la figura notablemente escalonada de una señal cuantificada como la ilustrada aquí adquiere el aspecto de la Figura 9.

En el caso de que el error está limitado en magnitud [es decir, $\left|e_{q}(n)\right|<\Delta /2\,\!$ ], el error resultante se denomina ruido granular. Cuando la entrada cae fuera del rango de cuantificación (recorte), $e_{q}(n)\,\!$ es ilimitado y resulta en ruido de sobrecarga.

Teóricamente, la cuantificación de las señales analógicas resulta siempre en una pérdida de información (incluso en su caso ideal). Este es el resultado de la ambigüedad introducida por la cuantificación. De hecho, la cuantificación es un proceso no reversible, dado que a todas las muestras a un intervalo inferior a Δ/2 de un determinado nivel se les asignan el mismo valor. Sin embargo, discretizar una señal en su otra dimensión (el tiempo) mediante el proceso de muestreo, no es irreversible tal y como demuestra el teorema de muestreo y si se cumplen los criterios que impone el propio teorema debido a la naturaleza periódica y, por tanto, determinista de las señales que se someten a este proceso y a la limitación del ancho de banda (límite superior a la frecuencia de los componentes que componen la señal periódica). Dicho de otro modo, una onda periódica muestreada cumpliendo los criterios de Nyquist solo puede comportarse de un único modo entre dos muestras contiguas y este comportamiento es totalmente deducible a partir de la serie completa de muestras de amplitud continua de la señal. La discretización de la dimensión amplitud (la cuantificación), es, por tanto, el único proceso que introduce un error teórico (en procesos ideales) sobre la señal original en todo el procedimiento completo de digitalización de una señal.

Espectro y distribución de probabilidad de la amplitud del error de cuantificación

El ruido de cuantificación es aproximadamente de distribución uniforme en amplitud y de densidad espectral más o menos constante (ruido blanco) sobre toda la banda de Nyquist[1] (hasta la frecuencia crítica) en el supuesto de que el error de cuantificación no está correlacionado con la señal ni presente periodicidad. En este caso es posible referirse al error de cuantificación como un ruido blanco uniforme.

Bajo ciertas condiciones donde la tasa de muestreo y la señal están relacionados armónicamente, esto es, que alguno de sus componentes armónicos sea de una frecuencia submúltiplo par de la de muestreo, el error de cuantificación queda correlacionado y la energía se concentra en los armónicos de la señal (si bien la potencia del error es, en general, la misma que para el caso no correlacionado). En este caso, cuando la señal no deseada es función de la señal de entrada, el error no es un ruido y debe ser descrito como distorsión.

Cálculo de la relación señal-ruido de cuantificación (SQNR)

Si se cumplen las siguientes suposiciones sobre las propiedades estadísticas de $e_{q}(n)\,\!$ :

1. El error

e_{q}(n)\,\!

se distribuye uniformemente sobre el rango

-{\frac {\Delta }{2}}<e_{q}(n)<{\frac {\Delta }{2}}\,\!

2. La secuencia de error

{e_{q}(n)}\,\!

es una secuencia estacionaria de ruido blanco. En otras palabras, el error

e_{q}(n)\,\!

y el error

e_{q}(m)\,\!

para

n\neq m\,\!

están incorrelados.

3. La secuencia de error

{e_{q}(n)}\,\!

está incorrelada con la secuencia

x(n)\,\!

.

4. La secuencia

x(n)\,\!

tiene media cero y es estacionaria.

el efecto del ruido aditivo $e_{q}(n)\,\!$ en la señal deseada se puede cuantificar evaluando la relación (potencia) señal a ruido de cuantificación (SQNR), que se puede expresar en escala logarítmica (en decibelios o dB) como

SQNR=10\log _{10}{\frac {P_{x}}{P_{n}}}\,\!

donde $P_{x}\,\!$ es la potencia de la señal y $P_{n}\,\!$ es la potencia del ruido de cuantificación.

En adelante y para el resto de los cálculos sobre la potencia promedio del error de cuantificación, se aceptará que el error cumple con las propiedades estadísticas descritas. No obstante, en general, estas suposiciones no se mantienen, por lo que los cálculos que siguen no se entenderán de aplicación universal. Sin embargo, se mantienen cuando el tamaño del escalón de cuantificación es pequeño en relación con la señal y la secuencia $x(n)\,\!$ atraviesa varios niveles de cuantificación entre dos muestras sucesivas.

Potencia del error de cuantificación

Figura 6: Función de densidad de probabilidad de los valores del error de cuantificación. Se trata de una distribución uniforme continua en el rango (-Δ/2, Δ/2). Su varianza es de Δ²/12 y su desviación estándar (σ_e) está marcada en rojo.

Si el error de cuantificación se mantiene uniforme en el rango (-Δ/2, Δ/2) (Figura 6), el valor medio del error es, por tanto, cero y la potencia del ruido en toda la banda de Nyquist con relación al escalón de cuantificación es la varianza $\sigma _{e}^{2}\,\!$ de esta distribución uniforme:[2]

P_{n}=\sigma _{e}^{2}=\int _{-\Delta /2}^{\Delta /2}e^{2}p(e)de={\frac {1}{\Delta }}\int _{-\Delta /2}^{\Delta /2}e^{2}de={\frac {1}{\Delta }}\left({\frac {\Delta ^{3}}{12}}\right)={\frac {\Delta ^{2}}{12}}\,\!

Este resultado coincide con la potencia promedio de una onda triangular o en dientes de sierra de amplitud máxima (amplitud de pico o cresta) $\Delta /2\,\!$ : una señal en dientes de sierra $e(t)\,\!$ de esta amplitud de pico en el intervalo correspondiente a un semiciclo (0, π) se puede describir:

e(t)={\frac {\Delta }{2\pi }}t,\,\,\,\,\,\,\,0\leq t\leq \pi \,\!

Por tanto, la potencia de la señal en dientes de sierra es:

P_{n}={\frac {1}{\pi }}\int _{0}^{\pi }e^{2}(t)dt={\frac {1}{\pi }}\int _{0}^{\pi }{\frac {\Delta ^{2}}{4\pi ^{2}}}t^{2}dt={\frac {1}{\pi }}\left({\frac {\Delta ^{2}}{4\pi ^{2}}}\right)\int _{0}^{\pi }t^{2}dt={\frac {\Delta ^{2}}{4\pi ^{3}}}\left({\frac {\pi ^{3}}{3}}\right)={\frac {\Delta ^{2}}{12}}\,\!

que coincide con el análisis por la varianza del primer cálculo.

Es importante notar que estos cálculos se refieren a la potencia total del ruido de cuantificación distribuido en todo el intervalo de frecuencias desde CC hasta la frecuencia de Nyquist (la mitad de la tasa de muestreo), es decir, no contempla la reducción de la potencia consecuencia del uso de un filtro por sobremuestreo en la conversión A/D (véase Figura 10 y el capítulo que trata el sobremuestreo).

Potencia de una señal armónica (sinusoidal)

Para una señal armónica (sinusoidal) $x(t)\,\!$ de amplitud de pico $A={\frac {2^{b}}{2}}\Delta =2^{b-1}\Delta \,\!$ , es decir, de máxima amplitud para el rango de convertidor de un $b\,\!$ bits, la potencia $P_{x}\,\!$ , se obtiene:

P_{x}={\frac {1}{2\pi }}\int _{0}^{2\pi }x^{2}(t)dt={\frac {1}{2\pi }}\int _{0}^{2\pi }{(2^{b-1}\Delta )}^{2}\sin ^{2}(t+\theta )dt=\,\!

{(2^{b-1}\Delta )}^{2}\left[{\frac {1}{2\pi }}\int _{0}^{2\pi }\sin ^{2}(t+\theta )dt\right]={(2^{b-1}\Delta )}^{2}{\frac {1}{2}}={\frac {2^{2b-2}\Delta ^{2}}{2}}={\frac {2^{2b}\Delta ^{2}}{2^{3}}}={\frac {4^{b}\Delta ^{2}}{8}}\,\!

Conocida la potencia $P_{n}\,\!$ del error de cuantificación en función del escalón de cuantificación $\Delta \,\!$ y la potencia $P_{x}\,\!$ de una señal sinusoidal de amplitud máxima para un convertidor de rango $2^{b}\Delta \,\!$ siendo $b\,\!$ el número de bits que caracteriza al cuantificador, podemos sustituir en la ecuación antes mencionada del cálculo de la relación SNQR (resultado expresado en dB):

SQNR=10\log {\frac {P_{x}}{P_{n}}}=10\log \left({\frac {\frac {4^{b}\Delta ^{2}}{8}}{\frac {\Delta ^{2}}{12}}}\right)=10\log {\frac {4^{b}12}{8}}=10\log \left(4^{b}{\frac {3}{2}}\right)=\,\!

10\left[\log(4^{b})+\log \left({\frac {3}{2}}\right)\right]=10b\log(4)+10\log \left({\frac {3}{2}}\right)\approx 6,0206b+1,7609\,\!

En ocasiones se describe esta relación sin la constante "1,761". Esto es debido a que no se ha tenido en cuenta que la relación señal a ruido no es una simple relación entre amplitudes de pico: se relacionan las potencias de dos señales y éstas, en relación con su amplitud de pico, dependen de su forma de onda. En el caso de la aproximación descrita con la constante "1,761", lo que se relaciona es una sinusoidal pura máxima con un ruido cuya amplitud en las muestras cumple una densidad de probabilidad uniforme (véase Figura 6). La necesidad de añadir una constante resulta del hecho de que la potencia de una sinusoidal es un 50% mayor que la del ruido de distribución uniforme de idéntica amplitud de pico [10·log (1,5) ≈ 1,761]. Si la señal de referencia (máxima) no fuera una sinusoidal pura, este valor solo sería una aproximación. El uso de una sinusoidal pura como referencia resulta, por tanto, de una convención.

Es necesario recordar que aunque la aproximación SQNR ≈ 6,0206b + 1,7609 se emplea casi universalmente para la determinación de la relación señal a ruido de cuantificación máxima teórica de un cuantificador, ésta solo es un cálculo preciso para una señal de entrada sinusoidal de máxima amplitud (que cubre todo el rango del cuantificador) y cuyo error de cuantificación cumple las suposiciones estadísticas descritas en el cálculo de la potencia del error (véase Ruido o Distorsión). De hecho, se puede comprobar en la Figura 5 como la SQNR de la última señal, la que resulta de una sinusoidal de 32767,5 escalones de cuantificación de amplitud de cresta (a falta de un único escalón cubriría todo el rango de un cuantificador de redondeo de 16 bits), es ligeramente superior a lo que resultaría del cálculo anterior aplicado a un cuantificador de 16 bits. En cualquier caso las diferencias son despreciables para señales de amplitud máxima cuantificadas con más de 6 bits (una SQNR de unos 40 dB).

La relación SQNR aquí mostrada contempla un ruido que se extiende por toda la banda de Nyquist. Si parte de esta banda se filtra se deberá añadir una constante para la banda restante (véase El sobremuestreo...).

Valor eficaz (RMS) del error de cuantificación

Si el error de cuantificación se mantiene uniforme en el rango (-Δ/2, Δ/2), el valor medio $\mu \,\!$ del error es, por tanto, cero y el valor eficaz (raíz cuadrática media o RMS del inglés Root Mean Square) del ruido expresado en escalones de cuantificación es igual a la desviación estándar $\sigma _{e}\,\!$ de esta distribución uniforme:

\sigma _{e}={\sqrt {\int _{-\Delta /2}^{\Delta /2}e^{2}p(e)de}}={\sqrt {{\frac {1}{\Delta }}\int _{-\Delta /2}^{\Delta /2}e^{2}de}}={\sqrt {{\frac {1}{\Delta }}\left({\frac {\Delta ^{3}}{12}}\right)}}={\sqrt {\frac {\Delta ^{2}}{12}}}={\frac {\Delta }{2{\sqrt {3}}}}={\frac {{\sqrt {3}}\Delta }{6}}\,\!

Es importante notar que estos cálculos se refieren al valor eficaz del ruido de cuantificación distribuido en todo el intervalo de frecuencias desde CC hasta la frecuencia de Nyquist (la mitad de la tasa de muestreo), es decir, no contempla la reducción del valor eficaz consecuencia del uso de un filtro por sobremuestreo en la conversión A/D (véase Figura 10 y el capítulo que trata el sobremuestreo).

Valor eficaz (RMS) de una señal armónica (sinusoidal)

Para una señal armónica (sinusoidal) $x(t)\,\!$ de amplitud de pico $A={\frac {2^{b}}{2}}\Delta =2^{b-1}\Delta \,\!$ , es decir, de máxima amplitud para el rango de convertidor de un $b\,\!$ bits, el valor eficaz en escalones de cuantificación $\sigma _{x}\,\!$ , se obtiene:

\sigma _{x}={\sqrt {{\frac {1}{2\pi }}\int _{0}^{2\pi }x^{2}(t)dt}}={\sqrt {{\frac {1}{2\pi }}\int _{0}^{2\pi }{(2^{b-1}\Delta )}^{2}\sin ^{2}(t+\theta )dt}}=\,\!

2^{b-1}\Delta {\sqrt {{\frac {1}{2\pi }}\int _{0}^{2\pi }\sin ^{2}(t+\theta )dt}}=2^{b-1}\Delta {\sqrt {{\frac {1}{2\pi }}\pi }}=2^{b-1}\Delta {\sqrt {\frac {1}{2}}}={\frac {2^{b-1}\Delta }{\sqrt {2}}}={\frac {2^{b}\Delta }{2{\sqrt {2}}}}={\frac {{\sqrt {2}}\left(2^{b}\Delta \right)}{4}}\,\!

Por supuesto, también es posible deducir la relación señal a ruido de cuantificación (SQNR) a partir de los valores eficaces del ruido $\sigma _{n}\,\!$ y la señal sinusoidal máxima para un número determinado de bits $\sigma _{x}\,\!$ mediante:

SQNR=20\log {\frac {\sigma _{x}}{\sigma _{n}}}=20\log \left({\frac {\frac {{\sqrt {2}}\left(2^{b}\Delta \right)}{4}}{\frac {{\sqrt {3}}\Delta }{6}}}\right)=20\log \left(2^{b}{\frac {3{\sqrt {2}}}{2{\sqrt {3}}}}\right)=20\log \left(2^{b}{\frac {{\sqrt {3}}{\sqrt {2}}}{2}}\right)=\,\!

20\log(2^{b})+20\log \left({\frac {\sqrt {6}}{2}}\right)=20b\log(2)+20\log \left({\frac {\sqrt {6}}{2}}\right)\approx 6,0206b+1,7609\,\!

La relación SQNR aquí mostrada contempla un ruido que se extiende por toda la banda de Nyquist. Si parte de esta banda se filtra se deberá añadir una constante para la banda restante (véase El sobremuestreo...).

Ruido o Distorsión

El error de cuantificación no siempre cumple, ni por aproximación, con las propiedades estadísticas que caracterizan a una señal aleatoria, esto es, no siempre puede ser descrito como un ruido. Un ruido blanco de espectro uniforme debe mostrar, al menos, una buena aproximación a las siguientes propiedades estadísticas:

1. El error

e_{q}(n)\,\!

se distribuye uniformemente sobre el rango

-\Delta /2<e_{q}(n)<\Delta /2\,\!

.

2. La secuencia del error

{e_{q}(n)}\,\!

es una secuencia estacionaria de ruido blanco. Dicho de otro modo, el error

e_{q}(n)\,\!

y el error

e_{q}(m)\,\!

para

m\neq n\,\!

no muestra correlación. Es decir, no hay periodicidad.

3. La secuencia del error

{e_{q}(n)}\,\!

no muestra correlación con la secuencia

x(n)\,\!

, es decir, con la analógica de entrada al cuantificador.

Figura 5: Ejemplos de ruido de cuantificación de distinta relación señal-ruido de cuantificación (SQNR) de un único ciclo de 2000 muestras correspondientes a una señal armónica (sinusoidal). De arriba abajo: 1) Línea negra: error resultante de cuantificación sobre señal original de amplitud 1,5 escalones de cuantificación (SQNR: 10,18 dB). 2) Línea roja: error resultante de cuantificación sobre señal original de amplitud 7,5 escalones de cuantificación (SQNR: 24,74 dB). 3) Línea azul: error resultante de cuantificación sobre señal original de amplitud 127,5 escalones de cuantificación (SQNR: 49,77 dB). Línea verde: error resultante de cuantificación sobre señal original de amplitud 32767,5 escalones de cuantificación (SQNR: 98,19 dB). En todos los casos, la amplitud máxima del error equivale a la mitad de un escalón de cuantificación y en las cuatro muestras de esta figura el escalón de cuantificación se muestra con idéntica amplitud.

Cuando el error de cuantificación ni siquiera se aproxima a estos supuestos estadísticos, el error no debe ser considerado ruido, sino distorsión. Esto es especialmente notable cuando se cumple al menos una de las tres condiciones relativas a la señal y su relación con el muestreo y la cuantificación:

1. La relación señal a ruido de cuantificación es baja, es decir, cuando la amplitud de la señal a cuantificar cubre un rango de pocas decenas de escalones de cuantificación.

2. Con tasas de muestreo altas en relación con los componentes de frecuencia más alta de la señal, la secuencia original de muestras a cuantificar se mantienen dentro del mismo escalón de cuantificación entre dos muestras consecutivas. Las tres primeras señales de la Figura 5 (2000 muestras para un único ciclo) muestran este efecto.

3. Cuando existen componentes cuya frecuencia son submúltiplos enteros de la tasa de muestreo.

Cuando se da alguna de estas condiciones, si bien no se alteran los valores generales de potencia del error en todo su espectro (y, por tanto, de la relación total SQNR), ésta se concentra en armónicos cuya intensidad excede ampliamente el nivel del ruido cuando este puede ser considerado como tal.

La distorsión, en general, es una propiedad menos tolerable que el ruido. La energía se acumula en frecuencias determinadas del espectro y la relación de esta energía con la de la señal de entrada puede ser significativa. En aplicaciones de audio y vídeo, el fenómeno de la distorsión es mucho más perceptible que el del ruido.

Existe un modo de asegurar que el error de cuantificación se pueda considerar siempre un ruido blanco, es decir, que cumpla una buena aproximación a los tres supuestos estadísticos antes mencionados que caracterizan a este tipo de ruido: sacrificar relación señal a ruido total (SNR) añadiendo ruido analógico a la señal analógica antes del proceso de conversión A/D (véase Figura 8). Este ruido analógico que se añade intencionadamente antes del proceso de conversión A/D se denomina Dither (que podría ser traducido al español como "temblor") y, siendo del correcto tipo y amplitud, asegura que en todas las circunstancias de muestreo y cuantificación, el error de cuantificación muestre una densidad espectral de potencia (DEP) compatible con la naturaleza aleatoria de un ruido.

La necesidad de añadir "dither"

Figura 7: Función densidad de probabilidad de un dither triangular. La varianza es de Δ²/6 y su desviación estándar (σ_v) está marcada en rojo.

El dither sacrifica relación señal a ruido total (SNR) a cambio de impedir que la señal cuantificada pueda mostrar características propias de una distorsión, esto es, alejarse del ideal de una señal aleatoria como ruido. La reducción teórica de la relación señal a ruido total como consecuencia de la adición correcta de dither triangular de rango (-Δ, Δ) (véase Figura 7) a la señal analógica de entrada al convertidor A/D es de, aproximadamente, 4,77 dB (el equivalente a multiplicar por tres la potencia del ruido, esto es, 10·log(3) ≈ 4,77), de modo que un cuantificador de 16 bits, por ejemplo, cuya relación señal sinusoidal máxima a ruido de cuantificación (SQNR) es de, aproximadamente, 98,09 dB, en la práctica no puede presentar relaciones señal a ruido (SNR) superiores a los 93,32 dB solo como consecuencia del uso de dither. Naturalmente, en la práctica la reducción será aún mayor. Para muchas aplicaciones este sacrificio debe ser considerado un mal necesario.

Es necesario tener presente que en muchos casos se hace innecesario añadir dither artificialmente toda vez que la señal a convertir ya incluye un ruido cuya potencia es suficiente para evitar la necesidad de añadir más, esto es, cuando la potencia del ruido de la señal iguala o supera la potencia $\Delta ^{2}/4\,\!$ que resultaría del escalón de cuantificación del cuantificador que se pretende emplear. Esto es especialmente frecuente en los procesos de cuantificación de más de 16 bits, donde es habitual que la señal analógica a cuantificar presente un ruido de potencia o valor eficaz comparable o superior al del hipotético ruido que resultaría de ese mismo proceso de cuantificación realizado sin añadir dither.

Sin embargo, el dither se hace casi universalmente necesario en todos los casos de recuantificación[3] donde se reduce el número total de niveles de cuantificación (por ejemplo, al convertir una señal ya digitalizada de 16 a 14 bits), es decir, cuando se aumenta la amplitud del escalón de cuantificación (mismo rango de cuantificación, menor número de niveles de cuantificador) o cuando se reduce la amplitud de una señal en el dominio digital (por ejemplo, cuando se pretende controlar el volumen de una señal de audio en el ámbito digital, esto es, multiplicando/dividiendo los valores por una constante): dividir los valores cuantificados (enteros) entre dos con redondeo con la pretensión de atenuar en -6 dB su intensidad, por ejemplo, es equivalente en la práctica a dividir también entre dos el dither que incluía la señal. Un mismo escalón de cuantificación (intervalo de amplitud entre dos niveles contiguos de cuantificación que no ha cambiado porque solo se han dividido el valor de las muestras) para un dither original atenuado requiere más dither para compensar el hecho de que este ya no cubre la amplitud (relativa al escalón de cuantificación) prevista. Dicho en pocas palabras, toda atenuación digital de una señal debe compensar la inevitable atenuación del dither original añadiendo el perdido en la atenuación. Esto es un procedimiento habitual en los procesadores digitales de señal (DSP).

Son varios los tipos de dither empleados en la conversión A/D de señales. Si bien en todos los casos se trata de un ruido de densidad espectral de potencia (DEP) esencialmente constante en todo el espectro (es decir, blanco), tanto la distribución estadística de la amplitud que pueden mostrar las muestras de entrada al cuantificador como la amplitud de pico del dither a añadir puede ser variable:[4]

- Función densidad de probabilidad (FDP) uniforme (RPDF) y amplitud de pico

\Delta /2\,\!

(potencia =

\Delta ^{2}/12\,\!

).

- FDP uniforme (RPDF) y amplitud de pico

\Delta \,\!

(potencia =

\Delta ^{2}/3\,\!

).

- FDP triangular (TPDF) y amplitud de pico

\Delta \,\!

(potencia =

\Delta ^{2}/6\,\!

). Véase Figura 7.

- FDP gaussiana y

\sigma =\Delta /2\,\!

(potencia =

\Delta ^{2}/4\,\!

).

Para el cálculo de la potencia del ruido total (dither+error de cuantificación) tras el proceso de cuantificación, basta añadir $\Delta ^{2}/12\,\!$ a la potencia del dither.

El ejemplo de las Figuras 8 y 9 incluye un dither de distribución triangular y amplitud de pico $\Delta \,\!$ (véase su función de densidad de probabilidad en Figura 7) a -21,03 dB de la señal.

Figura 8: Réplica de la señal de entrada de la Figura 4 con dither analógico añadido. La amplitud del dither que se debe añadir depende del escalón de cuantificación con el que se cuantificará la señal posteriormente. En este caso, considerando que el rango total del gráfico se cuantificará posteriormente (para la Figura 9) con un total 16 niveles de cuantificación (4 bits), el dither aquí añadido tiene una amplitud de pico de un escalón de cuantificación: 1/16 del rango total del gráfico. Con relación a la señal de la Figura 4, la señal sinusoidal sin dither se ha reducido en amplitud (-1,243 dB aprox.) en la medida del dither para dar cabida a la señal resultante en el rango del cuantificador. La amplitud de pico de la señal sinusoidal sin dither es de 6,5 escalones en un cuantificador de 16 niveles (4 bits), que resultará en la señal cuantificada de la Figura 9. La relación señal a ruido (señal a dither) es de 21,03 dB en este ejemplo, siendo la potencia de este dither igual a Δ²/6 y la de la señal igual a 169Δ²/8. La señal tiene, por tanto, unas 127 veces la potencia del dither (11,26 veces su valor eficaz -RMS-).

Figura 9: En azul, señal con dither de la Figura 8 cuantificada con redondeo a 16 niveles (2000 muestras en todo el intervalo mostrado). También se muestra el error total [dither+error de cuantificación] sobre la señal sinusoidal original. La relación señal a ruido total (dither+error de cuantificación) es de 19,27 dB, es decir, el proceso de cuantificación ha añadido un 50% de potencia al ruido dither original al sumar su error de cuantificación. Comparada esta relación con la SQNR de la Figura 4 (considerando la atenuación de la señal en el ejemplo de las Figuras 8 y 9), se hace evidente que el uso de dither tiene como contrapartida un sacrificio neto de la relación señal a ruido total. La amplitud de pico máxima del ruido total es de 1,5 escalones de cuantificación y su valor eficaz (RMS) es de, exactamente, medio escalón.

El sobremuestreo en conversión A/D y su relación con el error de cuantificación

El sobremuestreo en la conversión A/D (que no debe ser confundido con el sobremuestreo en conversión D/A) consiste en realizar el proceso de muestreo a una tasa superior a la estrictamente necesaria para la reconstrucción de la señal a registrar. Esta tasa estrictamente necesaria viene determinada, de acuerdo con el teorema de muestreo de Nyquist-Shannon, por la frecuencia límite que se desea registrar en la señal de interés: solo se podrán registrar frecuencias por debajo de la mitad de la tasa de muestreo.

En la práctica, y como consecuencia de las limitaciones prácticas de los filtros analógicos reales, siempre es necesario realizar sobremuestreo en alguna medida. Por ejemplo, en aplicaciones de audiofrecuencia como el CD-Audio, donde la señal de interés se limita componentes de frecuencias de hasta 20 kHz, se aplica un sobremuestreo de un 10% (k=1,1), aproximadamente, resultando en una frecuencia límite de 22,05 kHz (tasa de muestreo de 44100 muestras por segundo). Pero este sobremuestreo del 10% solo tiene por objeto contemplar las limitaciones prácticas que resultan de una implantación real. En otros diseños, un sobremuestreo aún mayor permite implantaciones prácticas que minimizan o eliminan la necesidad de filtros antialiasing analógicos complejos y costosos, esto es, permiten filtros con pendientes de atenuación suaves y de fase lineal en la banda pasante (ventajas prácticas que, en algunos casos, se pueden lograr también aplicando técnicas de sobremuestreo con filtrado digital en la conversión D/A).

Figura 10: Densidad Espectral de Potencia (DEP) del ruido de cuantificación (no se muestra señal) para dos tasas de muestreo f_s2=2f_s1. Es importante notar que el eje de las ordenadas no representa potencia, sino potencia por unidad de frecuencia. La potencia en este diagrama es siempre un área (en verde). La potencia total (área verde) es la misma en los dos casos a y b (A²/12) por lo que se demuestra que es independiente de la frecuencia de muestreo, pero la que resulta de una tasa de muestreo doble (b con tasa f_s2) se extiende por un intervalo espectral superior con una densidad de potencia que es la mitad del caso a.

Sin embargo, el sobremuestreo también puede ser empleado para lograr una mayor relación señal a ruido de cuantificación máxima a la posible para un número determinado de niveles de cuantificación sin sobremuestro. Esto es así porque las ecuaciones que se detallan en este artículo se refieren a señales (sus potencias y valores eficaces) que cubren toda la banda de Nyquist o, dicho de otro modo, presuponen que todas las posibles frecuencias de la señal cuantificada son de interés hasta el límite de Nyquist. Si hay sobremuestreo y los intervalos excedentes del espectro (donde no existen frecuencias de interés) se eliminan -filtran-, se reducirá la potencia total del ruido de cuantificación y, consecuentemente, aumentará la relación señal a ruido de cuantificación (SQNR) máxima en la banda de interés (que con sobremuestreo solo es un subconjunto de toda la banda de Nyquist). Para este caso (sobremuestreo+filtro), las ecuaciones de este artículo para el cálculo de la potencia (o del valor eficaz) del ruido de cuantificación y de la relación señal a ruido de cuantificación sobre sinusoidal máxima deberán contemplar como variable al cociente (k) resultante de dividir la frecuencia crítica (frecuencia de Nyquist) que resulta de la tasa de muestreo empleada entre el ancho de banda de interés.

Figura 11: Si se emplea una tasa de muestreo f_s y solo se tiene interés por registrar señales con frecuencias hasta f_s/4, se estará empleando un factor de sobremuestreo k=2. Si se elimina el ruido correspondiente al espectro que no es de interés (de f_s/4 a f_s/2 en este ejemplo y cuya potencia está representada por el área roja) mediante un filtro pasa-bajo ideal se estará dividiendo la potencia total del ruido en un factor que será el mismo que el de sobremuestreo (k), en este caso, la potencia pasaría de Δ²/12 a Δ²/24. La relación señal a ruido de cuantificación máxima teórica se incrementará en este caso en 10·log(k)=10·log(2)≈3,0103 dB.

Sea $B\,\!$ igual al ancho de banda (Hz) de la señal de interés (si se trata de una señal en banda base, la frecuencia más alta de interés que ésta puede contener) y $f_{s}\,\!$ la tasa (muestras por segundo) de muestreo empleada, el factor de sobremuestreo $k\,\!$ se define como:

k={\frac {f_{s}}{2B}}\,\!

La potencia del ruido de cuantificación $P_{n}\,\!$ pasa de ${\frac {\Delta ^{2}}{12}}\,\!$ para toda la banda de Nyquist a ${\frac {\Delta ^{2}}{12k}}\,\!$ tras aplicar el filtro y solo para la banda de interés.

En el cálculo de la relación señal a ruido de cuantificación máxima, es necesario añadir una constante ( $g\,\!$ , conocida como ganancia del proceso) que depende del factor $k\,\!$ empleado:

g=10\log k\,\!

SQNR\approx 6,0206b+1,7609+g\,\!

El equivalente en bits $b_{g}\,\!$ de esta ganancia de proceso es:

b_{g}=\log _{4}k={\frac {\log k}{\log 4}}\approx 1,661\log k\,\!

De modo que SQNR también se puede expresar:

SQNR\approx 6,0206\left(b+b_{g}\right)+1,7609\,\!

Así, mediante este procedimiento, es necesario multiplicar por 4 la tasa de muestreo cada vez que se desea añadir, aproximadamente, 6,0206 dB a la relación señal a ruido de cuantificación máxima teórica de un cuantificador determinado. Por ejemplo; si para una señal de 30 kHz de ancho de banda B=30000 se emplea una tasa de muestreo de 65 millones de muestras por segundo f_s=65000000 con una cuantificación de 10 bits (SQNR máxima teórica de 61,967 dB sin sobremuestreo), tendrá una relación señal a ruido de cuantificación de 92,31 dB para sinusoidal máxima sobre la banda de 30 kHz exclusivamente, esto es, una ganancia de proceso de 30,35 dB (k≈1083; b_g≈5).

Por sí solo, el sobremuestreo+filtrado no es un proceso eficiente para incrementar la SQNR máxima de un sistema o formato, dado que multiplicar por 4 la tasa de muestreo equivale a un incremento de la SQNR que se corresponde con doblar el número de niveles de cuantificación, esto es, emplear un bit más en la codificación (+6,0206 dB aprox.). Sin compresión de datos, un CD-Audio genera, para su transmisión o almacenamiento, un caudal de datos netos[5] de 1,41 Mbps. Un sistema con una cuantificación de 131072 niveles (codificación de 17 bits) en lugar de los 65536 (16 bits) que emplea el CD-Audio generaría un flujo de datos solo un 6,25% superior, esto es, de 1,5 Mbps. Sin embargo, si se pretende la misma SQNR solo mediante sobremuestreo y filtro, será necesario multiplicar por 4 la tasa de muestreo y, en el mismo factor, el flujo de datos que genera (pasando de 1,41 Mbps a 5,64 Mbps).

Sin embargo, sí existen modelos teóricos que explotan notablemente mejor el principio del sobremuestreo gracias al uso de técnicas adicionales que redistribuyen el ruido de cuantificación en el espectro, aumentando la densidad espectral de potencia en la banda a eliminar y disminuyendo la que corresponde a la banda de interés: la modulación denominada Sigma-Delta, de aplicación extendida para señales de ancho de banda bajo o medio-bajo.

Modulación Sigma-Delta

Figura 12: Modulación Delta y sus dos tipos de errores de cuantificación (en azul).

Basado en el principio de sobremuestreo existe un tipo de conversor A/D y D/A caracterizado por el uso de un tipo de codificación de forma de onda denominado modulación sigma-delta (o modulación $\Delta \Sigma \,\!$ ).[6] Estos conversores explotan eficientemente el principio de sobremuestreo empleando técnicas de modelado de ruido y filtrado digital.

Mediante el proceso de diezmado (también descrito como submuestreo o, del inglés, downsampling), consistente en dividir la tasa de muestreo de una señal en tiempo discreto por un divisor entero (cualquier valor entero, no necesariamente diez como se podría pensar por el significado habitual del verbo diezmar), esto es,

x_{d}[n]=x[nM]\,\!

se puede deshacer el sobremuestreo sin pérdida alguna de información (siempre que solo se elimine el sobremuestreo en hasta su factor $k\,\!$ , es decir, $M\leq k\,\!$ y se haga uso previamente del correspondiente filtrado antialiasing).[7] Una buena proporción de convertidores A/D hacen uso de modelos de codificación por modulación $\Delta \Sigma \,\!$ para después proceder a la conversión a modulación por impulsos codificados (PCM) multibit.

¿Es una SQNR máxima teórica de 98,1 dB (CD-Audio) suficiente para audio?

En esencia, lo descrito en este artículo se puede resumir en que todo lo que añade un cuantificador ideal a una señal de entrada es otra señal y que si el procedimiento es realizado correctamente, la señal añadida será de naturaleza aleatoria, esto es, un ruido. Esto es válido incluso para relaciones señal a ruido tan bajas como las de la Figura 9, donde se hacen evidentes los 15 niveles empleados en su cuantificación. Y la adición de un ruido blanco nunca puede resultar en una propiedad característicamente digital (para aplicaciones de audiofrecuencia son frecuentes los prejuicios "digitales", es decir, la atribución errónea de propiedades características al sonido reproducido de fuentes digitales, atributos del tipo "sonido metálico" o "sonido digital"). La Figura 9, por ejemplo, debe ser interpretada como una señal perfectamente armónica (sinusoidal) cuya única limitación es la de tener una potencia que solo representa, aproximadamente, 85 veces la del ruido blanco que incorpora. Este ruido (que equivale a la información perdida en el proceso de cuantificación y al dither añadido antes), sin embargo, no es algo exclusivo de lo digital: todas las señales analógicas lo incorporan en mayor o menor medida. Un estudio de grabación (un lugar extraordinariamente silencioso), por ejemplo, puede tener un nivel de ruido ambiente cuya potencia promedio es el equivalente a unos 20 dB_SPL en toda la banda de audiofrecuencias. Si el sonido más intenso que se desea registrar en ese estudio solo tiene una potencia 100000 veces (+50 dB) la de ese ruido ambiente, es decir, de 70 dB_SPL, la señal de un hipotético micrófono (la electrónica también contribuirá con su propio ruido, típicamente térmico) mostraría para este caso una relación señal a ruido máxima sobre los 50 dB y bastaría un cuantificador de 512 niveles de cuantificación (9 bits) para cuantificar correctamente la señal (máximo SQNR para 512 niveles: 55,95 dB). Al contrario de lo que puede parecer intuitivo (y, de hecho, es creencia extendida), emplear para este caso un cuantificador más resolutivo no resulta en una grabación más fiel: el ruido que incorpora la señal analógica es lo que limita su resolución final (el ruido analógico actúa como un intervalo de incertidumbre parecido al de la ambigüedad que introduce el cuantificador entre niveles) y cada bit que se emplee por encima de los necesarios es un bit cuyo valor será aleatorio puro (sin información/entropía máxima). Todo cuanto se obtiene de una cuantificación con más niveles es el potencial para registrar una mayor relación señal a ruido máxima, esto es, que la potencia máxima que se puede registrar respecto al nivel del ruido sea mayor, pero no podrá en ningún caso mejorar la relación señal a ruido que ya tiene la señal analógica en origen. Por tanto, para saber cuántos niveles de cuantificación son necesarios y suficientes, solo es necesario conocer la relación señal a ruido máxima de la señal analógica que se pretende cuantificar.

La aparición reciente de nuevos formatos de registro de audio digital para usuario final denominados de alta resolución (DVD-Audio y SACD), que permiten el registro de señales con una relación máxima señal a ruido de cuantificación (SQNR) sobre los 120 dB en la banda de audiofrecuencias (20-20000 Hz) parece poner en cuestión la suficiencia, en el ámbito del registro y reproducción de sonidos para el usuario final, del formato más extendido, el CD-Audio (PCM/16 bits), que permite un límite superior teórico a la relación señal a ruido de cuantificación de 98,1 dB en toda la banda hasta su frecuencia crítica (22,05 kHz).

Figura 13: Extensión de la voz y la música natural en intensidad (a distancias de escucha normales) y frecuencia.

Los 98,1 dB del CD-Audio representan un límite teórico para una señal sinusoidal pura (sin dither) máxima en un cuantificador ideal de 16 bits. En la práctica, la relación señal a ruido total queda limitada a valores máximos próximos a los 90 dB por factores entre los que se incluye la correcta adición de dither a la señal analógica antes del proceso de conversión. Pero incluso un rango práctico sobre los 90 dB representa un intervalo extraordinariamente amplio si se tiene presente que ese es el rango que se cubre desde un nivel de ruido de ambiente tan bajo como el de un estudio de grabación (~25 dB_SPL) hasta la proximidad del umbral del dolor (~120 dB_SPL; véase Figura 13). Es necesario notar que, para frecuencias inferiores a 125 Hz (lo que incluye más de dos de las diez octavas audibles), un nivel de 25 dB_SPL ni siquiera supera el umbral de audibilidad.[8] La necesidad de una cuantificación que provea una relación señal a ruido de cuantificación teórica superior a los 98,1 dB del CD-Audio para distribución final es solo un mito[9] audiófilo. Asimismo, y para material musical normal, existen evidencias experimentales[10] que concluyen que no existen diferencias audibles entre los formatos denominados de "alta resolución" y el tradicional soporte de audio digital CD-Audio.

Sin embargo, el uso de cuantificadores de 20 bits está plenamente justificado en los equipos de grabación y procesamiento o como formato de edición de los estudios profesionales. Este rango dinámico extra permite a los profesionales mayores márgenes de error durante los procesos de grabación y procesamiento digital posterior, dejando para el final la conversión al formato final de distribución de 16 bits.

Actualmente, los mejores convertidores comerciales disponibles de audiofrecuencia ofrecen niveles de ruido de Johnson-Nyquist (también conocido como ruido térmico) que permiten relaciones señal a ruido (SNR) máximas sobre los 115-120 dB,[11] esto es, el equivalente aproximado al límite teórico de la SQNR de un convertidor de 19-20 bits. Y, tratándose de ruido térmico, no son previsibles avances significativos en un futuro cercano. Un sistema o formato que declara emplear 24 bits en la cuantificación es un sistema o formato que, en el mejor de los casos, registra o almacena ruido en sus cuatro bits menos significativos: sus valores en las muestras resultan del más puro azar (y, de hecho, se emplean en el estudio de fenómenos estocásticos). El número de bits efectivos siempre será, en el mejor de los casos, de 19 o 20.[12] Naturalmente, con un ruido térmico (ruido blanco gaussiano) de valor eficaz (RMS) de 16 a 20 veces la del error de cuantificación teórico de un cuantificador de 24 bits, no es necesario añadir dither antes a la analógica de entrada al cuantificador. Los formatos de 24 bits, si bien son un desperdicio de capacidad y ancho de banda sobre los de 20 bits, sin embargo, presentan la ventaja de representar cada muestra en un número entero de bytes (3), lo que facilita el manejo de la información en un entorno donde la capacidad de almacenamiento y el ancho de banda en las transmisiones es cada vez menos crítico.

Con relación a los formatos analógicos, es conveniente señalar que si la señal de la Figura 9 resultara de una cuantificación de 16 bits (CD-Audio), se trataría de una señal 74 dB por debajo del rango del cuantificador, es decir, de -74 dB_FS. Los sistemas de reproducción analógicos del pasado reciente (discos de vinilo, bobinas, casetes, etc.) muestran relaciones señal a ruido máximas inferiores a esta cifra en toda la banda de audiofrecuencias, lo que significa que no pueden registrar señales 74 dB por debajo de su máximo ya que el ruido analógico sería mucho más potente que la señal que se desea registrar.

Referencias

Widrow B., Kollár I., Liu M. (1995). Statistical Theory of Quantization.
Smith, J.O. (2007). http://ccrma.stanford.edu/~jos/mdft/Round_Off_Error_Variance.html |urlcapítulo= sin título (ayuda). "Round-off Error Variance", en Mathematics of the Discrete Fourier Transform (DFT). ISBN 978-0-9745607-4-8.
Martin, Geoff (2004). «"When to use dither", en Introduction to Sound Recording». Archivado desde el original el 8 de octubre de 2007.
Martin, Geoff (2004). «"Dither examples", en Introduction to Sound Recording». Archivado desde el original el 8 de octubre de 2007.
Sólo datos de las muestras de la señal. El flujo bruto de un CD-Audio en reproducción, contemplando redundancia y datos de control, es de 1,94 Mbps.
En ocasiones, los términos Delta y Sigma (o sus símbolos $\Delta \Sigma \,\!$ ) aparecen intercambiados. También es frecuente el uso del acrónimo del inglés SDM (Sigma Delta Modulation) o DSM.
Grupo de Teoría do Sinal (2003). «Prácticas de SSD: 5.6.1. Diezmado». Dpto. Teoría do Sinal e Comunicacións: Universidade de Vigo. Archivado desde el original el 23 de abril de 2007.
«Threshold of Hearing». Hyperphysics.
Kite, Thomas (2001). «Signal Processing Seminar: Debunking Audio Myths (Véase "Myth 5: 16 bits are not enough")». The Embedded Signal Processing Laboratory - University of Texas at Austin.
Meyer, Brad (2007). «Audibility of a CD-Standard A/D/A Loop Inserted into High-Resolution Audio Playback» (Volumen 55, Número 9 edición). Journal of the Audio Engineering Society (Engineering Reports).
«AD1862: Ultralow Noise 20-Bit Audio DAC». Analog Devices. Archivado desde el original el 28 de septiembre de 2007.
Tinen, Dan (1998). «"What about 24-bit recording?" en ADAT 20-bit digital recording:». Alesis.

Bibliografía

Proakis, J. G. y Manolakis, D. G. (1998). Tratamiento digital de señales. Principios, algoritmos y aplicaciones. Hertfordshire: PRENTICE HALL International (UK) Ltd. ISBN 84-8322-000-8.

Véase también

Enlaces externos

Kester, Walt (2005). «MT-001: Taking the Mystery out of the Infamous Formula, "SNR=6.02N + 1.76dB," and Why You Should Care». Archivado desde el original el 30 de septiembre de 2007.
Lyons, Richard (2005). «Reducing ADC Quantization Noise». Archivado desde el original el 21 de octubre de 2007.
Valle, Mauricio. «Teoría de cuantificación, conversión analógico-digital y digital-analógica». Archivado desde el original el 6 de septiembre de 2004.
«Improving A/D Converter Performance Using Dither». National Semiconductor. 1992.
Widrow, Bernard. «Quantization Noise: Dither».
Moonen, Marc (2007). «Audio and Speech Processing. Topic-1: Digital Audio Recording & Playback». (enlace roto disponible en Internet Archive; véase el historial, la primera versión y la última).
Tomarakos, John (2002). «The Relationship of Dynamic Range to Data Word Size in Digital Audio Processing». Audio Design Line.
Aldrich, Nika (2002). «Dither Explained: An explanation and proof of the benefit of dither for the audio engineer». Cadenza Recording. Archivado desde el original el 11 de octubre de 2016.
Wannamaker, Robert Alexander (2003). «The Theory of Dithered Quantization». University of Waterloo. Archivado desde el original el 16 de diciembre de 2006.

Datos: Q248522

Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.

[1] Widrow B., Kollár I., Liu M. (1995). Statistical Theory of Quantization.

[2] Smith, J.O. (2007). http://ccrma.stanford.edu/~jos/mdft/Round_Off_Error_Variance.html |urlcapítulo= sin título (ayuda). "Round-off Error Variance", en Mathematics of the Discrete Fourier Transform (DFT). ISBN 978-0-9745607-4-8.

[3] Martin, Geoff (2004). «"When to use dither", en Introduction to Sound Recording». Archivado desde el original el 8 de octubre de 2007.

[4] Martin, Geoff (2004). «"Dither examples", en Introduction to Sound Recording». Archivado desde el original el 8 de octubre de 2007.

[5] Sólo datos de las muestras de la señal. El flujo bruto de un CD-Audio en reproducción, contemplando redundancia y datos de control, es de 1,94 Mbps.

[6] En ocasiones, los términos Delta y Sigma (o sus símbolos $\Delta \Sigma \,\!$ ) aparecen intercambiados. También es frecuente el uso del acrónimo del inglés SDM (Sigma Delta Modulation) o DSM.

[7] Grupo de Teoría do Sinal (2003). «Prácticas de SSD: 5.6.1. Diezmado». Dpto. Teoría do Sinal e Comunicacións: Universidade de Vigo. Archivado desde el original el 23 de abril de 2007.

[8] «Threshold of Hearing». Hyperphysics.

[9] Kite, Thomas (2001). «Signal Processing Seminar: Debunking Audio Myths (Véase "Myth 5: 16 bits are not enough")». The Embedded Signal Processing Laboratory - University of Texas at Austin.

[10] Meyer, Brad (2007). «Audibility of a CD-Standard A/D/A Loop Inserted into High-Resolution Audio Playback» (Volumen 55, Número 9 edición). Journal of the Audio Engineering Society (Engineering Reports).

[11] «AD1862: Ultralow Noise 20-Bit Audio DAC». Analog Devices. Archivado desde el original el 28 de septiembre de 2007.

[12] Tinen, Dan (1998). «"What about 24-bit recording?" en ADAT 20-bit digital recording:». Alesis.