Varianza

En teoría de probabilidad, la varianza o variancia (que suele representarse como $\sigma ^{2}$ ) de una variable aleatoria es una medida de dispersión definida como la esperanza del cuadrado de la desviación de dicha variable respecto a su media. Su unidad de medida corresponde al cuadrado de la unidad de medida de la variable: por ejemplo, si la variable mide una distancia en metros, la varianza se expresa en metros al cuadrado. La varianza tiene como valor mínimo 0. La desviación estándar (raíz cuadrada positiva de la varianza) es una medida de dispersión alternativa, expresada en las mismas unidades que los datos de la variable objeto de estudio.

Ejemplo de muestras de dos poblaciones con la misma media pero varianzas diferentes. La población roja tiene media 100 y varianza 100 (DE=10) mientras que la población azul tiene media 100 y varianza 2500 (DE=50).

Hay que tener en cuenta que la varianza puede verse muy influida por los valores atípicos y no se aconseja su uso cuando las distribuciones de las variables aleatorias tienen colas pesadas. En tales casos se recomienda el uso de otras medidas de dispersión más robustas.

Una ventaja de la varianza como medida de dispersión es que es más susceptible de manipulación algebraica que otras medidas de dispersión como la Desviación absoluta esperada; por ejemplo, la varianza de una suma de variables aleatorias no correlacionadas es igual a la suma de sus varianzas. Una desventaja de la varianza para aplicaciones prácticas es que, a diferencia de la desviación estándar, sus unidades difieren de la variable aleatoria, razón por la cual la desviación estándar se reporta más comúnmente como una medida de dispersión una vez terminado el cálculo.

Existen dos conceptos distintos que se denominan "varianza". Uno, como se ha comentado anteriormente, forma parte de una distribución de probabilidad teórica y se define mediante una ecuación. La otra varianza es una característica de un conjunto de observaciones. Cuando la varianza se calcula a partir de observaciones, éstas se suelen medir a partir de un sistema del mundo real. Si están presentes todas las observaciones posibles del sistema, la varianza calculada se denomina varianza poblacional. Sin embargo, normalmente sólo se dispone de un subconjunto, y la varianza calculada a partir de éste se denomina varianza muestral. La varianza calculada a partir de una muestra se considera una estimación de la varianza de toda la población. Existen múltiples formas de calcular una estimación de la varianza de la población, como se explica en la sección siguiente.

Los dos tipos de varianza están estrechamente relacionados. Para véase cómo, considérese que una distribución de probabilidad teórica puede utilizarse como generador de observaciones hipotéticas. Si se genera un número infinito de observaciones utilizando una distribución, entonces la varianza muestral calculada a partir de ese conjunto infinito coincidirá con el valor calculado utilizando la ecuación de la distribución para la varianza.

El término varianza fue acuñado por Ronald Fisher en un artículo publicado en enero de 1919 con el título The Correlation Between Relatives on the Supposition of Mendelian Inheritance.[1]

A continuación se hará un repaso de las fórmulas, hay que tener en cuenta que la fórmula de la varianza para una población (σ²) difiere de la fórmula de la varianza para una muestra (s²), Pero antes de ver la fórmula de la varianza, debemos decir que la varianza en estadística es muy importante. Ya que aunque se trata de una medida sencilla, puede aportar mucha información sobre una variable en concreto.

Etimología

El término varianza fue introducido por primera vez por Ronald Fisher en su artículo de 1918 La correlación entre parientes en el supuesto de herencia mendeliana:[2]

El gran cuerpo de estadísticas disponibles nos muestra que las desviaciones de una medida humana respecto a su media siguen muy de cerca la Ley Normal de Errores, y, por tanto, que la variabilidad puede medirse uniformemente por la desviación típica correspondiente a la raíz cuadrada del error cuadrático medio. Cuando existen dos causas independientes de variabilidad capaces de producir en una población, por lo demás uniforme, distribuciones con desviaciones típicas $\sigma _{1}$ y $\sigma _{2}$ , se comprueba que la distribución, cuando ambas causas actúan conjuntamente, tiene una desviación típica ${\sqrt {\sigma _{1}^{2}+\sigma _{2}^{2}}}$ . Por lo tanto, al analizar las causas de la variabilidad, es conveniente tratar el cuadrado de la desviación típica como medida de la variabilidad. Denominaremos a esta cantidad Varianza...

.

Visualización geométrica de la varianza de una distribución arbitraria (2, 4, 4, 4, 5, 5, 7, 9): * Se construye una distribución de frecuencias. * El centroide de la distribución da su media. * Se forma un cuadrado con lados iguales a la diferencia de cada valor respecto a la media para cada valor. * Arreglando los cuadrados en un rectángulo con un lado igual al número de valores, n, resulta que el otro lado es la varianza de la distribución, σ².

Definición

La varianza de una variable aleatoria $X$ es el valor esperado de las desviación al cuadrado de la media de $X$ , $\mu =\operatorname {E} [X]$ :

\operatorname {Var} (X)=\operatorname {E} \left[(X-\mu )^{2}\right].

Esta definición abarca variables aleatorias generadas por procesos que son discreta, continua, ninguna de las dos, o mixtos. La varianza también puede considerarse como la covarianza de una variable aleatoria consigo misma:

\operatorname {Var} (X)=\operatorname {Cov} (X,X).

La varianza también es equivalente al segundo cumulante de una distribución de probabilidad que genera $X$ . La varianza se designa típicamente como $\operatorname {Var} (X)$ , o a veces como $V(X)$ o $\mathbb {V} (X)$ , o simbólicamente como $\sigma _{X}^{2}$ o simplemente $\sigma ^{2}$ (pronunciado "sigma al cuadrado"). La expresión para la varianza puede expandirse como sigue:

{\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} \left[(X-\operatorname {E} [X])^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}-2X\operatorname {E} [X]+\operatorname {E} [X]^{2}\right]\\[4pt]&=\operatorname {E} \left[X^{2}\right]-2\operatorname {E} [X]\operatorname {E} [X]+\operatorname {E} [X]^{2}\\[4pt]&=\operatorname {E} \left[X^{2}\right]-\operatorname {E} [X]^{2}\end{aligned}}

En otras palabras, la varianza de $X$ es igual a la media del cuadrado de $X$ menos el cuadrado de la media de $X$ . Esta ecuación no debe utilizarse para cálculos que utilizan aritmética de coma flotante, porque sufre de cancelación catastrófica si los dos componentes de la ecuación son similares en magnitud. Para otras alternativas numéricamente estables, véase Algoritmos para calcular la varianza.

Fórmula para calcular la varianza

La unidad de medida de la varianza será siempre la unidad de medida correspondiente a los datos pero elevada al cuadrado. La varianza siempre es mayor o igual que cero. Al elevarse los residuos al cuadrado es matemáticamente imposible que la varianza salga negativa. Y de esa forma no puede ser menor que cero.

Sea $X$ una variable aleatoria con media $\mu =\operatorname {E} (X)$ , se define la varianza de la variable aleatoria $X$ , denotada por $\operatorname {Var} (X)$ , $\sigma _{X}^{2}$ o simplemente $\sigma ^{2}$ como

\operatorname {Var} (X)=\operatorname {E} [(X-\mu )^{2}]

Desarrollando la definición anterior, se obtiene la siguiente definición alternativa (y equivalente):

{\begin{aligned}\operatorname {Var} (X)&=\operatorname {E} [(X-\mu )^{2}]\\&=\operatorname {E} [(X^{2}-2X\mu +\mu ^{2})]\\&=\operatorname {E} [X^{2}]-2\mu \operatorname {E} [X]+\mu ^{2}\\&=\operatorname {E} [X^{2}]-2\mu ^{2}+\mu ^{2}\\&=\operatorname {E} [X^{2}]-\mu ^{2}\\&=\operatorname {E} [X^{2}]-\operatorname {E} ^{2}[X]\end{aligned}}

Si una distribución no tiene esperanza, como ocurre con la de Cauchy, tampoco tiene varianza. Existen otras distribuciones que, aun teniendo esperanza, carecen de varianza. Un ejemplo de ellas es la de Pareto cuando su índice $k$ satisface $1<k\leq 2$ .

Caso continuo

Si la variable aleatoria $X$ es continua con función de densidad $f(x)$ entonces

\operatorname {Var} (X)=\int _{R_{X}}(x-\mu )^{2}f(x)dx

donde

\mu =\operatorname {E} [X]=\int _{R_{X}}xf(x)dx

y las integrales están definidas sobre el soporte de la variable aleatoria $X$ , es decir, $R_{X}$ .

Caso discreto

Si la variable aleatoria $X$ es discreta con función de probabilidad $\operatorname {P} [X=x]$ entonces

\operatorname {Var} (X)=\sum _{x\in R_{X}}(x-\mu )^{2}\operatorname {P} [X=x]

donde

\mu =\operatorname {E} [X]=\sum _{x\in R_{X}}x\operatorname {P} [X=x]

Propiedades

Sean $X$ y $Y$ dos variables aleatorias con varianza finita y $a\in \mathbb {R}$

$\operatorname {Var} (X)\geq 0$
$\operatorname {Var} (a)=0$
$\operatorname {Var} (aX)=a^{2}\operatorname {Var} (X)$
$\operatorname {Var} (X+Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)+2\operatorname {Cov} (X,Y)$ , donde $\operatorname {Cov} (X,Y)$ denota la covarianza de $X$ e $Y$
$\operatorname {Var} (X+Y)=\operatorname {Var} (X)+\operatorname {Var} (Y)$ si $X$ y $Y$ son variables aleatorias independientes.
$\operatorname {Var} (Y)=\operatorname {E} (\operatorname {Var} (Y|X))+\operatorname {Var} (\operatorname {E} (Y|X))$ cálculo de la Varianza por Pitágoras, dónde $Y|X$ es la variable aleatoria condicional $Y$ dado $X$ .

Ejemplos

Al lanzar una moneda podríamos obtener Cara o Cruz.

Vamos a darles los valores Cara = 0 y Cruz = 1 y tenemos una variable aleatoria "X":

Usando notación matemática:

X = {0, 1}

Nota: ¡Podríamos elegir Cara = 100 y Cruz = 150 u otros valores si queremos! Es nuestra elección. Entonces:

Tenemos un experimento (como lanzar una moneda)
Damos valores a cada evento.
El conjunto de valores forman la Variable Aleatoria

Distribución exponencial

Si una variable aleatoria continua $X$ tiene una distribución exponencial con parámetro $\lambda$ entonces su función de densidad está dada por

f_{X}(x)=\lambda e^{-\lambda x}

para $x\geq 0$ .

No es difícil ver que la media de $X$ es $\operatorname {E} [X]=1/\lambda$ , por lo que para hallar su varianza calculamos

{\begin{aligned}\operatorname {Var} (X)&=\int _{0}^{\infty }\left(x-{\frac {1}{\lambda }}\right)^{2}\lambda e^{-\lambda x}dx\end{aligned}}

Después de integrar se puede concluir que

\operatorname {Var} (X)={\frac {1}{\lambda ^{2}}}

Dado perfecto

Un dado de seis caras puede representarse como una variable aleatoria discreta que toma, valores del 1 al 6 con probabilidad igual a ¹/₆. El valor esperado es (1+2+3+4+5+6)/6 = 3,5. Por lo tanto, su varianza es:

\sum _{i=1}^{6}{\tfrac {1}{6}}(i-3,5)^{2}={\tfrac {1}{6}}\left((-2,5)^{2}{+}(-1,5)^{2}{+}(-0,5)^{2}{+}0,5^{2}{+}1,5^{2}{+}2,5^{2}\right)={\tfrac {1}{6}}\cdot 17,50={\tfrac {35}{12}}\approx 2,92\,.

Varianza muestral

En muchas situaciones es preciso estimar la varianza poblacional a partir de una muestra. Si se toma una muestra con reemplazo $(x_{1},x_{2}\dots ,x_{n})$ de $n$ valores de ella, de entre todos los estimadores posibles de la varianza de la población de partida, existen dos de uso corriente

El primero de ellos

s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\bar {x}}\right)^{2}

que puede ser escrito como

s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\bar {x}}^{2}

pues

{\begin{aligned}s_{n}^{2}&={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}\\&={\frac {1}{n}}\sum _{i=1}^{n}\left(x_{i}^{2}-2x_{i}{\overline {x}}+{\overline {x}}^{2}\right)\\&={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {2{\overline {x}}}{n}}\sum _{i=1}^{n}x_{i}+{\overline {x}}^{2}{\frac {1}{n}}\sum _{i=1}^{n}1\\&={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-2{\overline {x}}^{2}+{\overline {x}}^{2}\\&={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{2}-{\overline {x}}^{2}\end{aligned}}

y el segundo de ellos es

s^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}

que puede ser escrito como

s^{2}={\frac {\sum _{i=1}^{n}x_{i}^{2}-n{\overline {x}}^{2}}{n-1}}

pues

{\begin{aligned}s^{2}&={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}-{\overline {x}}\right)^{2}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}\left(x_{i}^{2}-2x_{i}{\overline {x}}+{\overline {x}}^{2}\right)\\&={\frac {1}{n-1}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {2{\overline {x}}}{n-1}}\sum _{i=1}^{n}x_{i}+{\frac {{\overline {x}}^{2}}{n-1}}\sum _{i=1}^{n}1\\&={\frac {1}{n-1}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {2{\overline {x}}n}{n-1}}{\frac {1}{n}}\sum _{i=1}^{n}x_{i}+{\frac {{\overline {x}}^{2}n}{n-1}}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {2{\overline {x}}^{2}n}{n-1}}+{\frac {{\overline {x}}^{2}n}{n-1}}\\&={\frac {1}{n-1}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {{\overline {x}}^{2}n}{n-1}}\\&={\frac {\sum _{i=1}^{n}x_{i}^{2}-n{\overline {x}}^{2}}{n-1}}\end{aligned}}

A ambos se los denomina varianza muestral, difieren ligeramente y, para valores grandes de $n$ , la diferencia es irrelevante. El primero traslada directamente la varianza de la muestra al de la población y el segundo es un estimador insesgado de la varianza poblacional pues

{\begin{aligned}\operatorname {E} [s^{2}]&=\operatorname {E} \left[{\frac {1}{n-1}}\sum _{i=1}^{n}x_{i}^{2}-{\frac {n}{n-1}}{\overline {x}}^{2}\right]\\&={\frac {1}{n-1}}\left(\sum _{i=1}^{n}\operatorname {E} [x_{i}^{2}]-n\operatorname {E} [{\bar {x}}^{2}]\right)\\&={\frac {1}{n-1}}\left(n\operatorname {E} [x_{1}^{2}]-n\operatorname {E} [{\overline {x}}^{2}]\right)\\&={\frac {n}{n-1}}\left(\operatorname {Var} (x_{1})+\operatorname {E} [x_{1}]^{2}-\operatorname {Var} ({\overline {x}})-\operatorname {E} [{\overline {x}}]^{2}\right)\\&={\frac {n}{n-1}}\left(\operatorname {Var} (x_{1})+\mu ^{2}-{\frac {1}{n}}\operatorname {Var} (x_{1})-\mu ^{2}\right)\\&={\frac {n}{n-1}}\left({\frac {n-1}{n}}~\operatorname {Var} (x_{1})\right)\\&=\operatorname {Var} (x_{1})\\&=\sigma ^{2}\end{aligned}}

mientras que

E[s_{n}^{2}]={\frac {n-1}{n}}\sigma ^{2}

Propiedades de la varianza muestral

Como consecuencia de la igualdad $\operatorname {E} (s^{2})=\sigma ^{2}$ , $s^{2}$ es un estadístico insesgado de $\sigma ^{2}$ . Además, si se cumplen las condiciones necesarias para la ley de los grandes números, s² es un estimador consistente de $\sigma ^{2}$ .

Más aún, cuando las muestras siguen una distribución normal, por el teorema de Cochran, $s^{2}$ tiene la distribución chi-cuadrado:

n{\frac {s^{2}}{\sigma ^{2}}}\sim \chi _{n-1}^{2}.

Interpretaciones de la varianza muestral

Dejamos tres fórmulas equivalentes para el cálculo de la varianza muestral $s_{n}$

s_{n}^{2}={\frac {1}{n}}\sum _{i=1}^{n}\left(y_{i}-{\overline {y}}\right)^{2}=\left({\frac {1}{n}}\sum _{i=1}^{n}y_{i}^{2}\right)-{\overline {y}}^{2}={\frac {1}{n^{2}}}\sum _{i<j}\left(y_{i}-y_{j}\right)^{2}

Esta última igualdad tiene interés para interpretar los estimadores $s^{2}$ y $s_{n}^{2}$ , pues si se quiere evaluar la desviación de unos datos o sus diferencias, se puede optar por calcular el promedio de los cuadrados de las diferencias de cada par de datos:

2s_{n}^{2}={\frac {\sum _{\left(i\leqslant n,j\leqslant n\right)}\left(y_{i}-y_{j}\right)^{2}}{n^{2}}}

. Nótese que el número de sumandos es

n^{2}

.

O se puede considerar el promedio de los cuadrados de las diferencias de cada par de datos sin tener en cuenta cada dato consigo mismo, ahora el número de sumandos es $n\left(n-1\right)$ .

2s^{2}={\frac {\sum _{i\neq j}\left(y_{i}-y_{j}\right)^{2}}{n\left(n-1\right)}}

Algunas aplicaciones de la varianza

Las aplicaciones estadísticas del concepto de la varianza son incontables. Las siguientes son solo algunas de las principales:

Los estimadores eficientes. Son aquellos cuya esperanza es el verdadero valor del parámetro y, además, tienen una mínima varianza. De este modo, hacemos lo más pequeño posible el riesgo de que lo que extraemos de una muestra se aparte demasiado del verdadero valor del parámetro.
Los estimadores consistentes. Son aquellos que, a medida que crece el tamaño de la muestra, tienden a tener una varianza de cero. Por lo tanto, con muestras grandes, la estimación tiende a desviarse muy poco del verdadero valor.
En la distribución normal, la varianza (su raíz cuadrada, la desviación típica) es uno de los parámetros. La campana de Gauss tiende a ser más alta y estrecha a medida que la varianza disminuye.
En modelos de regresión, hablamos de homocedasticidad cuando la varianza del error es constante a lo largo de sus observaciones. Por ejemplo, en una regresión simple, vemos una nube de puntos en la que la dispersión de los puntos alrededor de la recta o curva estimada se mantiene constante.
El análisis de la varianza (ANOVA) permite comparar diferentes grupos y ver los factores que influyen en ellos.
La desigualdad de Chebyshev nos permite acotar en qué medida es probable que una variable aleatoria se separe de su esperanza matemática en proporción a su desviación típica (raíz cuadrada de la varianza).

Conclusión

En el análisis de varianzas se estudian las diferencias significativas entre dos o más medias de una muestra. Este análisis se conoce comúnmente como ANOVA y nos permite determinar también si esas medias provienen de una misma población (puede ser el número total de empleados de una empresa), o si las medias de dos poblaciones son iguales.

Por otro lado, la varianza al igual que la desviación estándar son muy sensibles a los valores atípicos, estos son los valores que se alejan mucho de la media o que son muy distintos a esta.

Para que estas medidas no se vean tan afectadas, estos valores atípicos pueden obviarse a la hora de realizar los análisis e incluso los cálculos. También pueden emplearse otras medidas de dispersión que son más útiles en estos casos.

En el caso de analizar el riesgo de una inversión, se tienen en cuenta dos aspectos importantes, uno es el rendimiento invertido y otro el esperado de acuerdo a la inversión realizada. Como ya se mencionó, se puede utilizar la varianza para analizar este riesgo.

Véase también

Referencias

Fisher, R. A. (1919). «The Correlation Between Relatives on the Supposition of Mendelian Inheritance» Transactions of the Royal Society of Edinburgh Vol. 52, 02, pp 399-433.
Ronald Fisher (1918) La correlación entre parientes en el supuesto de herencia mendeliana

Enlaces externos

Simulación de la varianza de una variable discreta con R (lenguaje de programación)
[www.solin.16mb.com/estadistica_js/MediayDesviacion.htm] Un triángulo rectángulo.

Datos: Q175199
Multimedia: Variance / Q175199

Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.

[1] Fisher, R. A. (1919). «The Correlation Between Relatives on the Supposition of Mendelian Inheritance» Transactions of the Royal Society of Edinburgh Vol. 52, 02, pp 399-433.

[2] Ronald Fisher (1918) La correlación entre parientes en el supuesto de herencia mendeliana