Varianza

VARIANZA

Dentro del estudio de los datos de una muestra es importante la definición de la dispersión de los valores, la cuál generalmente es positiva, con excepción de algunos casos muy especiales, en donde todos los datos de la muestra son iguales y por lo tanto la media es igual a ellos.

La forma de evaluar esa dispersión es contrastando la media de los datos con respecto a cada uno de ellos, se pretende obtener un promedio de esas dispersiones, para lograrlo se puede emplear un principio de la Geometría Analítica, encontrar la distancia entre dos puntos, considerando a la media como el primer punto y a cada uno de los valores de la muestra como el segundo punto.

Lo que se pretende es encontrar el promedio de esa variabilidad de los datos con respecto a la muestra, por lo cuál deberán de sumarse cada uno de los valores resultantes de las diferencias, quedando como sigue:

de esta manera se pueden agrupar todas las diferencias de las variaciones que existen entre la media y cada uno de los valores de la muestra.

Se debe de recordar que la media distribuye los datos en dos partes simétricas, es decir, la mitad de ellos queda a la izquierda y el resto a la derecha de la media, por lo cual el desarrollo de éste modelo siempre dará como resultado el valor de cero (0), el que sea cero no sirve de mucho, ya que no permite ver la dispersión de los datos.

Para resolver este problema se requiere eliminar el signo negativo de la mitad de los datos, una forma es utilizar los valores absolutos de cada uno de ellos y se elimina el signo negativo, otra forma es emplear el método de los Mínimos Cuadrados, que consiste en elevar al cuadrado cada una de las diferencias y permite eliminar el signo negativo de aquellos valores mayores a la media, el modelo quedaría así:

Con esto lo que se llegó a determinar fue el conjunto de los valores dispersos con respecto a la media, por lo que procede ahora obtener el promedio de estas desviaciones para poder obtener la variación o Varianza que tienen los datos muestrales con respecto a la media. Para lograrlo se deberá de dividir entre el número de datos (n) de la muestra, La varianza es calculada por medio de las leyes de probabilidad, lo que considera que el modelo requiere un ajuste, para grandes muestras, que es disminuir una unidad al valor de n por lo que el modelo final para calcular la Varianza de los datos de la muestra que es representada por s² queda como sigue:

Que es equivalente a lo siguiente: