Diagrama de caja

Un diagrama de caja (también, diagrama de caja y bigotes o box plot) es un método estandarizado para representar gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, se muestran a simple vista la mediana y los cuartiles de los datos,[1] y también pueden representarse sus valores atípicos. Conviene recordar que se utilizan las bisagras de Tukey, y no los cuartiles, a la hora de dibujar la caja del gráfico, aunque los resultados son semejantes en muestras grandes.

Tipos de variables que se necesitan

Discretas y Continuas.

Componentes del diagrama de caja

Componentes del diagrama de caja

El diagrama de caja incluye los siguientes elementos:

  • rango (sin datos atípicos)
  • datos atípicos
  • rango intercuartil (también conocido como RIC)
  • cuartiles (Q1, Q2 y Q3)
  • mediana (Q2)
  • mínimo y máximo

Elaboración manual del diagrama de caja

Para la elaboración de manera manual de este tipo de gráfico, primero se obtiene la media de cada intervalo, y luego la mediana de la tabla de frecuencias en general. Con estos datos, se utiliza la fórmula de la media de cada intervalo elevado a la mediana. Los datos obtenidos en esta fórmula son la interpretación.

                            +-----+-+    
  *       o     |-----------|     | |---|
                            +-----+-+    
                                         
+---+---+---+---+---+---+---+---+---+---+---+---+---+---+---+
0   1   2       4   5       7       9   10      12          15
  • Ordenar los datos y obtener el valor mínimo, el máximo, los cuartiles Q1, Q2 y Q3 y el rango intercuartílico (RIC):
En el ejemplo, para trazar la caja:
  • Valor 7: es el Q1 (25% de los datos)
  • Valor 8.5: es el Q2 o mediana (el 50% de los datos)
  • Valor 9: es el Q3 (75% de los datos)
  • Rango intercuartílico (Q3–Q1)
  • Los «bigotes», las líneas que se extienden desde la caja, se extienden hasta los valores máximo y mínimo de la serie o hasta 1,5 veces el RIC.

Cuando los datos se extienden más allá de esto, significa que hay valores atípicos en la serie y entonces hay que calcular los límites superior e inferior, Li y Ls.

Para ello, se consideran atípicos los valores inferiores a Q1–1.5·RIC o superiores a Q3+1.5·RIC.
En el ejemplo:
  • inferior: 7–1.5·2 = 4
  • superior: 9+1.5·2 = 12
Ahora se buscan los últimos valores que no son atípicos, que serán los extremos de los bigotes.
  • En el ejemplo: 4 y 10
  • Marcar como atípicos todos los datos que están fuera del intervalo (Li, Ls).
En el ejemplo: 0,5 y 2,5
  • Además, se pueden considerar valores extremadamente atípicos aquellos que exceden Q1–3·RIC o Q3+3·RIC.
De modo que, en el ejemplo:
  • inferior: 7–3·2 = 1
  • superior: 9+3·2 = 15

Utilidad

  • Proporcionan una visión general de la simetría de la distribución de los datos; si la mediana no está en el centro del rectángulo, la distribución no es simétrica.
  • Son útiles para ver la presencia de valores atípicos también llamados outliers.
  • Pertenece a las herramientas de las estadística descriptiva. Permite ver como es la dispersión de los puntos con la mediana, los percentiles 25 y 75 y los valores máximos y mínimos.
  • Ponen en una sola dimensión los datos de un histograma, facilitando así el análisis de la información al detectar que el 50% de la población está en los límites de la caja.

Referencias

  1. «BBC Bitesize - GCSE Maths - Representing data - Edexcel - Revision 7». BBC Bitesize (en inglés británico). Consultado el 12 de noviembre de 2018.

Enlaces externos

Este artículo ha sido escrito por Wikipedia. El texto está disponible bajo la licencia Creative Commons - Atribución - CompartirIgual. Pueden aplicarse cláusulas adicionales a los archivos multimedia.