Buscar

Cargando...

domingo, 16 de enero de 2011

Diagrama de caja y bigotes (box and whisker) en Excel


Es fácil encontrar en la red algunos tutoriales para realizar en Excel diagramas de caja y bigotes (que de ahora en adelante llamaré simplemente diagramas de caja o boxplot).

Sin embargo, la gran mayoría de los tutoriales que se encuentran, tanto en inglés como en español, explican como hacer un diagrama de caja usando los máximos y los mínimos. No he encontrado ninguno que explique cómo realizar un diagráma de caja que se base en el rango intercuartílico y que además explique como trazar los datos atípicos.

Por ello, he estado trabajando en el código para crear en Excel un diagrama de caja con todas las de la ley. Espero terminar de depurar pronto y subirlo como un complemento, sin restricciones para consultar o modificar el código y de uso gratuito (al parecer, todas las utilidades que se encuentran en la red para graficar Boxplots de manera profesional tiene costo. Quizás el más popular sea el PTS Box and Whisker Chart Utility  de Jon Peltier).

Para entender los parametros predeterminados que he puesto en el formulario, es necesario entender cómo se grafica un diagrama de caja:
  1. La caja cubre el 50% de los datos, siendo su parte superior el cuartil 1 (Q1) y la parte inferior el cuartil 3 (Q3).
  2. La caja presenta un línea en la mitad que corresponde al cuartil 2 o mediana y permite identificar facilmente si existe sesgo en los datos.
  3. Los bigotes (whiskers) muestran los valores máximos y mínimos, a menos que hayan datos atípicos, que son aquellos que están más allá de 1.5 veces el rango intercualtílico (Q3 - Q1).
  4. En caso de existir atípicos, los bigotes corresponder al dato más cercano a 1.5 veces el rango intercuartílico y los datos atípicos se presentan como puntos más allá de los bigotes.
  5. Se puede graficar la media como un diamante en la caja.
El archivo contiene un formulario, tras cargarlo, el formulario permite configurar las características que queramos para el diagrama de caja. Por defecto, se mostrará el diagrama de caja como se explicó anteriormente, pero sin incluir el diamante para la media. Si se quiere ver la media, basta con seleccionarla en el formulario.


He contrastado el resultado producido con Excel por el producido con R (http://www.r-project.org/). El siguiente es el gráfico arrojado por R y el arrojado por Excel (usando el motor gráfico de Excel 2003).


Al parecer, el resultad obtenido con el código en Excel es bastante preciso. Sin embargo, antes de afirmar que el código funciona correctamente, agradezco a quien pueda descargar el archivo y hacer algunas pruebas con él, para identificar errores y publicarlos en los comentarios. Yo continuaré en la tarea de depurar el código para dejar el complemento listo para usar.

Gracias a todos los que participaron en la sección de comentarios. He publicado una nueva entrada con la última versión en la que se da solución (espero) a los errores reportados: Diagrama de caja y bigotes con Excel II .