LA ESTADÍSTICA SE ESTÁ QUEDANDO ATRÁS: LA EVOLUCION DE LA TECNOLOGÍA Y POR QUÉ ES HORA DE UNA ACTUALIZACIÓN EN LA ENSEÑANZA.

Old teachers are better | Teaching Theology 

 

Mucha de la estadística clásica fue desarrollada hace ya demasiados años. Y, en consecuencia, parte de sus herramientas están pensadas para hacer cálculos con la tecnología de aquel entonces.

Esto sucede con las medidas de simetría de una distribución de datos, para la cual existen diversas formas de obtener lo que se viene a llamar "coeficiente de simetría". 

El coeficiente de simetría de Pearson

Aplicable sólo a distribuciones unimodales y con una forma parecida a la normal, el coeficiente de simetría de Pearson, que aparece en todos los cursos de estadística, se calcula como 

 

Si bien en ese caso, unimodal y relativamente normal, da una buena medida, el coeficiente de simetría tiene una muy limitada aplicación. Existe una segunda forma de calcularlo, también bajo los mismos supuestos, pensada para no tener que calcular la moda de una distribución, ya que eso requiere ordenar los datos y es una tarea bastante compleja a mano o con muy pocos medios:

 


Como puede deducirse de la existencia de esta alternativa de cálculo, el coeficiente de simetría de Pearson no tiene ninguna utilidad fuera de un libro de texto de estadística descriptiva.

Karl Pearson, brillante científico, falleció en 1936. Sus coeficientes de simetría, llamados de primer y segundo orden, siguen presentes en todos los libros de texto a día de hoy.

karl pearson de www.madrimasd.org

Coeficientes de simetría basados en cuantiles y percentiles

En realidad, existen numerosas combinaciones de cuartiles y percentiles que uno podría usar en lugar de las dos que vamos a poner. Pero las dos que más aparecen en los textos son el coeficiente de asimetría percentílico y el coeficiente de asimetría de Bowley, que usa los cuartiles

 

Coef. de asimetría percentílico  

 

Coef. de asimetría de Bowley 

 

Por supuesto, todos los coeficientes de simetría vistos -  y por ver - son independientes tanto de cambios de escala como de origen. Es decir, si en lugar de calcularlos para la distribución X los calculamos para X+c o cX, donde c es una constante, los coeficientes no varían. Esta propiedad es muy deseable, puesto que desplazar o multiplicar los datos por una constante no debería alterar la simetría.

Así mismo, los coeficientes de simetría como el de Bowley, basados en cuartiles y percentiles, son robustos (resistentes a outliers).

El coeficiente de Asimetría de Fisher

Más adelante, Fisher propuso un nuevo método para dar un coeficiente que representara la simetría de una distribución. La principal ventaja de éste coeficiente es que puede calcularse para cualquier tipo de distribución, multimodal y con formas muy distantes de la normal, dado que, realmente, lo que hace es un promedio ponderado y con signo de la distancia de cada uno de los puntos al centro.

El coeficiente de simetría de Fisher para una distribución de frecuencias se calcula del siguiente modo:

 

Donde ni es el número de repeticiones del i-ésimo elemento, xi, y s la desviación típica. De la propia fórmula se desprende que si sk=0 la distribución se puede llamar simétrica, si es >0 sería asimétrica a derecha o positiva (más peso de la distribución a la derecha) y si es <0 a izquierda o negativa.

En este gráfico podemos observar el significado de un coeficiente de simetría según el signo:

 

Cuando una distribución es asimétrica a derecha (izquierda), la media se ve "arrastrada" hacia la derecha (izquierda).

A fig with distribution of right skewed, symmetrical and left skewed. |  Download Scientific Diagram

Mismo coeficiente de simetría pero ningún parecido

 Es fácil también darse cuenta de que dos distribuciones sin ningún parecido pueden tener el mismo coeficiente de simetría. Esto pone en tela de juicio el significado de este tipo de "medida de simetría".

Como ejemplo trivial, Uniforme en (-1,1) y Normal(0,1). Ambas simétricas y por lo tanto todos sus coeficientes de simetría son iguales a cero.

                             

La estadística actual y los coeficientes de simetría

A la vista de lo que podríamos llamar medidas de simetría tradicionales, es obligatorio plantearse si, realmente, tienen alguna utilidad fuera de un problema de clase. Todas estas medidas, de arduos cálculos y escaso significado, quedaron obsoletas en el momento en que resulta extremadamente simple representar graficamente cualquier distribución, por muy compleja que esta sea, y de un simple vistazo evaluar si es o no simétrica.

Esto por ejemplo es una distribución asimétrica a derecha. De hecho, se trata de una LogNormal, junto con el código, una única línea, para generarla en R:

curve(dlnorm(x, meanlog=0, sdlog=1), from=0, to=25)

 

 

Eso sí, cabe usar dichos coeficientes de simetría, junto con el de curtosis - del que hablaremos en otra ocasión - para un primer vistazo comparativo de dos distribuciones. Pero realmente nada que no podamos hacer con un plot en R en unos pocos segundos.

 

Conclusiones

Más allá de la comprensión de los conceptos de media, moda y mediana, y de cómo situarlos en los casos triviales (simetría a derecha, izquierda y simetría total), carece de sentido incidir en la memorización de unas fórmulas que escasamente pueden aplicarse a los casos previamente preparados de un libro de texto.

Los coeficientes de simetría han formado, y forman, parte de temarios de educación secundaria, universidad e incluso de oposiciones. Y es por tanto inevitable pensar en ellos como un mero complemento de las poderosas herramientas gráficas actuales. Sin querer esto decir que no debamos pasar por ellos, al menos una vez.



Comentarios

Entradas populares de este blog

UNA BREVE EXPLICACIÓN DE LA LEY DE LAS ESPERANZAS ITERADAS

UN EJEMPLO DETALLADO DE PRE-PROCESAMIENTO EN R - IMPUTACIÓN DE DATOS FALTANTES

Un mundo de sucesos imposibles - El "tongo" de la Bonoloto.