Medidas de posición central - ¿existe algo más allá de la media?
No existe una sola noticia en la que no se nombre la media. Se habla del sueldo medio, la altura media, las precipitaciones medias, ... Estamos tan atiborrados de "medias" en los medios de comunicación que muchas veces se nos olvida que tal magnitud no siempre tiene sentido.
Vista semejante obsesión por sacarle promedio a todo, veamos unas cuantas cosas a tener en cuenta antes de lanzarnos a hablar de valores medios.
No siempre es posible calcular la media.
Si yo me como un pollo y tú te comes cero pollos, el resultado es que uno de los dos va a pasar hambre, aunque en media comamos cada uno 1/2 pollo.
La media no puede calcularse sobre todo tipo de datos. En concreto, no tiene sentido hablar de la media de datos nominales u ordinales. ¿Cuál es la media de un perro y una vaca? ¿Y del primer y cuarto clasificados en una carrera?
Seguramente el periodista medio, algo así como un punto medio entre el becario de ElPaís y Camilo José Cela, me daría la razón.
Para poder calcular la media, necesitaremos que nuestros datos sean de tipo cuantitativo (discreto o continuo). No vale sumar cualquier cosa representada con dígitos y dividir por dos.
En lugar de la media, en el caso de que nuestros datos sean nominales (colores, marcas de coche) usaremos la moda en lugar de la media. Y si son ordinales, tomaremos la mediana. La moda es simplemente el valor que más se repite - si es que existe - y la mediana aquel que deja la mitad de los datos a cada lado.
A veces, pese a poderse calcular, la media no tiene significado.
De hecho, puede afirmarse con total rotundidad que el número de piernas de casi todos los españoles es superior a la media.
No debe usarse la media sobre datos sesgados. En concreto, para hablar de sueldos
Puede parecer una cuestión trivial, pero el "sueldo medio" no es una medida útil, por mucho que nos lo repitan en la tele. El sueldo debe compararse usando la mediana, puesto que son datos sesgados a derecha.

En el caso del sueldo, es también interesante mencionar el sueldo moda, que es aquel que más se repite. En la anterior gráfica, puede verse como el sueldo medio es notablemente mayor que la mediana, dando la impresión de una riqueza inexistente.
El efecto de tener una distribución sesgada a derecha es, precisamente, que la media es "arrastrada" hacia la cola derecha de la distribución. Si fuera sesgada a izquierda, tendría justo el efecto contrario.
Cuando se calcula un promedio, no todos los individuos tienen la misma importancia
Así pues, basta pensar en el cálculo del IPC. No todos los artículos tienen el mismo peso. Esta misma situación se da en muchos otros conceptos.
Una media ponderada no más que algo así:
La ponderación de cada elemento depende del problema en cuestión.Volviendo al IPC, este índice tiene 12 categorías diferentes definidas, y cientos de artículos repartidos entre ellas. Cada uno tiene su propio peso y estos pesos se revisan anualmente para mantener el índice actualizado.
La media aritmética no es la única "media"
También puede calcularse la media geométrica, que se usa en los cálculos con tasas de intereses en economía, y la media armónica, que se usa al hablar de la precisión de modelos de Machine Learning o de velocidades relativas en Física (aunque hay que reconocer que la media armónica tiene más bien limitadas aplicaciones).
También estas medidas tienen sus limitaciones. La media geométrica sólo está bien definida para valores mayores que cero. Y la armónica requiere que todos los elementos sean distintos de cero.
Al margen de todo esto, las medias geométrica y armónica tienen interesantes propiedades que hace que salgan bastante en problemas de olimpiadas matemáticas.
El problema de los outliers
La media no es una medida de posición robusta. Esto quiere decir que es muy sensible a datos que están muy lejos de los demás.
Para lidiar con este problema, suelen usarse lo que viene a llamarse "medidas de posición central robustas", que son modificaciones de la media en las que se quitan los términos más extremos y se calcula la media de lo que queda. Veamos unos ejemplos:
Media k-recortada
Se calcula ordenando los datos y quitando k valores del principio y del final - normalmente se toma un % pequeño de datos a quitar (si es el 25% se denomina "centrimedia"). El siguiente ejemplo en R lo ilustra:
Media k-winsorizada
Es prácticamente lo mismo, pero se sustituyen los elementos que has quitado por el mínimo y el máximo de los restantes, respectivamente.
Trimedia
Para el cálculo de la trimedia se usan los cuartiles. En concreto, se define como:
Las tres medidas de posición central que acabamos de nombrar son robustas, pero también tienen sus defectos. No todas sirven en todos los casos y es tarea del investigador decidir cuál usar en su caso concreto.
En resumen
Un mal uso de un concepto tan sencillo como extendido puede dar lugar a muchísimos problemas de interpretación.
La media es un estadístico de resumen, pero la idea que da queda incompleta sin acompañarla de información adicional sobre la forma y la dispersión de los datos.
Seamos cuidadosos.
Comentarios
Publicar un comentario