miércoles, 30 de junio de 2010

¿Que es Estadística Descriptiva?

La estadístca descriptiva es una gran parte de la estadística que se dedica a analizar y representar los datos. Este análisis es muy básico. Aunque hay tendencia a generalizar a toda la población, las primeras conclusiones obtenidas tras un análisis descriptivo, es un estudio calculando una serie de medidas de tendencia central, para ver en qué medida los datos se agrupan o dispersan en torno a un valor centrali.

Ejemplos:

  • Ejemplos de este tipo de análisis descriptivo pueden encontrarse en la prensa diaria, en la parte de información económico-social: series de tiempo, gráfica de barras, índices de precios, resultados de una encuesta y más elaborado, para más de una variable, en pirámide de edades, comparativas,calificaciones,resultados de deportes, etc.

  • Un ejemplo de estadística descriptiva con un esbozo de predicción o pronóstico en Wikipedia: ver Tabla de consumo, Resultados deportivos, etc., en general, cuantificados en valores absolutos (tal cual), en porcentajes (%) o en índices (con un periodo base inicial = 100).

Descripción de Datos


Los datos ayudan a los encargados de la toma de decisiones a hacer conjeturas bien fundamentadas acerca de las causas y, por lo tanto, sobre los efectos probables de ciertas características de algunas situaciones. Por lo demás, el conocimiento de las tendencias adquirido con la experiencia permite conocer los posibles resultados y planear con anticipación.

Los datos estadísticos se obtienen mediante un proceso que comprende la observación o medición de conceptos, como ingresos anuales de una comunidad, calificaciones de exámenes, resistencia a la rotura de las fibras de plástico, etc., a menudo son tan numerosos que carecen de utilidad a menos que sean condensados o reducidos a una forma más adecuada.

Algunas veces puede ser satisfactorio presentar los datos tal como se encuentran y obtener información directamente de ellos; otras veces solo habrá que agruparlos y presentarlos en forma gráfica o tabulada, aquí el uso de las tecnologías computacionales es mucha utilidad y rapidez.

Datos Agrupados

Cuando la muestra consta de más de 30 datos, lo aconsejable es agrupar los datos en clases y a partir de estas determinar las características de la muestra y por consiguiente las de la población de donde fue tomada.

Los datos agrupados se pueden resumir gráficamente, o en tablas, y mediante el uso de medidas numéricas, como la media, la amplitud, la desviación estándar, y otras más. El nombre que reciben los datos ordenados en grupos o categorías es el de distribución de frecuencia.


Distribución de Frecuencia

Una forma de sintetizar los datos consiste en valerse de una tabla o distribución de frecuencia. Tomemos como ejemplo el inventario promedio en días de 20 tiendas de conveniencia.

En las siguientes tablas se han incluido datos idénticos referentes al inventario promedio y se han dispuesto primero como un arreglo en orden ascendente y luego como una distribución de frecuencia. Para obtener la tabla 2 se tuvo que dividir los datos en grupos de valores semejantes.

Después se registraron el número de puntos graficados (observaciones) de datos que caían dentro de cada grupo.


TABLA 1: Arreglo de datos del inventario promedio (en días) de 20 tiendas de artículos de conveniencia



TABLA 2: Distribución de frecuencia del inventario promedio (en días) de 20 tiendas de artículos de conveniencia (6 clases)


Nótese que perdimos un poco de información al construir la distribución de frecuencia, por ejemplo ya no sabemos que el valor 5.5 aparece cuatro veces o que el valor 5.1 no parece en absoluto. Pero por otra parte, adquirimos información concerniente al patrón de los inventarios promedio.

La distribución de frecuencia es una tabla que organiza los datos en clases; es decir, en grupos de valores que describen una característica de los datos. El inventario promedio es una característica de las 20 tiendas de conveniencia.

Una distribución de frecuencia muestra el número de observaciones provenientes del conjunto de datos que caen dentro de cada una de las clases. Si podemos determinar la frecuencia con que ocurren los valores en cada clase de un conjunto de datos, estaremos en condiciones de construir una distribución de frecuencia.

Características de las distribuciones de Frecuencia relativa

Hasta ahora se ha expresado la frecuencia con que ocurren los valores en cada clase como el número total de observaciones que caen en dicha clase. También se puede expresar la frecuencia de cada valor como una fracción o porcentaje del número total de observaciones. La frecuencia de un inventario promedio, digamos de 4.4 a 4.9, es 5 en la tabla 2 y de 0.25 en la tabla 3. Para obtener este último valor, dividimos la frecuencia de esta clase (5) entre el número total de observaciones en el conjunto de datos (20). La respuesta puede expresarse como una fracción (5/20 ), un decimal (0.25) o un porcentaje (25 %). Una distribución de frecuencia relativa presenta las frecuencias en fracciones o porcentajes.

TABLA 3: Distribución de frecuencia relativa del inventario promedio (en días) de 20 tiendas de artículos de conveniencia.


La suma de todas las frecuencias relativas es de 1.00 o 100 %. Esto sucede porque una distribución de frecuencia relativa parea cada clase con su fracción o porcentaje correspondiente de los datos totales. Por lo anterior, las clases en cualquier distribución de frecuencia simple o relativa son exhaustivas. Todos los datos encajan en una u otra categoría. Observe también que las clases son mutuamente excluyentes; es decir, ninguna observación cae dentro de más de una categoría.

Clases discretas

Los esquemas de clasificación pueden ser cualitativos o cuantitativos y discretos o continuos. Las clases discretas son entidades individuales que no pasan de una clase a la siguiente sin una ruptura. Son discretas las siguientes clases: el número de hijos de las familias, el número de camiones que poseen las compañías transportistas, las ocupaciones de los graduados universitarios.
Los datos continuos pueden pasar de una clase a la siguiente sin ruptura alguna. Contienen una medida numérica como el peso de unas latas de tomates, los kilogramos de presión sobre el concreto, o el promedio de calificaciones de los universitarios el último semestre.

Construcción de una distribución de Frecuencia

Ahora que hemos aprendido a dividir una muestra en clases, ya se esta en condiciones de tomar datos brutos y construir una distribución de frecuencia. A continuación tomaremos el siguiente ejemplo para el desarrollo de la distribución de frecuencia:


EJEMPLO 1: Un ingeniero de control de calidad del agua en Charlotte (North Carolina) es responsable del nivel de clorinación del agua. Dicho nivel ha de acercarse bastante al que exige el departamento de salubridad. Para vigilar el cloro sin necesidad de verificar cada galón de agua que sale de la planta, el ingeniero muestrea diariamente algunos galones, mide el contenido de cloro y extrae una conclusión sobre el nivel promedio de clorinación que tiene el agua tratada de ese día. La tabla anexa muestra las concentraciones de cloro de 30 galones seleccionados como muestra de un día. Estos niveles son los datos brutos de donde el ingeniero saca sus conclusiones respecto a la población total a la que se aplicó la clorinación ese día.



Ejercicio:
http://docs.google.com/fileview?id=0B6tGIb_E1LkpMTEwYWVlOTYtMjI4Ny00ZjhiLWExM2MtZTY5ODRiMzhjN2Ez&hl=en

Graficación de las distribuciones de Frecuencia


Las gráficas de distribución de frecuencia y de distribución de frecuencia relativa son útiles porque ponen de manifiesto y aclaran las tendencias que no se captan fácilmente en las tablas. Atraen Las la atención del lector sobre las tendencias de los datos.


Histogramas


La figura 1 es un ejemplo de un histograma. El histograma es una serie de rectángulos, todos ellos de anchura proporcional a la gama de valores dentro de una clase y también de altura proporcional a los elementos que caen dentro de la clase. Si las clases que empleamos en la distribución de frecuencia tienen el mismo ancho, las barras verticales del histograma lo tendrán también. La altura de la barra de cada clase corresponde al número de elementos de está última.

Un histograma que se sirve de la frecuencia relativa (tabla 6) de las observaciones de datos en cada una de las clases y no del número real de observaciones recibe el nombre de Histograma de frecuencia relativa (fig. 2). Este tiene la misma forma que un histograma de frecuencia absoluta hecho con el mismo conjunto de datos. La única diferencia entre el histograma de frecuencia absoluta y el de frecuencia relativa, es la escala vertical de la izquierda, en el primero es el número absoluto de observaciones en cada clase y en el segundo es el número de observaciones en cada clase como una fracción del número total de ellas.


TABLA 6: Concentraciones de cloro en muestras de agua tratada con intervalos de clase de 0.3 ppm usando la frecuencia relativa.



Fig. 2 Histograma de Frec. Relativa


Polígono de frecuencias

Aunque de menor uso, los polígonos de frecuencias son otro medio de representar gráficamente tanto las distribuciones de frecuencia simples como las de frecuencia relativa. Para construir un polígono de frecuencias, marcamos las frecuencias sobre el eje vertical y los valores de la variable que vamos a medir las marcamos sobre el eje horizontal, tal como lo hicimos con los histogramas. El siguiente paso consiste en graficar cada frecuencia de clase dibujando un punto sobre su marca de clase, o punto medio, y conectar los puntos consecutivos con una recta para formar un polígono (figura de muchos lados).

A continuación en la tabla 7 se muestran los datos de una distribución de frecuencias para elaborar un polígono.


TABLA 7: Datos de la concentración de cloro en ppm (distribución de frecuencia) para graficar polígono de frecuencias.


En la figura 3 se muestra un polígono de frecuencias construido con los datos de la tabla 7. Si comparamos esta figura con las figuras anteriores vemos que se han agregado clases en cada extremo de la escala de valores observados. Estas dos nuevas clases contienen cero observaciones, pero permiten al polígono alcanzar el eje horizontal en ambos extremos de la distribución.


FIG. 3 Polígono de frecuencias


El polígono es simplemente una gráfica lineal que une los puntos medios de todas barras en un histograma.

Se llama polígono de frecuencias relativas a aquel que usa la frecuencia relativa de de los puntos de datos en cada clase y no el número real de puntos.

Ojivas

Una distribución de frecuencia acumulativa nos permite ver cuantas observaciones se hallan por arriba o por debajo de ciertos valores, en lugar de limitarnos a anotar los números de elementos dentro de los intervalos. Por ejemplo, si queremos saber cuantos galones contienen menos de 17.0 ppm, podemos servirnos de una tabla que incluya frecuencias acumulativas “menores que” en nuestra muestra como se observa en la tabla 8.

TABLA 8: Distribución de frecuencia acumulativa “menor que” de las concentraciones de cloro en ppm

Se llama ojiva a la gráfica de una distribución de frecuencia acumulativa. La ojiva de una distribución de este tipo se muestra en la figura 4. Los puntos graficados representan la cantidad de galones que tienen menos cloro que las partes por millón indicadas sobre el eje horizontal.

FIG. 4 Ojiva “menor que” de la distribución de las concentraciones de cloro en ppm para 30 galones de agua tratada.


En ocasiones la información que se utiliza se presenta a partir de frecuencias “mayores que”. La ojiva apropiada para tal información tendrá una pendiente hacia abajo y hacia la derecha.

También es posible construir una ojiva de una distribución de frecuencia relativa, de la misma manera que una absoluta.