viernes, 20 de enero de 2012

DISTRIBUCION DE FRECUENCIA

TABLAS DE FRECUENCIAS : Es una tabla resumen en la que se disponen los datos divididos en grupos ordenados numéricamente llamados clases. El número de observaciones que pertenecen a determinadas clases se denomina frecuenias de clase; el punto medio de cada clase se llama marca de clase y la longitud de una clase se conoce como intervalo de clase.
- Frecuencia Absoluta es el número de observaciones iguales o semejantes que se encuentran dentro de un intervalo de clase.
- Frecuencia Relativa es el cociente que resulta de dividir la frecuencia absoluta de una clase para la suma total de frecuencias de todas las clases de unat tabla de frecuencias.
1.1.2 REPRESENTACION GRÁFICA: La representación gráfica de una distribución de frecuencias depende del tipo de datos que la constituyan. Dentro de ellas tenemos:
- Gráfico de Barras: Es una representación de una distribución de frecuencias; esta gráfica se la puede realizar tanto para datos no agrupados y para datos agrupados; es así para datos no agrupados se grafica poniendo en el eje X la variable y en el eje Y las frecuencias.
- Histograma: Es una representación por áreas, hay que distinguir si los intervalos en los que aparecen agrupados los datos son de igual amplitud o no.
- Poligono de Frecuencias: Es un gráfico de línea trazado sobre las marcas de clase. Puede obtenerse uniendo los puntos medios de los techos de los rectángulos del histograma.
- Gráfica Circular: Este método circular es el más usual; por lo tanto este es un diagrama en forma de círculo, es útil para visualizar las diferencias en frecuencia entre algunas categorias de nivel nominal.


DEFINICION DE ESTADISTICA

Definición de Estadística

La Estadística trata del recuento, ordenación y clasificación de los datos obtenidos por las observaciones, para poder hacer comparaciones y sacar conclusiones.
Un estudio estadístico consta de las siguientes fases:
Recogida de datos.
Organización y representación de datos.
Análisis de datos.
Obtención de conclusiones.

Conceptos de Estadística

Población

Una población es el conjunto de todos los elementos a los que se somete a un estudio estadístico.

Individuo

Un individuo o unidad estadística es cada uno de los elementos que componen la población.

Muestra

Una muestra es un conjunto representativo de la población de referencia, el número de individuos de una muestra es menor que el de la población.

Muestreo

El muestreo es la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y representativa de la población.

Valor

Un valor es cada uno de los distintos resultados que se pueden obtener en un estudio estadístico. Si lanzamos una moneda al aire 5 veces obtenemos dos valores: cara y cruz.

Dato

Un dato es cada uno de los valores que se ha obtenido al realizar un estudio estadístico. Si lanzamos una moneda al aire 5 veces obtenemos 5 datos: cara, cara, cruz, cara, cruz.

MEDIDAS DE TENDENCIA CENTRAL

Estadística descriptiva
Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al análisis descriptivo de los mismos. Para variables categóricas, como el sexo o el estadiaje, se quiere conocer el número de casos en cada una de las categorías, reflejando habitualmente el porcentaje que representan del total, y expresándolo en una tabla de frecuencias.
Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas:

  1. ¿Alrededor de qué valor se agrupan los datos?
  2. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy dispersos?
a. Medidas de tendencia central
Las medidas de centralización vienen a responder a la primera pregunta. La medida más evidente que podemos calcular para describir un conjunto de observaciones numéricas es su valor medio. La media no es más que la suma de todos los valores de una variable dividida entre el número total de datos de los que se dispone.
Como ejemplo, consideremos 10 pacientes de edades 21 años, 32, 15, 59, 60, 61, 64, 60, 71, y 80. La media de edad de estos sujetos será de:

Más formalmente, si denotamos por (X1, X2,...,Xn) los n datos que tenemos recogidos de la variable en cuestión, el valor medio vendrá dado por:
Otra medida de tendencia central que se utiliza habitualmente es la mediana. Es la observación equidistante de los extremos.
La mediana del ejemplo anterior sería el valor que deja a la mitad de los datos por encima de dicho valor y a la otra mitad por debajo. Si ordenamos los datos de mayor a menor observamos la secuencia:
15, 21, 32, 59, 60, 60,61, 64, 71, 80.
Como quiera que en este ejemplo el número de observaciones es par (10 individuos), los dos valores que se encuentran en el medio son 60 y 60. Si realizamos el cálculo de la media de estos dos valores nos dará a su vez 60, que es el valor de la mediana.
Si la media y la mediana son iguales, la distribución de la variable es simétrica. La media es muy sensible a la variación de las puntuaciones. Sin embargo, la mediana es menos sensible a dichos cambios.
Por último, otra medida de tendencia central, no tan usual como las anteriores, es la moda, siendo éste el valor de la variable que presenta una mayor frecuencia.
En el ejemplo anterior el valor que más se repite es 60, que es la moda

b. Medidas de dispersión
Tal y como se adelantaba antes, otro aspecto a tener en cuenta al describir datos continuos es la dispersión de los mismos. Existen distintas formas de cuantificar esa variabilidad. De todas ellas, la varianza (S2) de los datos es la más utilizada. Es la media de los cuadrados de las diferencias entre cada valor de la variable y la media aritmética de la distribución.
Esta varianza muestral se obtiene como la suma de las de las diferencias de cuadrados y por tanto tiene como unidades de medida el cuadrado de las unidades de medida en que se mide la variable estudiada.
En el ejemplo anterior la varianza sería:
Sx2=
La desviación típica (S) es la raíz cuadrada de la varianza. Expresa la dispersión de la distribución y se expresa en las mismas unidades de medida de la variable. La desviación típica es la medida de dispersión más utilizada en estadística.
Aunque esta fórmula de la desviación típica muestral es correcta, en la práctica, la estadística nos interesa para realizar inferencias poblacionales, por lo que en el denominador se utiliza, en lugar de n, el valor n-1.
Por tanto, la medida que se utiliza es la cuasidesviación típica, dada por:
Aunque en muchos contextos se utiliza el término de desviación típica para referirse a ambas expresiones.
En los cálculos del ejercicio previo, la desviación típica muestral, que tiene como denominador n, el valor sería 20.678. A efectos de cálculo lo haremos como n-1 y el resultado seria 21,79.
El haber cambiado el denominador de n por n-1 está en relación al hecho de que esta segunda fórmula es una estimación más precisa de la desviación estándar verdadera de la población y posee las propiedades que necesitamos para realizar inferencias a la población.
Cuando se quieren señalar valores extremos en una distribución de datos, se suele utilizar la amplitud como medida de dispersión. La amplitud es la diferencia entre el valor mayor y el menor de la distribución.
Por ejemplo, utilizando los datos del ejemplo previo tendremos 80-15 =65.
Como medidas de variabilidad más importantes, conviene destacar algunas características de la varianza y desviación típica:

  • Son índices que describen la variabilidad o dispersión y por tanto cuando los datos están muy alejados de la media, el numerador de sus fórmulas será grande y la varianza y la desviación típica lo serán.
  • Al aumentar el tamaño de la muestra, disminuye la varianza y la desviación típica. Para reducir a la mitad la desviación típica, la muestra se tiene que multiplicar por 4.
  • Cuando todos los datos de la distribución son iguales, la varianza y la desviación típica son iguales a 0.
  • Para su cálculo se utilizan todos los datos de la distribución; por tanto, cualquier cambio de valor será detectado.
Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de dispersión relativa de los datos y se calcula dividiendo la desviación típica muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o más grupos. Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79 Kg) cuya media es de 69,6 kg. y su desviación típica (s) = 10,44 y la TAS de los mismos (150, 170, 135, 180 y 195 mmHg) cuya media es de 166 mmHg y su desviación típica de 21,3. La pregunta sería: ¿qué distribución es más dispersa, el peso o la tensión arterial? Si comparamos las desviaciones típicas observamos que la desviación típica de la tensión arterial es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los coeficientes de variación:
CV de la variable peso =

CV de la variable TAS =
A la vista de los resultados, observamos que la variable peso tiene mayor dispersión.
Cuando los datos se distribuyen de forma simétrica (y ya hemos dicho que esto ocurre cuando los valores de su media y mediana están próximos), se usan para describir esa variable su media y desviación típica. En el caso de distribuciones asimétricas, la mediana y la amplitud son medidas más adecuadas. En este caso, se suelen utilizar además los cuartiles y percentiles.
Los cuartiles y percentiles no son medidas de tendencia central sino medidas de posición. El percentil es el valor de la variable que indica el porcentaje de una distribución que es igual o menor a esa cifra.
Así, por ejemplo, el percentil 80 es el valor de la variable que es igual o deja por debajo de sí al 80% del total de las puntuaciones. Los cuartiles son los valores de la variable que dejan por debajo de sí el 25%, 50% y el 75% del total de las puntuaciones y así tenemos por tanto el primer cuartil (Q1), el segundo (Q2) y el tercer cuartil (Q3).

RANGO

En estadística descriptiva se denomina rango estadístico (R) o recorrido estadístico al intervalo de menor tamaño que contiene a los datos; es calculable mediante la resta del valor mínimo al valor máximo; por ello, comparte unidades con los datos. Permite obtener una idea de la dispersión de los datos.
Por ejemplo, para una serie de datos de carácter cuantitativo como es la estatura tal y como:
x1 = 185,x2 = 165,x3 = 170,x4 = 182,x5 = 155
es posible ordenar los datos como sigue:
x(1) = 155,x(2) = 165,x(3) = 170,x(4) = 182,x(5) = 185
donde la notación x(i) indica que se trata del elemento i-ésimo de la serie de datos. De este modo, el rango sería la diferencia entre el valor máximo (k) y el mínimo; o, lo que es lo mismo:
R = x(k)x(1)
En nuestro ejemplo, con cinco valores, nos da que R = 185-155 = 30.

HISTOGRAMA

En estadística, un histograma es una representación gráfica de una variable en forma de barras, donde la superficie de cada barra es proporcional a la frecuencia de los valores representados. En el eje vertical se representan las frecuencias, y en el eje horizontal los valores de las variables, normalmente señalando las marcas de clase, es decir, la mitad del intervalo en el que están agrupados los datos.
En términos matemáticos, puede ser definida como una función inyectiva (o mapeo) que acumula (cuenta) las observaciones que pertenecen a cada subintervalo de una partición. El histograma, como es tradicionalmente entendido, no es más que la representación gráfica de dicha función.
Se utiliza cuando se estudia una variable continua, como franjas de edades o altura de la muestra, y, por comodidad, sus valores se agrupan en clases, es decir, valores continuos. En los casos en los que los datos son cualitativos (no-numéricos), como sexto grado de acuerdo o nivel de estudios, es preferible un diagrama de sectores.
Los histogramas son más frecuentes en ciencias sociales, humanas y económicas que en ciencias naturales y exactas. Y permite la comparación de los resultados de un proceso.

MODA

Moda de datos agrupados
Para obtener la moda en datos agrupados se usa la siguiente fórmula:
Moda = L_{i-1} + \left( \frac{D_1}{D_1+D_2} \right)i
Donde:
Li − 1 = Límite inferior de la clase modal.
D1 = es el delta de frecuencia absoluta modal y la frecuencia absoluta premodal.
D2 = es el delta de frecuencia absoluta modal y la frecuencia absoluta postmodal.
i = intervalo.

[editar] Ejemplo

Encontrar la estatura modal de un grupo que se encuentra distribuido de la siguiente forma:
Entre 1 y 1.10 hay 1 estudiante
Entre 1.10 y 1.15 hay 1,5 estudiantes
Entre 1.20 y 1.25 hay 2 estudiantes
Entre 1.30 y 1.35 hay 2,3 estudiantes.
Entre 1.45 y 1.55 hay 3 estudiantes.
Entre 1.50 y 1.60 hay 4 estudiantes.
Entre 1.60 y 1.70 hay 10 estudiantes.
Entre 1.70 y 1.80 hay 8 estudiantes.
Clase modal = 1.60 y 1.70 (es la que tiene frecuencia absoluta más alta, 10)
Li-1 = 1.60 D1 = 6 D2 = 2 i = 0.10
Moda = 1.60 + (6/8) * 0.1 = 1.675

MEDIANA

En el ámbito de la estadística, la mediana, representa el valor de la variable de posición central en un conjunto de datos ordenados. De acuerdo con esta definición el conjunto de datos menores o iguales que la mediana representarán el 50% de los datos, y los que sean mayores que la mediana representarán el otro 50% del total de datos de la muestra. La mediana coincide con el percentil 50, con el segundo cuartil y con el quinto decil.

Contenido

[ocultar]

[editar] Cálculo

Sabemos que la mediana es el valor medio en un conjunto de valores ordenados. Corresponde al percentil 50 o segundo cuartil (P50 o Q2). Los pasos son: 1) Arregla los valores en orden del menor al mayor 2) Cuenta de derecha a izquierda o al revés hasta encontrar el valor o valores medios. Ejemplo: tenemos el sig conjunto de números 8,3,7,4,11,2,9,4,10,11,4 oredenamos: 2,3,4,4,4,7,8,9,10,11,11 En esta secuencisa la mediana es 7, que es el número central. Y si tuviésemos: 8,3,7,4,11,9,4,10,11,4, entonces ordenamos: 3,4,4,4,7,8,9,10,11,11 y la mediana (Md) está en: los números centrales son 7 y 8, lo que haces es sumar 7 + 8 y divides entre 2 y Md= 7.5. Eso es todo.
Existen dos métodos para el cálculo de la mediana:
  1. Considerando los datos en forma individual, sin agruparlos.
  2. Utilizando los datos agrupados en intervalos de clase.
A continuación veamos cada una de ellas.

[editar] Datos sin agrupar

Sean x_1,x_2,x_3,\ldots,x_n los datos de una muestra ordenada en orden creciente y designando la mediana como Me, distinguimos dos casos:

a) Si n es impar, la mediana es el valor que ocupa la posición (n + 1) / 2 una vez que los datos han sido ordenados (en orden creciente o decreciente), porque éste es el valor central. Es decir: Me = x(n + 1) / 2.
Por ejemplo, si tenemos 5 datos, que ordenados son: x1 = 3, x2 = 6, x3 = 7, x4 = 8, x5 = 9 => El valor central es el tercero: x(5 + 1) / 2 = x3 = 7. Este valor, que es la mediana de ese conjunto de datos, deja dos datos por debajo (x1, x2) y otros dos por encima de él (x4, x5).

b) Si n es par, la mediana es la media aritmética de las dos observaciones centrales. Cuando n es par, los dos datos que están en el centro de la muestra ocupan las posiciones n / 2 y n / 2 + 1. Es decir: Me = (xn / 2 + (xn / 2 + 1)) / 2.
Por ejemplo, si tenemos 6 datos, que ordenados son: x1 = 3, x2 = 6, x3 = 7, x4 = 8, x5 = 9, x6 = 10 => Hay dos valores que están por debajo del x_{\frac {6} {2}} = x_3 = 7 y otros dos que quedan por encima del siguiente dato x_{{\frac {6} {2}}+1} = x_4 = 8. Por tanto, la mediana de este grupo de datos es la media aritmética de estos dos datos: M_e = \frac {x_3 + x_4}{2} = \frac {7 + 8} {2}=7,5.

[editar] Datos agrupados

Al ratar con datos agrupados, si  {{\frac {n} {2}}} coincide con el valor de una frecuencia acumulada, el valor de la mediana coincidirá con la abscisa correspondiente. Si no coincide con el valor de ninguna abcisa, se calcula a través de semejanza de triángulos en el histograma o polígono de frecuencias acumuladas, utilizando la siguiente equivalencia:
Davicrege3.JPG
Dónde Ni y Ni − 1 son las frecuencias absolutas acumuladas tales que N_{i-1} < {{\frac {n} {2}}} < N_{i}, ai − 1 y ai son los extemos, interior y exterior, del intervalo donde se alcanza la mediana y Me = ai − 1 es la abscisa a calcular, la moda. Se observa que aiai − 1 es la amplitud de los intervalos seleccionados para el diagrama.

[editar] Ejemplos para datos sin agrupar

[editar] Ejemplo 1: Cantidad (N) impar de datos

xifiNi
122
224
348
4513
5821 > 19.5
6930
7333
8437
9239
Las calificaciones en la asignatura de Matemáticas de 39 alumnos de una clase viene dada por la siguiente tabla:
Calificaciones123456789
Número de alumnos224589342
Primero se hallan las frecuencias absolutas acumuladas Ni. Así, aplicando la formula asociada a la mediana para n impar, se obtiene X(39 + 1) / 2 = X20.
  • Ni-1< n/2 < Ni = N19 < 19.5 < N20
Por tanto la mediana será el valor de la variable que ocupe el vigésimo lugar.En este ejemplo, 21 (frecuencia absoluta acumulada para Xi = 5) > 19.5 con lo que Me = 5 puntos, la mitad de la clase ha obtenido un 5 o menos, y la otra mitad un 5 o más.

[editar] Ejemplo 2 : Cantidad (N) par de datos

Las calificaciones en la asignatura de Matemáticas de 38 alumnos de una clase viene dada por la siguiente tabla (debajo):
Calificaciones123456789
Número de alumnos224569442
xifiNi+w
122
224
348
4513
5619 = 19
6928
7432
8436
9238
Primero se hallan las frecuencias absolutas acumuladas Ni. Ni. Así, aplicando la fórmula asociada a la mediana para n par, se obtiene Formula: X = n / 2 = = > X = (38 / 2) = > X = 19 (Donde n= 38 alumnos divididos entre dos).
  • Ni-1< n/2 < Ni = N18 < 19 < N19
Con lo cual la mediana será la media aritmética de los valores de la variable que ocupen el decimonoveno y el vigésimo lugar. En el ejemplo el lugar decimonoveno lo ocupa el 5 y el vigésimo el 6 con lo que Me = (5+6)/2 = 5,5 puntos, la mitad de la clase ha obtenido un 5,5 o menos y la otra mitad un 5,5 o más.

[editar] Ejemplo para datos agrupados

Entre 1.70 y 1.80 hay 3 estudiantes.
Entre 1.60 y 1.70 hay 5 estudiantes.
Entre 1.50 y 1.60 hay 2 estudiantes.
Mediana= 1.60 + \left( \frac{(10/2)-3}{5} \right)0.1=1.64

[editar] Método de cálculo general