jueves, 19 de julio de 2007

Estadistica inferencial


1.1 Introducción a la estadística inferencial
La estadística Inferencia, es el proceso por el cual se deducen (infieren) propiedades o características de una población a partir de una muestra significativa. Uno de los aspectos principales de la inferencia es la estimación de parámetros estadísticos. Por ejemplo, para averiguar la media, µ, de las estaturas de todos los soldados de un reemplazo, se extrae una muestra y se obtiene su media, 0. La media de la muestra (media muestral), 0, es un estimador de la media poblacional, µ. Si el proceso de muestreo está bien realizado (es decir, la muestra tiene el tamaño adecuado y ha sido seleccionada aleatoriamente), entonces el valor de µ, desconocido, puede ser inferido a partir de 0.
La inferencia siempre se realiza en términos aproximados y declarando un cierto nivel de confianza. Por ejemplo, si en una muestra de n = 500 soldados se obtiene una estatura media 0 = 172 cm, se puede llegar a una conclusión del siguiente tipo: la estatura media, µ, de todos los soldados del reemplazo está comprendida entre 171 cm y 173 cm, y esta afirmación se realiza con un nivel de confianza de un 90%. (Esto quiere decir que se acertará en el 90% de los estudios realizados en las mismas condiciones que éste y en el 10% restante se cometerá error.)
Si se quiere mejorar el nivel de confianza, se deberá aumentar el tamaño de la muestra, o bien disminuir la precisión de la estimación dando un tramo más amplio que el formado por el de extremos 171, 173. Recíprocamente, si se quiere aumentar la precisión en la estimación disminuyendo el tamaño del intervalo, entonces hay que aumentar el tamaño de la muestra o bien consentir un nivel de confianza menor. Finalmente, si se quiere mejorar tanto la precisión como el nivel de confianza, hay que tomar una muestra suficientemente grande.



EJEMPLOS :Estadística inferencial
Los dos tipos de problemas que resuelven las técnicas estadísticas son: estimación y contraste de hipótesis. En ambos casos se trata de generalizar la información obtenida en una muestra a una población. Estas técnicas exigen que la muestra sea aleatoria. En la práctica rara vez se dispone de muestras aleatorias, por la tanto la situación habitual es la que se esquematiza en la figura



Entre la muestra con la que se trabaja y la población de interés, o población diana, aparece la denominada población de muestreo: población (la mayor parte de las veces no definida con precisión) de la cual nuestra muestra es una muestra aleatoria. En consecuencia la generalización está amenazada por dos posibles tipos de errores: error aleatorio que es el que las técnicas estadísticas permiten cuantificar y críticamente dependiente del tamaño muestral, pero también de la variabilidad de la variable a estudiar y el error sistemático que tiene que ver con la diferencia entre la población de muestreo y la población diana y que sólo puede ser controlado por el diseño del estudio.
Tamaño muestral
El tamaño muestral juega el mismo papel en estadística que el aumento de la lente en microscopía: si no se ve una bacteria al microscopio, puede ocurrir que: - la preparación no la contenga- el aumento de la lente sea insuficiente.Para decidir el aumento adecuado hay que tener una idea del tamaño del objeto.
Del mismo modo, para decidir el tamaño muestral: i) en un problema de estimación hay que tener una idea de la magnitud a estimar y del error aceptable. ii) en un contraste de hipótesis hay que saber el tamaño del efecto que se quiere ver.
Estimación de parámetros
En general, de las variables experimentales u observacionales no conocemos la fpd. Podemos conocer la familia (normal, binomial,...) pero no los parámetros. Para calcularlos necesitaríamos tener todos los posibles valores de la variable, lo que no suele ser posible. La inferencia estadística trata de cómo obtener información (inferir) sobre los parámetros a partir de subconjuntos de valores (muestras) de la variable.
Estadístico: variable aleatoria que sólo depende de la muestra aleatoria elegida para calcularla. Estimación: Proceso por el que se trata de averiguar un parámetro de la población representado, en general, por q a partir del valor de un estadístico llamado estimador y representado por El problema se resuelve en base al conocimiento de la "distribución muestral" del estadístico que se use. ¿Qué es esto? Concretemos, p.e. en la media (m). Si para cada muestra posible calculamos la media muestral ( ) obtenemos un valor distinto ( es un estadístico: es una variable aleatoria y sólo depende de la muestra), habrá por tanto una fpd para , llamada distribución muestral de medias. La desviación típica de esta distribución se denomina error típico de la media. Evidentemente, habrá una distribución muestral para cada estadístico, no sólo para la media, y en consecuencia un error típico para cada estadístico. Si la distribución muestral de un estadístico estuviera relacionada con algún parámetro de interés, ese estadístico podría ser un estimador del parámetro.
Distribución muestral de medias
Si tenemos una muestra aleatoria de una población N(m,s ), se sabe (Teorema del límite central) que la fdp de la media muestral es también normal con media m y varianza s2/n. Esto es exacto para poblaciones normales y aproximado (buena aproximación con n>30) para poblaciones cualesquiera. Es decir es el error típico, o error estándar de la media.
¿Cómo usamos esto en nuestro problema de estimación? 1º problema: No hay tablas para cualquier normal, sólo para la normal m=0 y s=1 (la llamada z); pero haciendo la transformación (llamada tipificación)una normal de media m y desviación s se transforma en una z.
Llamando za al valor de una variable normal tipificada que deja a su derecha un área bajo la curva de a, es decir, que la probabilidad que la variable sea mayor que ese valor es a (estos son los valores que ofrece la tabla de la normal)

podremos construir intervalos de la forma
para los que la probabilidad es 1 - a.
Teniendo en cuenta la simetría de la normal y manipulando algebraícamente
que también se puede escribir
o, haciendo énfasis en que es el error estándar de la media,
Recuérdese que la probabilidad de que m esté en este intervalo es 1 - a. A un intervalo de este tipo se le denomina intervalo de confianza con un nivel de confianza del 100(1 - a)%, o nivel de significación de 100a%. El nivel de confianza habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96. Al valor se le denomina estimación puntual y se dice que es un estimador de m.
Ejemplo: Si de una población normal con varianza 4 se extrae una muestra aleatoria de tamaño 20 en la que se calcula se puede decir que m tiene una probabilidad de 0,95 de estar comprendida en el intervalo
que sería el intervalo de confianza al 95% para m
En general esto es poco útil, en los casos en que no se conoce m tampoco suele conocerse s2; en el caso más realista de s2 desconocida los intervalos de confianza se construyen con la t de Student (otra fdp continua para la que hay tablas) en lugar de la z.
o, haciendo énfasis en que es el error estándar estimado de la media,
Este manera de construir los intervalos de confianza sólo es válido si la variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin mucho error.
Otras lecturas recomendadas
Estimación de proporciones
Sea X una variable binomial de parámetros n y p (una variable binomial es el número de éxitos en n ensayos; en cada ensayo la probabilidad de éxito (p) es la misma, por ejemplo: número de diabéticos en 2000 personas).Si n es grande y p no está próximo a 0 ó 1 (np ³ 5) X es aproximadamente normal con media np y varianza npq (siendo q = 1 - p) y se puede usar el estadístico (proporción muestral), que es también aproximadamente normal, con error típico dado por en consecuencia, un IC para p al 100(1 - a)% será
es decir, la misma estructura que antes:
Obsérvese que para construirlo, ¡se necesita conocer p!. Si n es grande (>30) se pueden substituir p y q por sus estimadores sin mucho error, en cualquier caso como pq £ 0,25 si se substituye pq por 0,25 se obtiene un intervalo más conservador (más grande).
Ejemplo: En una muestra de 100 pacientes sometidos a un cierto tratamiento se obtienen 80 curaciones. Calcular el intervalo de confianza al 95% de la eficacia del tratamiento.
¿Qué significa este intervalo? La verdadera proporción de curaciones está comprendida entre, aproximadamente, 72% y 88% con un 95% de probabilidad. ¿Es suficientemente preciso? Habrá Problemas de estadística propuestos (2ª parte):
1º En una muestra aleatoria de 90 pacientes se mide el nivel de glucosa en sangre en ayunas. Se obtiene = 132 mg/dl y s2=109. Construir el IC al 95% para m ¿Qué asunción se ha hecho?
Solución
2º Para evaluar una vacuna para la gripe se selecciona un grupo de 200 individuos de riesgo. Se eligen aleatoriamente a 100 de ellos y se les suministra la vacuna; de ellos 10 pasan la gripe. Construir un IC al 95% para la probabilidad de pasar la gripe si se está vacunado. En los otros 100 pacientes sin vacunar la pasan 20. ¿Hay evidencia de que la vacuna es eficaz?