jueves, 19 de julio de 2007

Probabilidad







Probabilidad


Experimento Aleatorio: experimento que puede ser repetido bajo "las mismas condiciones", del que puede establecerse el conjunto de sus posibles resultados, pero no predecir un resultado concreto.


Espacio muestral: conjunto de posibles resultados.
Punto muestral: elemento del espacio muestral.
Suceso: cualquier subconjunto del espacio muestral.
Si representamos el espacio muestral por W y a los sucesos por A: A Ì W. Dado que el conjunto vacío es subconjunto de cualquier conjunto (Æ Ì W) y que todo conjunto es subconjunto de sí mismo (W Ì W), tanto el conjunto vacío como el espacio muestral son sucesos.
Si lo necesita Repaso del álgebra de conjuntos
Un problema a tener en cuenta es que dado un experimento, podemos encontrar más de un espacio muestral.
Ejemplo 1: una mujer portadora de hemofilia tiene 3 hijos ¿Cuál es el espacio muestral apropiado para estudiar la posible hemofilia de estos?
Opción a: Cada hijo puede padecer hemofilia (s) o no (n), por tanto
W1={sss, ssn, sns, nss, snn, nsn, nns, nnn}
Donde, por ejemplo, 'sns' significa el primero y el tercero la padecen y el segundo no. Hay que asegurarse que no se olvida ninguno.
En este espacio muestral, el suceso "dos hijos padecen hemofilia" se representa como A1={ssn, sns, nss} y el suceso "los dos primeros no la padecen" como A2={nns, nnn}
Opción b: Pueden padecer hemofilia los tres hijos (3), dos (2), ...
W2={3, 2, 1, 0}
En este espacio muestral, el suceso "dos hijos padecen hemofilia" es A1={2} y el suceso "los dos primeros no la padecen" no se puede representar porque en el espacio muestral no está contemplado el orden.


Definición axiomática de probabilidad

Sea W: espacio muestral, P(W) conjunto de las partes de W, o conjunto de sucesos, o álgebra de sucesos. Se define probabilidad, o función de probabilidad, a cualquier función p: P(W)®Â (es decir, una regla bien definida por la que se asigna a cada suceso un, y un solo un, número real) que cumpla los axiomas siguientes:
i) p(A) ³ 0 " A Î P(W)
ii) p(A1 È A2 È A3 È ...) = p(A1) + p(A2) + p(A3) + ...
si Ai Ç Aj = Æ "i ¹ j (sucesos mutuamente excluyentes)
iii) p(W) = 1
A la estructura (W, P(W), p) se le denomina espacio de probabilidad.

Establecer claramente el espacio de probabilidad será el primer paso imprescindible para estudiar una experiencia aleatoria. Muchas de las dificultades que surgen, en la práctica, en el análisis estadístico de investigaciones clínicas tienen que ver con el establecimiento implícito y defectuoso de este espacio.
Obsérvese que es necesario asignar un número a todos los sucesos, no sólo a los sucesos elementales, pero si se ha asignado la probabilidad a los sucesos elementales, a través de la propiedad ii) se puede asignar a todos los demás.

Ejemplo 1:
Para el experimento aleatorio de tirar un dado, el espacio muestral es = {1, 2, 3, 4, 5, 6}. En este espacio el conjunto de sucesos es P(W) = {Æ, {1}, {2}, ...{1,2}, {1,3}, ...{1,2,3,4,5,6}}.Para establecer una probabilidad hay que asignar un número a todos esos sucesos.
Sin embargo si se ha asignado a los sucesos elementales p({1})= p({2})= ...= p({6})= 1/6, por la propiedad ii), p.e. la probabilidad del suceso {1, 3} es p({1,3})= p({1})+ p({3})=2/6.Nota: El suceso {1} es: "el resultado de tirar el dado es la cara 1", el suceso {1, 3} es: "el resultado de tirar el dado es la cara 1, o la 3", el suceso {1, 3, 5} es: "el resultado de tirar el dado es una cara impar".


Propiedades de la probabilidad
1) p(Ac) = 1 - p(A) Ac representa el suceso complementario de A, es decir el formado por todos los resultados que no están en A.
2) A1Ì A2 Þ p(A1) £ p(A2)
3) p(Æ) = 0
4) p(A) £ 1
5) p(A È B) = p(A) + p(B) - p(A Ç B) (Regla general de la adicción)
Ejemplo 2:Un 15% de los pacientes atendidos en un hospital son hipertensos, un 10% son obesos y un 3% son hipertensos y obesos. ¿Qué probabilidad hay de que elegido un paciente al azar sea obeso o hipertenso?
A = {obeso} B = {hipertenso}
A Ç B = {hipertenso y obeso}
A È B = {obeso o hipertenso}
p(A) = 0,10; p(B) = 0,15; p(A Ç B) = 0,03
p(A È B) = 0,10 + 0,15 - 0,03 = 0,22


Probabilidad condicionada

Como la probabilidad está ligada a nuestra ignorancia sobre los resultados de la experiencia, el hecho de que ocurra un suceso, puede cambiar la probabilidad de los demás. El proceso de realizar la historia clínica, explorar y realizar pruebas complementarias ilustra este principio.La probabilidad de que ocurra el suceso A si ha ocurrido el suceso B se denomina probabilidad condicionada y se define
Esta definición es consistente, es decir cumple los axiomas de probabilidad.Cuando ocurre un suceso cambia el espacio muestral, por eso cambia la probabilidad. A veces es más fácil calcular la probabilidad condicionada teniendo en cuenta este cambio de espacio muestral.

Ejemplo 3:
Una mujer es portadora de la enfermedad de Duchenne ¿Cuál es la probabilidad de que su próximo hijo tenga la enfermedad?
Según las leyes de Mendel, todos los posibles genotipos de un hijo de una madre portadora (xX) y un padre normal (XY) son xX, xY, XX, XY y tienen la misma probabilidad. El espacio muestral es W = {xX, xY, XX, XY} el suceso A={hijo enfermo} corresponde al genotipo xY, por tanto, según la definición clásica de probabilidad p(A) = 1/4 = 0,25
La mujer tiene el hijo y es varón ¿qué probabilidad hay de que tenga la enfermedad?
Se define el suceso B = {ser varón} = {xY, XY} la probabilidad pedida es p(AB) y aplicando la definición anteriorp(B) = 0,5; A Ç B = {xY}; p(A ÇB) = 0,25; p(AB) = 0,25/0,5 = 0,5
Si sabemos que es varón, el espacio muestral ha cambiado, ahora es B. Por lo tanto se puede calcular p(AB) aplicando la definición clásica de probabilidad al nuevo espacio muestral p(AB) = 1/2 = 0,5

Ejemplo 4:Se sabe que el 50% de la población fuma y que el 10% fuma y es hipertensa. ¿Cuál es la probabilidad de que un fumador sea hipertenso?
A = {ser hipertenso} B = {ser fumador} A Ç B = {ser hipertenso y fumador} p(AB) = 0,10/0,50 = 0,20
Obsérvese que los coeficientes falso-positivo y falso-negativo de las pruebas diagnósticas son probabilidades condicionadas.
La fórmula anterior se puede poner p(A Ç B) = p(B) p(AB) = p(A) p(BA) llamada regla de la multiplicación, que se puede generalizar a más sucesos p(A1 Ç A2 Ç A3) = p((A1 Ç A2) Ç A3) = p(A1 Ç A2) p(A3A1 Ç A2) = p(A1) p(A2A1) p(A3A1 Ç A2)

En general p(A1 Ç A2 Ç A3 ...) = p(A1) p(A2A1) p(A3A1 Ç A2) ... llamado principio de las probabilidades compuestas y especialmente útil para aquellas situaciones en que las probabilidades condicionadas son más fáciles de obtener que las probabilidades de las intersecciones.






Ejemplo 5:
Se sabe por estudios previos que el 0,1% de la población tiene problemas vasculares. Un estudio sobre individuos con problemas vasculares revela que el 20% de ellos son placas de ateroma. Si el 10% de los individuos con placas de ateroma están expuestos a muerte súbita por desprendimiento de trombos ¿qué probabilidad tiene un individuo cualquiera de estar expuesto a muerte súbita por desprendimiento de trombos de una placa de ateroma?
A1 = {problemas vasculares}; A2 = {placas de ateroma}; A3 = {expuesto a muerte súbita por ....} p(A1) = 0,001; p(A2A1) = 0,20; p(A3A1 Ç A2) = 0,1 p(A1 Ç A2 Ç A3) = 0,001 x 0,20 x 0,1 = 0,000002

Ejemplo 6:
Una urna contiene 10 bolas, de las cuales 3 son rojas, 5 verdes y 2 azules. Se extraen al azar 3 bolas. Calcular la probabilidad de que la primera sea azul, y las otras dos verdes.
Definimos A1 = {la 1ª bola es azul}; A2 = {la 2ª bola es verde}; A3 = {la 3ª bola es verde} p(A1) = 2/10 aplicando la definición clásica de probabilidad, puesto que hay 10 bolas y 2 son verdes. p(A2A1) = 5/9; si la primera bola extraída es azul, en la urna quedan 9 bolas, 5 de ellas verdes. p(A3A1 Ç A2) = 4/8; si la primera bola extraída es azul y la segunda verde en la urna quedan 8 bolas, 4 de ellas verdes. p(A1 Ç A2 Ç A3) = 2/10 x 5/9 x 4/8 = 1/18

Sucesos independientes
Dos sucesos son independientes si y sólo si p(A Ç B) = p(A) p(B).Si dos sucesos son independientes
y del mismo modo p(BA) = p(B).Esta propiedad coincide más con la idea intuitiva de independencia y algunos textos la dan como definición. Hay que notar, sin embargo, que ambas definiciones no son estrictamente equivalentes.
Ejemplo 7:
Para un hijo de una mujer portadora de Duchenne, el sexo y la enfermedad ¿son independientes?
Según vimos en el Ejemplo 3 el espacio muestral es W = {xX, xY, XX, XY} Definimos los sucesos A = {varón} = {xY, XY}; B = {enfermo} = {xY} A Ç B = {xY} por lo tanto p(A) = 0,5; p(B) = 0,25; p(A Ç B) = 0,25 ¹ p(A) p(B) NO son independientes.
Regla de la probabilidad total
Se llama partición a conjunto de sucesos Ai tales que A1 È A2 È ... È An = W y Ai Ç Aj = Æ " i ¹ j es decir un conjunto de sucesos mutuamente excluyentes y que cubren todo el espacio muestral
Regla de la probabilidad total: Si un conjunto de sucesos Ai forman una partición del espacio muestral y p(Ai) ¹ 0 " Ai, para cualquier otro suceso B se cumple
Ejemplo 8:
La prevalencia de infarto cardíaco para hipertensos es del 0,3% y para no hipertensos del 0,1%. Si la prevalencia de hipertensión en una cierta población es del 25% ¿Cuál es la prevalencia del infarto en esa población?
A1 = {ser hipertenso} A2 = {no serlo} estos sucesos constituyen una partición B = {padecer infarto} datos: p(BA1) = 0,003; p(BA2) = 0,001; p(A1) = 0,25 evidentemente p(A2) =0,75 por la propiedad 1 p(B) = 0,003x0,25 + 0,001 x 0,75 = 0,0015
Teorema de Bayes
Si los sucesos Ai son una partición y B un suceso tal que p(B) ¹ 0
Aplicaciones
Diagnóstico médico (en general clasificaciones no biunívocas): El diagnóstico consiste en establecer la enfermedad de un paciente, a partir de una serie de síntomas. Pero los síntomas y las enfermedades no están ligados de un modo biunívoco.
Llamemos Ei al conjunto de enfermedades E1: tuberculosis pulmonar; E2 :cáncer de pulmón; E3: bronquitis obstructiva; etc. y Si a los síntomas y síndromes asociados con las mismas. S1: tos; S2: estado febril; S3: hemotisis; etc. La información accesible en los libros de patología, o en un archivo de historias clínicas es del tipo.Para E1: algunos (digamos el 20%) tienen hemotisis; muchos (80%) tienen tos; etc. y lo mismo para las demás enfermedades.
En términos de probabilidad condicionada, esta información es p(S3E1) = 0,2; p(S1E1) = 0,8 etc. para diagnosticar la tuberculosis se ha de evaluar, para los síntomas que presenta el paciente p(E1Si) para lo que se puede usar el teorema de Bayes si las enfermedades forman una partición (son mutuamente excluyentes y se consideran todas las enfermedades compatibles con el síntoma) y se conocen sus prevalencias.Nótese que un mismo conjunto de síntomas podría dar lugar a un diagnóstico diferente en poblaciones en las que las prevalencias fueran diferentes.
Pruebas diagnósticas: Supóngase una prueba diagnóstica, por ejemplo nivel de glucosa en sangre, en ayunas, para diagnosticar la diabetes. Se considera que la prueba es positiva si se encuentra un nivel por encima de un cierto valor, digamos 120 mg/l.
Para evaluar la prueba, (habrá que hacerlo para distintos valores de corte) se somete a la misma a una serie de individuos diabéticos diagnosticados por otro procedimiento (el patrón de oro o "gold standar") y a una serie de individuos no diabéticos. Los resultados se pueden representar en una tabla de doble entrada


Patrón de oro



NE
E

Prueba
-
a
b
r
+
c
d
s


t
u

Si la prueba fuera perfecta b=c=0, desgraciadamente nunca ocurre. Se denomina coeficiente falso-positivo (CFP) al cociente c/t, y es una estimación de la probabilidad condicionada p(+NE), se denomina coeficiente falso-negativo (CFN) al cociente b/u, y es una estimación de la probabilidad condicionada p(-E). Estos dos coeficientes cuantifican los dos errores que la prueba puede cometer y caracterizan a la misma. Simétricamente, los coeficientes que cuantifican los aciertos son la sensibilidad, p(+E), y la especificidad p(-NE).
Cuando la prueba se usa con fines diagnósticos (o de "screening") interesa calcular p(E+) y/o p(NE-). Como E y NE son una partición, usando el Teorema de Bayes
y
Nótese que ambas dependen de la prevalencia de la enfermedad: una prueba diagnóstica que funciona muy bien en la clínica Mayo, puede ser inútil en el Hospital Ramón y Cajal.
Ejemplo 9:una prueba diagnóstica para la diabetes tiene un CFP de 4% y un CFN del 5%. Si la prevalencia de la diabetes en la población donde se usa es del 7% ¿cuál es la probabilidad de que sea diabético un individuo en el que la prueba dé positiva? y ¿de que no lo sea uno en el que dé negativo?
p(+NE) = 0,04 Þ p(-NE) = 0,96 p(-E) = 0,05 Þ p(+E) = 0,95 p(E) = 0,07 Þ p(NE) = 0,93
y
Pruebas en serie: Cuando se aplican pruebas en serie, para cada prueba p(E) y p(NE), serán la p(E+) y p(NE+) de la prueba anterior (si dio positiva) o p(E-) y p(NE-) si dio negativa.
Problemas de probabilidad resueltos:
1º Una mujer es hija de una portadora de la enfermedad de Duchenne. Dicha mujer tiene tres hijos varones sin la enfermedad. Calcular la probabilidad de que ella sea portadora de la enfermedad.
Solución
Si representamos por x el gen alterado y por X el gen normal, el espacio muestral para el nacimiento de la mujer W ={xX, XX}, cada suceso elemental con la misma probabilidad (1ª ley de Mendel). Por tanto, si A = {xX} = {la mujer es portadora}, según la definición clásica de probabilidad p(A) = 1/2.Si la mujer fuera portadora, los posibles genotipos para sus hijos son xX, xY, XX, XY, todos con la misma probabilidad. El espacio muestral para el nacimiento de un hijo varón es W ={xY, XY}, por tanto la probabilidad de que un hijo varón no tenga la enfermedad es 1/2 (también según la definición clásica). Cómo los genotipos de los sucesivos hijos son independientes (2ª ley de Mendel), y de acuerdo a la definición de independencia, la probabilidad de que los 3 hijos varones no tengan la enfermedad es (1/2)x(1/2)x(1/2) = 1/8. Obviamente si la mujer no fuera portadora, la probabilidad de que los 3 hijos varones no tengan la enfermedad es 1. Como el suceso A = {la mujer es portadora} y su complementario Ac = {la mujer no es portadora} forman una partición, se puede aplicar el teorema de Bayes en relación con el suceso B = {los 3 hijos varones no tienen la enfermedad}
Una prueba diagnóstica para el cáncer uterino tiene un coeficiente falso-positivo de 0,05 y falso-negativo de 0,10. Una mujer con una probabilidad pre-prueba de padecer la enfermedad de 0,15 tiene un resultado negativo con la misma. Calcular la probabilidad de que no esté enferma.
Solución
Sea NE = {la mujer no está enferma}, + = {el resultado de la prueba es positivo} y - = {el resultado de la prueba es negativo}. La pregunta pide p(NE-). Los datos que se dan son p(+NE)=0,05; p(-E)=0,10 y p(E)=0,15. Del primero se deduce que p(-NE)=0,95 y del último p(NE)=0,85, por lo tanto aplicando el teorema de Bayes

http://www.hrc.es/bioest/Probabilidad_1.html

No hay comentarios: