Você está na página 1de 30

Bioinformtica - 2012/2013

Mdulo: Modelos de Probabilidade e


Testes Estatsticos
Manuela Neves
manela@isa.utl.pt

Bioinformatica-Manuela
Neves-12/13 p. 1/30

Probabilidade e Estatstica
Tpicos do Programa
Teoria da Probabilidade
Probabilidade Condicional. Teorema da probabilidade total e
Teorema de Bayes (revises). Exemplos de aplicao.
Medidas da qualidade de testes de diagnstico: sensibilidade e
especificidade.
Modelos de Probabilidade mais usados em Bioinformtica.
Propriedades e aplicaes.
Inferncia Estatstica
Testes a contagens: o teste do qui-quadrado de ajustamento.
Testes em tabelas de contingncia.
Testes paramtricos e no paramtricos na comparao de duas
ou mais mdias populacionais.

Bioinformatica-Manuela
Neves-12/13 p. 2/30

Referncias Bibliogrficas
W. Ewens and G. Grant. Statistics for Biology and Health (2001).

Statistical Methods in Bioinformatics. An introduction. Springer


W. P. Krijnen (2009).

Applied Statistics for Bioinformatics using


. Disponvel online

M. Manuela Neves (2009).

Introduo Estatstica e
Probabilidade. Apontamentos de Apoio U.C. Estatstica
(disponveis em http://www.isa.utl.pt/dm/estat/estat/estat.html)

D. D. Pestana e S. F. Velosa (2008).

Introduo Probabilidade e
Estatstica . Fundao Calouste Gulbenkian.

K. Seefeld (2007).

Statistics using R with Biological Examples.


University of New Hampshire Department of Mathematics &
Statistics.

Bioinformatica-Manuela
Neves-12/13 p. 3/30

Nocoes
Introdutorias
Tm estado a falar da estrutura do DNA cadeia de
nucletidos representados pelas suas 4 letras bases
, , ,

Vrios problemas de interesse:
dada uma sequncia, que metodologia estatstica se pode
usar para a descrever?
possvel determinar a que tipo de organismo uma sequncia
pertencer, pela anlise do contedo da sequncia?
dadas duas sequncias que apresentam semelhanas, sero
elas significativas para assegurar que tm o mesmo
ascendente?

Bioinformatica-Manuela
Neves-12/13 p. 4/30

Nocoes
Introdutorias
Necessrio:
Modelos Probabilsticos e Mtodos Estatsticos de anlise
de palavras
Consideremos o seguinte segmento de DNA
5 . . . . . . 3
Questes
1. Que padro de bases aparece com frequncia anormal
numa dada sequncia?
2. Como avaliar aquela surpresa?
Necessidade de se utilizarem regras probabilsticas.

Bioinformatica-Manuela
Neves-12/13 p. 5/30


Teoria da Probabilidade - Revisoes
Probabilidade condicional
Sejam e dois acontecimentos em
Definio Chama-se Probabilidade condicional de dado ou
probabilidade de se e representa-se por (), com
() > 0 a
( )
()
() =
=
()
()
Teorema das probabilidades compostas
Se () > 0, () > 0,
() = () () = () ()

Bioinformatica-Manuela
Neves-12/13 p. 6/30


Teoria da Probabilidade - Revisoes
Generalizao a trs acontecimentos
Sejam , , tais que () > 0, () > 0 e () > 0, tem-se,
() = () () () = () () () =
= () () ().
Definio Dois acontecimentos e dizem-se mutuamente
independentes se e s se
( ) = () ().
Da definio conclui-se que se e so independentes ento
() = () se () > 0 e () = () se () > 0 .

Bioinformatica-Manuela
Neves-12/13 p. 7/30


Teoria da Probabilidade - Revisoes
Teorema
Se e so independentes
e , e e e , tambm so independentes.
Definio Independncia de trs acontecimentos
Os acontecimentos , e dizem-se mutuamente independentes
tb se diz apenas independentes se e s se
() = () () ();
() = () ()

() = () ();
() = () ().

Resoluo de alguns exerccios

Bioinformatica-Manuela
Neves-12/13 p. 8/30


Teoria da Probabilidade - Revisoes
Teorema da probabilidade total
Sejam 1 , 2 , ..., acontecimentos definindo uma partio sobre
, i.e., 1 2 .... =
e
= ( = ).
Se ( ) > 0 , ento para qualquer acontecimento tem-se
() =

( ) ( ).

=1

Teorema de Bayes
Sejam 1 , 2 , ..., acontecimentos formando uma partio de ,
onde ( ) > 0. Seja um outro acontecimento de , tal que
() > 0. Ento para = 1, ..., tem-se
( ). ( )

( ) =

=1

( ). ( )

Bioinformatica-Manuela
Neves-12/13 p. 9/30


Teoria da Probabilidade - Revisoes
Resoluo de um exemplo de Aplicao Clculo de
probabilidades marginais e conjuntas com recurso condicional
Exemplo: Considere uma sequncia de DNA e uma distribuio conjunta
(hipottica) de nucletidos em duas posies adjacentes, apresentada no
seguinte quadro:
Nucl.pos. 2

0.2

0.1

0.1

0.1

0.1

0.1

0.1

0.1

0.1

Nucl. pos. 1

Que informao se pode retirar desta tabela?

Bioinformatica-Manuela
Neves-12/13 p. 10/30

- Testes de Diagnostico

Aplicacao
Anlises clnicas so meios auxiliares de diagnstico, i.e., so
meios de rastreio para o diagnstico de uma dada doena.
Um teste de diagnstico permite identificar numa populao de
indivduos saudveis os que tm uma probabilidade elevada de
possuir a doena.
Num teste de diagnstico h dois tipos de erro possveis:
o teste aplicado a um indivduo doente e d um resultado
negativo - negativo falso - NF;
o teste aplicado a um indivduo so e d um resultado
positivo - positivo falso - PF.

Bioinformatica-Manuela
Neves-12/13 p. 11/30

- Testes de Diagnostico

Aplicacao
A situao pode resumir-se no seguinte quadro
Resultado

Doente

So

Total

Positivo

Negativo

Total

Estudar a validade do teste significa saber a sua sensibilidade (S)


e a sua especificidade (E). Como se definem?
Chama-se sensibilidade (S) de um teste proporo de positivos
entre os doentes, isto , exprime-se por

= (Positivo|Doente) =
+

Bioinformatica-Manuela
Neves-12/13 p. 12/30

- Testes de Diagnostico

Aplicacao
Chama-se especificidade (E) de um teste proporo de
negativos entre os sos, isto , exprime-se por

= (Negativo|So) =
+
costume chamar prevalncia da doena ao quociente /, i.e.,
a proporo de doentes na populao.
Ento o que gostaramos de ter era:
- s positivos verdadeiros, i.e, sensibilidade 100% e
- no ter positivos falsos, portanto especificidade tambm 100%.
Mas ... no possvel ter as duas situaes optimizadas... portanto
h que decidir qual o risco que se pretende controlar.

Bioinformatica-Manuela
Neves-12/13 p. 13/30

- Testes de Diagnostico

Aplicacao
Chama-se valor preditivo do teste probabilidade de deciso
correcta, face aos resultados do teste.
O valor preditivo positivo ( ) =
O valor preditivo negativo ( ) =

=
=

Exerccio(Galvo de Mello - vol I)) Um teste para a deteco de


diabetes tem para e os valores 52.9% e 99.4%, respectivamente.
Admite-se que a prevalncia de casos , para todas as idades cerca de 8
em 1000.
i) Qual a probabilidade de um indivduo cujo teste deu positivo ser
doente?
ii) Qual a probabilidade de um indivduo cujo teste deu negativo no ser
doente?

Bioinformatica-Manuela
Neves-12/13 p. 14/30

Variavel
aleatoria
- Revisoes
Definio Chama-se varivel aleatria (v.a.) e costuma
representar-se por , a uma funo cujo valor determinado pelo
resultado de uma experincia aleatria.
Tipos de variveis aleatrias
Discretas as que assumem um conjunto finito ou infinito
numervel de valores.
Exemplo: nmero de vezes que contado o nucletido numa
sequncia de ADN com um dado comprimento

Contnuas as que so susceptveis de tomar qualquer valor


real num dado intervalo, que pode ser a recta real (definio
grosseira)

Exemplo: tempo que decorre at se verificar a 1a ocorrncia de


um dado fenmeno

Bioinformatica-Manuela
Neves-12/13 p. 15/30


Modelos de Probabilidade - Revisoes
Distribuies de Probabilidade
Modelos Discretos - uniforme, binomial, geomtrico,
Poisson,...
Modelos Contnuos - uniforme, normal ou de Gauss,
exponencial, gama, ...
Exemplo: Qual a distribuio de probabilidade do nmero de
vezes que um dado padro pode ocorrer numa sequncia aleatria
de DNA?
Seja o nmero de vezes que, por exemplo, ocorre numa
sequncia aleatria de comprimento .

Bioinformatica-Manuela
Neves-12/13 p. 16/30


Modelos de Probabilidade - Revisoes
Se for possvel admitir a independncia de ocorrncia de uma qq
letra em cada posio da sequncia ...
... ter-se- X (, ), onde designa a
probabilidade de ocorrncia de numa qq posio.
Exerccio: admita-se uma molcula de DNA em que cada base
tem a mesma probabilidade de ocorrer. Numa sequncia de
comprimento = 1000, observa-se 280 ocorrncias de A. Qual a
probabilidade de se observar aquela ocorrncia (ou um nmero
mais extremo) sob a hiptese formulada?
Clculo directo - uso da distribuio binomial - Recurso ao

Bioinformatica-Manuela
Neves-12/13 p. 17/30

Modelos de Probabilidade
Pretende-se [ >= 280] = 1 [ <= 279]
>1-pbinom(279,1000,0.25)
[1] 0.01643666
Uma nota: o
, por omisso, calcula [ <= 280], se lhe
indicarmos a cauda para a direita (i.e. lower.tail=F) ele considera
[ <= 280] = 1 [ > 280], isto , o 280 no contado.
Ento, como se pretende [ >= 280], se queremos a cauda
direita, deve considerar-se [ > 279], para comear a contar em
280
>pbinom(279,1000,0.25,lower.tail=F)
[1] 0.01643666

Bioinformatica-Manuela
Neves-12/13 p. 18/30

Modelos de Probabilidade
Em vez de fazermos o clculo directo, pode considerar-se uma
aproximao que resulta da utilizao do Teorema Limite Central
- no caso da distribuio binomial tem-se:
Se (, ) e > 5 e > 5 ento

(0, 1)

Usando novamente o
temos, por exemplo:
>1-pnorm(280,250,sqrt(1000*.25*.75),lower.tail=T)
[1] 0.01422987
Na verdade dever-se-ia ter em conta a correco por continuidade, ... o
que conduz a um resultado melhor
> 1-pnorm(279.5,250,sqrt(1000*.25*.75),lower.tail=T)
[1] 0.01560537

Bioinformatica-Manuela
Neves-12/13 p. 19/30

Mais Modelos de Probabilidade Discretos


Outras distribuies de probabilidade discretas surgem em
Bioinformtica para contar ocorrncia de caractersticas de
interesse. Aconselha-se uma reviso dos seguintes modelos:
A distribuio uniforme discreta
A distribuio geomtrica que conta o nmero de provas at
ao 1o sucesso ()
[ = ] = (1 )1
= 1, 2, 3, . . .
ou o nmero de sucessos at ao 1o insucesso designe-se
por ()
[ = ] = (1 )
= 0, 1, 2, 3, . . .
A distribuio de Poisson (), ( > 0 designa
o nmero mdio de sucessos no domnio em estudo.)

Bioinformatica-Manuela
Neves-12/13 p. 20/30

Modelos de Probabilidade Contnuos


A distribuio uniforme (, )
A distribuio exponencial ()
() =

1 /

> 0, > 0

Aplicaes uma distribuio de grande importncia em Biologia


molecular - como exemplo, modela o tempo de vida (aleatrio) de
molculas de RNA.
Molecules that do not undergo any kind of aging process while still active,
and which are not actively degraded by other means, would be as likely to
degrade at any time, irrespective of their age.

Bioinformatica-Manuela
Neves-12/13 p. 21/30

Modelos de Probabilidade Contnuos


Nota: Esta distribuio, tal como a geomtrica (que uma discreta
j referida atrs) gozam da propriedade da falta de memria.
Exerccios:
1. Verifique a propriedade da falta de memria na distribuio
exponencial.
2. Vamos mostrar que: Dado pequeno, a probabilidade de uma
varivel com distribuio exponencial tomar valores no
intervalo (, + ) dado que o seu valor excede
aproximadamente proporcional ao comprimento do intervalo.
Vamos interpretar.

Bioinformatica-Manuela
Neves-12/13 p. 22/30

Mais Modelos de Probabilidade Contnuos


A distribuio gama esta distribuio tem como caso
particular a distribuio exponencial. particularmente
importante porque pode ter vrias formas. (, )
() =

1
1 /
()

>0

onde

> 0, > 0

() =

+
0

gama.
1 , a funcao

Alguns grficos da funo densidade, para vrios valores de e .

10

15

20

25

30

0.04
0.02
0.00

0.0

0.00

0.2

0.05

0.4

0.10

0.06

0.6

f. densidade da Gamma(6,0.5)

0.08

f. densidade da Gamma(2,0.5)

0.15

f. densidade da Gamma(0.5,1)

10

15

20

25

30

10

15

20

25

30

densidade de uma v.a. com distribuicao


(1/2, 1), (2, 0.5) e (6, 0.5), da
Graficos
da funcao
x

esquerda para a direita, respectivamente.

Bioinformatica-Manuela
Neves-12/13 p. 23/30

Varias
variaveis
aleatorias
Em quase todas as aplicaes lida-se com vrias variveis
aleatrias, 1 , 2 , . . . , .
1o caso. Admitamos que 1 , 2 , . . . , so variveis aleatrias
discretas. O vector = (1 , 2 , . . . , ) tem uma lei de
probabilidade a que se chama distribuio de probabilidade
conjunta, () = [1 = 1 , 2 = 2 , . . . , = ].
No caso de as variveis serem independentes
() = =1 [ = ].
Exerccio: Determine a lei de probabilidade conjunta do vector = (1 , 2 , . . . , ), onde
( ), = 1, . . . , .
( = 1, . . . , ), so os resultados de provas de Bernoulli, independentes, cada
uma com probabilidade de sucesso .

Bioinformatica-Manuela
Neves-12/13 p. 24/30

Varias
variaveis
aleatorias
Consideremos agora o caso de haver dependncia entre as as
variveis.
Comecemos com um exemplo muito importante de uma
distribuio de probabilidade (discreta) conjunta quando as
variveis aleatrias individuais so dependentes o caso da
distribuio multinomial - a generalizao da binomial ao caso
de termos uma sequncia de provas independentes, mas em
que em cada prova pode haver mais de dois resultados possveis.
Suponhamos ento que cada prova tem resultados possveis:
1 , 2 ,
1 , 2 ,

...
...

com probabilidades

0
e
=1 = 1.

Bioinformatica-Manuela
Neves-12/13 p. 25/30

Varias
variaveis
aleatorias
Pretendemos determinar a probabilidade de em provas
independentes observar
1 vezes o acontecimento 1
2 vezes o acontecimento 2
...
vezes o acontecimento , com 1 + 2 + ... + = .
Sejam 1 , 2 , ..., as variveis aleatrias que designam o
nmero de vezes que sai cada um dos acontecimentos nas
provas.
A probabilidade associada ao vector = (1 , 2 , ..., )
!
!

1 2
=1 .
() =
1 2 ... =
1 ! 2 !... !
=1 ( !)

Bioinformatica-Manuela
Neves-12/13 p. 26/30

Varias
variaveis
aleatorias
Exerccio
1. De acordo com a teoria gentica, um certo cruzamento de porcos da ndia resultar
em descendncia vermelha, preta e branca na proporo de 8:4:4.
Determine a probabilidade de que, entre 8 descendentes, 5 sejam vermelhos, 2 pretos
e 1 branco.
2. Verifique, considerando por exemplo o par (1 , 2 ), que a factorizao apresentada
no slide 23. j no se verifica.

No caso de e serem duas variveis aleatrias quaisquer,


podemos definir agora um conceito anlogo ao de acontecimentos
condicionais, slide 5.
Define-se distribuio condicional como:
[ = = ] =

[ = , = ]
[ = ]

com

[ = ] > 0

Bioinformatica-Manuela
Neves-12/13 p. 27/30

Varias
variaveis
aleatorias
Generalizando a definio de distribuio condicional a variveis
[+1
com

[1 = 1 , . . . , = ]
= +1 , . . . , = 1 = 1 , . . . , = ] =
[1 = 1 , . . . , = ]

[1 = 1 , . . . , = ] > 0

Se houver independncia, tem-se, como vimos no slide 19,


[+1 = +1 , . . . , = 1 = 1 , . . . , = ] = =+1 [ = ]
2o caso. Se as variveis 1 , 2 , . . . , so variveis aleatrias
contnuas o vector = (1 , 2 , . . . , ) tem uma densidade de
probabilidade conjunta, (1 , 2 , . . . , ) dada por:
- caso as variveis sejam independentes () = =1 ( ).

Bioinformatica-Manuela
Neves-12/13 p. 28/30


Aplicacao
Consideremos que temos variveis aleatrias, 1 , 2 , . . . ,
i.i.d., cada uma com a mesma distribuio de .
Como exemplo considere que as variveis modelam o tempo de
vida de um tipo de protenas, i.e., vamos admitir que seguem uma
lei exponencial, isto tem-se ().
Se h dessas molculas numa clula, mostre que o tempo at
degradao da 1a molcula segue tambm uma lei exponencial.
Resposta O que se pretende determinar a distribuio de
1: , o mnimo de 1 , 2 , . . . , .
Comece por mostrar que 1: () = 1 / , onde
1: () = [1: ]

Bioinformatica-Manuela
Neves-12/13 p. 29/30

Varias
variaveis
aleatorias
Quer dizer que (/).
Mostre ainda que
1: () = (/)/
Exerccio Determine a funo de distribuio cumulativa e a
funo densidade do mnimo no caso de uma uniforme em (0,L)

Bioinformatica-Manuela
Neves-12/13 p. 30/30