Você está na página 1de 82

Bases de estatística

I. Dados Biológicos
I.1 Definições
I.2 Distribuições de frequências
I.3 Diagramas de frequência
II. Parâmetros estátisticos (estatística descriptiva)
II.1 Parâmetros de Localização
Médias
Mediana
Moda
II.2 Parâmetros de Dispersão
Intervalo de variação
Variância e desvio padrão
Coeficiente de variação
III. Distribuições (modelos teóricos de distribuição de frequência)
Distribuição binomial
Distribuição de Poisson
Distribuição normal, “Skewness” e “Kurtosis”
IV. Estimações e testes de hipóteses
Distribuição e variância de médias
Distribuição e variância de outros parâmetros
Intervalos de confiância
Distribuição t
Distribuição 2
Testes de hipóteses (distribuições t e normal)
I. Dados Biológicos I.1. Definições

estatística Tratamento de dados numéricos→conclusões

Variabilidade Um carácter que pode adquirir diferentes


valores (quantitativas ou qualitativas) é uma
variável. (ex: Cor de cabelo, altura…)

Variabilidade externa Uma amostra medida várias vezes dá vários


valores embora se trata da mesma amostra. As
diferenças são devidas à falta de précisão do
aparelho utilizado, ou da pessoa que mede. A
variabilidade é externa à amostra

Variabilidade interna Variabilidade que depende da amostra medida.


(ex. Altura dos alunos, o valor depende do aluno
medido).

Caso Geral Var. ext << Var. int. Var. ext. negligível.
Cuidado às excepções
I. Dados Biológicos I.1. Definições
Raciocínio estátistico=inferência estatística

Amostra 1

População Amostra 2

Amostra 3

2 casos possíveis …
- população teórica conhecida
quais são as amostras que podemos obter desta população?
- população desconhecida (amostra observada)
que podemos deduzir (=inferir) sobre esta população desconhecida?
(tomando em conta a resposta a 1ª pergunta sobre a pop. conhecida)

Convenção para identificar os parâmetros estátisticos:


- Parâmetros de população: alfabeto grego (ex: )
- Parâmetros de amostras: alfabeto latino (ex: s)
I. Dados Biológicos I.2. Distribuições de frequências

Os dados numéricos são ordenados para ser apresentados.

Tipos de variáveis:

-Variável qualitativa (ex: espécie)

-Variável quantitativa:

* discontínua (ex: número de embriões na bolsa incubadora


de uma fêmea de crustáceo)

* contínua (ex: comprimento dos peixes)


I. Dados Biológicos
I.2. Distribuições de frequências

Tabelas:

Variável qualitativa
I. Dados Biológicos I.2. Distribuições de frequências

Variável quantitativa discontínua


I. Dados Biológicos I.2. Distribuições de frequências

Variável quantitativa contínua

É preciso ordenar os dados por classe, se não temos uma infinidade de valores.
I. Dados Biológicos I.2. Distribuições de frequências

Valores no limite:
escolher de colocar na classe anterior ou seguinte

Número de classes:
Na prática < 20

Intervalo de classe:
as frequências só são comparáveis com intervalos idêntícos.
Senão, comparar densidades de frequência
(f’=f/i , i=tamanho do intervalo)
I. Dados Biológicos I.3. Diagramas de frequência

Diagrama de pontos (mais usado para frequências cumuladas):

Para as variáveis contínuas, utilizar o meio da classe como valor de x.


I. Dados Biológicos I.3. Diagramas de frequência
Histograma (mais usado para frequências não cumuladas):
Diagrama bem adaptado às variáveis quantitativas contínuas.
Possibilidade de histograma em frequência cumulada
(=integral do histograma em frequência).
25

20
Frequência (f)

15

10

0
9 10 11 12 13 14 15 16 17 18 19 20
Comprimento dos peixes (cm)
I. Dados Biológicos I.3. Diagramas de frequência

Exemplo de utilização:
evolução de uma população de peixes

Método de Petersen:
evolução, dinâmica das populações

Janeiro Fevereiro Março Abril

"moda" O tamanho dos moda 1 moda 2 Mais juvenis e


peixes aumenta alguns peixes
velhos mortos
II. Parâmetros estátisticos Estatística descriptiva

Existem...
1.6
Nitrogen content (%)

1.5
1.4 Parâmetros de LOCALIZAÇÂO
1.3
1.2
ex: média
1.1  ordem de grandeza da variável
1.0
0.9
0.8
0 1 2 3 4 5 6 Parâmetros de DISPERÇÂO
Date ex: desvio padrão
 variabilidade da variável
II. Parâmetros estátisticos II. 1. Parâmetros de Localização

Média aritmética
Em caso de n muito elevado e

x
 x de uma distribuição por classes,
cálculo simplificado:

n
x
fx i i

N N:
numero total
Para uma variável discontínua, xi de amostras
observadas
representa o valor de x na classe i;
n: numero total de
individuos observados para uma variável contínua, xi
representa o meio do intervalo da
classe i => perda de precisão no
cálculo da média => preferivel
calcular x do que fx.
II. Parâmetros estátisticos II. 1. Parâmetros de Localização

Média geométrica (para dados transformados com log)

n
1

GMx
n

antilog
logx
n x
i
i

Utilizada quando uma transformação log é necessária para


poder tratar os dados com um teste estátistico paramétrico.

Média harmónica (para dados transformados com 1/x)

1 1 Utilizada quando 1uma



Hx1/  transformação é necessária.
n x x
II. Parâmetros estátisticos II. 1. Parâmetros de Localização

Mediana 5

Valor da variável que divide

frequências
4
a distribuição de frequência f
em 2 metades iguais (igual 3
número de observações em
F
2
cada metade).
1
ex: 14, 15, 16, 17, 25
=> mediana = 16 0
14 15 16 17 18 19 20 21 22 23 24 25
valor da variável
Moda
Valor da variável com
maior número de
observações

"moda"
II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão

Intervalo de variação
Diferença entre o valor mais baixo e o mais alto da amostra

Variância e desvio padrão

Soma dos quadrados: 


SS xx 2


SSx
x
2

Variância (ou quadrado médio):


2
s  
n n

xx 2
Desvio padrão da amostra:
s
n
II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão

Variância numa distribuição por classes

Soma dos quadrados: 



SS f(
x x
i) i
x 2

SS f(
x 
i)i
x 
x
2

Variância (ou quadrado médio): s 


2

N N

Desvio padrão da amostra: f(


x x
) x 2

s i i

N
Frequências N:
Absolutas numero total
Nestas formulas de amostras
observadas
II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão

Variância e desvio padrão


Na prática, mais interesse na população de onde as
amostras foram tiradas

são procurados bons estimadores dos parâmetros


estátisticos da população.

Bon estimador:
várias amostras são tiradas de uma população, cada uma dá
um valor do estimador. A média dos valores do estimador é
igual (ou muito próxima) ao valor do parâmetro
correspondente da população.
II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão

x
 x
é um bom estimador de , média da população
n
xx
2
não é um bom estimador de var. da pop. 2
s2  subestimação da var. da pop.=> correcção
n

xx
2
Ratio n-1 aumenta s2 =>
s2  é um bom estimador de var. da pop. 2
n1

n  1 = graus de liberdade

Paradoxalmente, s xx
2
subestima 
n1
Para o desvio padrão, um factor de correcção
suplementar é necessário: Cn
II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão

Cn com n=número de observações na amostra


x
x
2
bom estimador de 
Cs
C

n n
n1

Para n > 30, Cn é negligível (correcção < 1%)

Existem tabelas que fornecem Cn para valores de n até 30


(cf. Anexa 1, tabela ii, statistical Tables, Rohlf & Sokal).
Anexa 1 Cn correcção para desvio padrão


x
x
2

Cs
C

n n
n1

Tabela ii, Statistical Tables, Rohlf & Sokal


II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão

Coeficiente de variação (cv)


Utilidade do CV:
O desvio padrão depende do valor da média, em geral.

Ex: o desvio padrão do tamanho da cauda de


elefante é superior ao desvio padrão do tamanho
da cauda de rato. Não significa que a primeira
variável tenha mais variabilidade do que a segunda.

O cv permite a comparação da variabilidade


s de diferentes variáveis.
cv 100
x O cv corresponde ao desvio padrão expresso
como percentagem da média:
II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão

Coeficiente de variação corrigido (cv*)

O cv no entanto, subestima o coeficiente de variação


da população => utiliza-se a fórmula corrigida:

 1s

cv 
*
1 100
 4x
n

Neste caso, não se usa correcção por Cn, mas apenas:

xx
2

s
n1
Para n > 25, a correcção é negligível (< 1%).
III. Distribuições
Modelos teóricos de distribuição de frequências

25

20

Para tentar perceber uma


Frequência (f)

15

10 distribuição de frequências
5 observada, esta pode ser
0
9 10 11 12 13 14 15 16 17 18 19 20
comparada a modelos teóricos.
Estes modelos são baseados
Comprimento dos peixes (cm)

sobre o acaso
(com a probabilidade de um
evento ocorrer).
III. Distribuições III.1. Distribuição binomial

O evento observado só pode tomar 2 valores.

Exemplos:

Numa população de insectos, um indivíduo pode


ser "contaminado" ou "não contaminado" por um
determinado virus.

Ou então lançamos uma moeda e podemos obter


uma ou outra face.
III. Distribuições III.1. Distribuição binomial

Consideramos o exemplo dos insectos contaminados:

 Probabilidade de um evento acontecer (insecto ser contaminado) =


proporção de insectos contaminados na população = P

 Probabilidade de um evento não acontecer (insecto não ser


contaminado) = Q = 1-P

 n = Tamanho da amostra (= nº de individuos na amostra)


= nº de abelhas na amostra

 x = nº de insectos contaminados observados na amostra

 f = frequência relativa de amostras com x insectos contaminados

 N = numero total de amostras observadas


III. Distribuições III.1. Distribuição binomial
n=1 n=2 n=3 ... n
...
C (P3) ... Frequência
C (P2)
... relativa
NC (P2Q) ...
nesta formula

C (P) ...
C (P2Q) ... C
f(x) x x n
P Q x
(contaminado) NC (PQ) ... n
NC (PQ2) ...
... Com
C (QP2) ...
C (QP) ... n!
NC (Q2P) ... C
x
NC (Q) C (Q2P)
...
...
n
nx!
x!
(não contaminado) NC (Q2)
NC (Q3)
...
...
x f(x) x f(x) x f(x) x f(x)
0 Q 0 Q2 0 Q3 0 Qn
1 P 1 PQ+QP=2PQ 1 PQ2+QPQ+Q2P=3PQ2 1 Cn1PQn1
2 P2 2 P2Q+PQP+QP2=3P2Q 2 Cn2P2Qn2
3 P3 x CnxPxQnx
n Pn
III. Distribuições III.1. Distribuição binomial

Distribuição das frequências = distribuição binomial


Se P=0.4 Q=0.6 0.50
Para n=3 0.45
0.40
0.35
f(0)= Q3 =0.216 0.30
f(1)= 3PQ2 =0.432 0.25
f(2)= 3P2Q =0.288 0.20
f(3)= P3 =0.064 0.15
0.10
0.05
0.00
Computação dos valores de F(x) 0 1 2 3

f (0) Qn

nxP
f(
x)
1 f(
x) Frequências
relativas

x1Q nesta formula
III. Distribuições III.1. Distribuição binomial

Média do número de insectos contaminados por amostra:

x
(
Ex
m
) 
f
(x)
i i
x nP

Variância deste número de insectos contaminados por amostra:


2
sv
f
(x
)(
x
i i
2
x
)
nPQ
x
Q
x
(
1P)

x  nP Frequências
relativas
s2  nPQ nestas formulas

Comentários: s2  x
Se P=Q=0.5 <=> distribuição simétrica
Se PQ <=> distribuição assimétrica
III. Distribuições III.1. Distribuição binomial

Distribuição de uma percentagem (proporção)


em vez do nº de insectos:
x
Variável
n

Média  x
 P
n
PQ
Variância s 
2
x
n n

Testes para verificar se a distribuição é binomial


apresentados no próximo capítulo...
III. Distribuições III.1. Distribuição binomial

Exemplo de aplicação de distribuição binomial:

A observação de uma distribuição binomial significa que os


insectos (neste caso) são distribuidos de maneira
totalmente aleatória.

Em biologia, há casos em que a distribuição pode afastar-se


do modelo téorico aleatório binomial:

1) Agregação (= "clumping" = "contagious distribution")

2) Repulsão
III. Distribuições III.1. Distribuição binomial

1) Agregação
"caudas" da distribuição obs. com maiores frequências

<=> Mais amostras com todos os animais contaminados (ou


quase) ou com nenhum animal contaminado. Possível
explicação biológica: num sítio de onde foi tirada uma
amostra, um animal contaminado contamina todos os
outros.

2) Repulsão
repulsão entre animais contaminados,
disposição regular dos contaminados entre os
não contaminados.

=> Não há muitas amostras com mais de um animal


contaminado. Mais difícil encontrar uma
explicação biológica: Talvez alteração do
comportamento por causa da contaminação do
sistema nervoso?
III. Distribuições III.2. Distribuição de Poisson

Distribuição de frequências (discreta) do número de vezes em que um


evento raro acontece. Caso particular da distribuição binomial em que
P<<Q (na prática P < 0.1) e n   (n elevado na prática)

Propriedades da distribuição Poisson


1) o evento observado é raro: x << n P 0

2) o evento observado é aleatório


os eventos são independentos = uma ocorrência numa
amostra não altera a probabilidade de outra ocorrências

Distribuição de Poisson

x
x
Frequência f(x)ex
relativa x!
nesta formula
III. Distribuições III.2. Distribuição de Poisson

Variância

2
s 
nPQ
xQ
x(
1P
)x
x 1
Característica da distribuição de Poisson: s2  x

Computação dos valores de F(x)

1 Frequências
f (0)  x relativas
e nestas formulas
x
f(
x 
1)f(
x)
x1
III. Distribuições III.2. Distribuição de Poisson

Representação gráfica de f(x) vs x para diferentes valores de x

Usa nP=média ()


Podemos escolher n ou P e obtemos
todas as curvas intermediarias.
f(x)

x =

Gráfico 5.3 p 87 (Biometry, Sokal & Rholf)


III. Distribuições III.2. Distribuição de Poisson
Exemplo de aplicação da distribuição de Poisson
Distribuição espacial dos indivíduos de uma espécie rara de arbusto
numa charneca (quase impossível encontrar num quadrado).

1) s2  x
Distribuição de Poisson = distribuição perfeitamente
aleatória. Possível explicação: os elementos (vento e chuva)
distribuem as sementes de maneira aleatória no tereno.
2) s2  x
"Clumping" - Possível explicação: as sementes desenvolvem-
se à proximidade dos arbustos crescidos de onde caíram.

3) s2  x
Repulsão - Possível explicação: os arbustos não podem
crescer à proximidade um do outro por causa da limitação
pelos recursos naturais como a água <=> espaço regular
entre os vários indivíduos.
III. Distribuições III.3. Distribuição Normal

Distribuição Normal = Distribuição de Laplace-Gauss (comum na natureza)


Muitas variáveis em Biologia são contínuas (peso, conprimento, …)
2
1
xx
1  
f(
x)
y e 2s Frequência


s2 relativa
nesta formula

A posição da curva depende de x


A forma da depense de s
A e B têm o mesmo desvio padrão
mas a média é mais elevada na
curva B.
B e C têm a mesma média, mas s é
menor na curva C.
III. Distribuições III.3. Distribuição Normal
Propriedades da curva

1) Curva de - até +  :
Probabilidade (-   x  +  ) = 1
Superfície total por baixo da curva
y
2) Integral da distribuição normal=
distribuição normal cumulativa (forma sigmóide)
Para x1: superfície por baixo da curva normal até x1
=Valor de y na curva normal cumulativa
=Probabilidade (x  x1) = Px1 x1

3) Probabilidade (x1  x  x2)=


Superficie por baixo da curva entre x1 e x2

x1 x2

φx1=probabilidade (x1  x  x) se x1  x
x1 x x x1 ou probabilidade (x  x  x1) se x  x1
III. Distribuições III.3. Distribuição Normal
Propriedades da curva

4) 2φx1 = probabilidade x situado entre x1 e o seu valor simétrico


em relação a x

-|x1| x +|x1|

1-2φx1 = probabilidade x situado fora deste intervalo

-|x1| x +|x1|
III. Distribuições III.3. Distribuição Normal

Equação da distribuição => podemos calcular Px para cada valor de x.


Mas: cálculo diferente para cada distribuição normal (depende de x e de s).
Solução: Curva normal reduzida.

1
1  X2 xx
Y e 2
Com Y  sy e X

2 s
Numero de desvios
padrões entre x e média

X= variável normal reduzida (= standard normal deviate)

PX1 = Px1 mas o cálculo de PX independente de x e s


=>Tabela de valores de PX em função de X => 1 tabela só
(Calcular a partir da Tabela A de Rohlf e Sokal, Anexa 2,)
III. Distribuições III.3. Distribuição Normal
Curva normal reduzida.

 3s  2 s  1s x 1s 2 s 3s x
 3  2 1 0 1 2 3 X
Anexa 2 Tabela A: areas da curva normal
multiplicar os valores

probabilidade φX,
para obter 2φX,

Tabela dá
por 2.

Probabilidades
correspondantes à
P=95 e 99% Tabela A, Statistical Tables, Rolf & Sokal
X=1.96 e 2.57
Tabela A, Statistical Tables, Rohlf & Sokal
III. Distribuições III.3. Distribuição Normal
Aplicação da distribuição normal reduzida
a probabilidade de x se encontrar entre os valores –x0 e +x0 ?

x xx
0xx
X 0 e (xXs
x)
s
Xs

0x
Xs
x
X s
0x
X


0XX
0

-|x0| x +|x0|
Proba (-x0 < x < x0) = Proba (X0 < X < X0) = 2φx0
Fornecida pela Tabela A
(Rholf e Sokal, Anexa 2)
dá a probabilidade corespondante à φx
=> multiplicar por 2 para obter 2φx

Exemplos

X0 = 1.96 x
-1.96s
x
x1.96s
 2φx0 = 0.95
X0 = 2.57 x
-2.57s
x
x
2.57s
2φx0 = 0.99
III. Distribuições III.3. Distribuição Normal

Distribuições que não respeitam a normalidade: Skewness e Kurtosis

Skewness : distribuição assimétrica

Kurtosis : simétrica mas as proporções no centro e asas da


distribuição não respeitam a distribuição normal.
III. Distribuições III.3. Distribuição Normal

Distribuições que não respeitam a normalidade: Skewness e Kurtosis

Skewness : distribuição assimétrica

Kurtosis : simétrica mas as proporções no centro e asas da


distribuição não respeitam a distribuição normal.
III. Distribuições
Modelos teóricos de distribuição de frequências

2 Student (t) F

Normal
(Laplace-Gauss)
Distribuições contínuas
Distribuições discontínuas
Poisson
n
P0 Binomial
n pequeno
PQ
III. Distribuições
Modelos teóricos de distribuição de frequências

2 Student (t) F

Normal
(Laplace-Gauss)
Distribuições contínuas
Distribuições discontínuas
Poisson
n
P0 Binomial
n pequeno
PQ
IV. Estimativas e testes de hipóteses
IV.1. Estimativa de uma média e intervalo de confiância

=> n elevado

Muitas amostras de efectivo n (n elevado) tiradas de uma


população infinita. Cada amostra tem uma média x.
A média de todos os x aproxima μ, a média teórica da população.

Distribuição dos valores de x:


x  Distribuição normal
n
μ x

x 
X Variável normal reduzida
x
IV. Estimativas e testes de hipóteses
IV.1. Estimativa de uma média e intervalo de confiância

Construcção do intervalo de confiância:

Na prática, μ e  x não são conhecidos:


s
sx 
n
O intervalo x  Xs x tem a probabilidade 2φx de conter μ

Utiliza-se essencialmente: X = 1.96 para 2φx = 95%


X = 2.57 para 2φx = 99%

Exemplo:
3
Amostra com n=100, x=10, s=3 => sx  0.3
100
2φx = 95% intervalo = 100.60 = [9.40 , 10.60]
2φx = 99% intervalo = 100.78 = [9.22 , 10.78]
IV. Estimativas e testes de hipóteses
IV.2. Distribuição t de Student e intervalo de confiância

=> n baixo

x
n baixo => ja não segue uma distribuição normal.
x
Distribuição mais achatada do que a distribuição normal =

Distribuição t de Student

Normal = t()
0.4 t(2 graus de liberdade)
f rel 0.3 t(1 grau de liberdade)
0.2
0.1
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
t
(Fig. 7.8 p.145, Sokal e Rohlf)
IV. Estimativas e testes de hipóteses
IV.3. Comparação de x a um valor fixo

=> n aumenta

Distribuição de t  distribuição normal (dist. hipernormal)


mesma contrucção do intervalo, mas utilização de t e 2φt
(em vez de X e 2φx).

Tabela B de Rohlf e Sokal


(entrar com os graus de liberdade  = n-1 e  = 1-2φt

Exemplo:
Para 2φt = 95%  = 5% (0.05)
Amostra de 21 valores: t=2.086 (=20) (n=21)
Por comparação, o valor de X (n infinito) seria 1.96

O intervalo x  ts x tem a probabilidade 2φt de conter μ


alfa=0.01
Alfa=1%
Tabela de Student

alfa=0.05
Alfa=5%
P=0.99
P=99%
P=0.95
P=95%
Valores
correspondante a
X da distribuição
Normal
IV. Estimativas e testes de hipóteses
IV.3. Comparação de x a um valor fixo

Pergunta:  = 0 ?
Ou seja: tiramos uma amostra de média x de uma população
desconhecida de média  e queremos saber se esta
população desconhecida é de facto uma população ja
conhecida de média 0 .

Exemplo:
Compramos uma amostra de n sardinhas no mercado com origem não
indicada (população desconhecida) e queremos saber se são sardinhas
provenientes da população da Costa Portuguesa.
Utilizamos x = n° de vertebras
Amostra  x (estimador de  )
População portuguesa: 0 (conhecida porque estudada).
IV. Estimativas e testes de hipóteses
IV.3. Comparação de x a um valor fixo
Intervalo:

Proba 2φt  x - tsx x x + tsx n pequeno


2φX  x - Xsx x + Xsx n elevado

Se 0 ficar fora do intervalo calculado,


a probabilidade  = 0 < 1 - 2φt (ou 1 - 2φx se n elevado)

0 fica fora do intervalo <=> x- 0> tsx (ou Xsx)


xμ0
<=> t (ou X)
sx
IV. Estimativas e testes de hipóteses
IV.3. Comparação de x a um valor fixo

Proba 2φt  x - tsx x x + tsx n pequeno


2φX  x - Xsx x + Xsx n elevado

Na pratica
x  μ0
Calcular e comparar com valores da tabela
sx
(t ou X consoante o valor de n).
x  μ0
Se for superior a t ou X, hipotese  = 0 rejeitada
sx
com risco 1 - 2φt ou 1 - 2φX
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)
Exemplo

Numero de vertebras em sardinhas:


Amostra comprada: n = 100 sardinhas, média = 51.5, s = 2

1° Caso
Pop. do Mediterrâneo: média = 51.0
Pop. do Golfo de Gascogne: média = 51.3
2 hipoteses exclusivas com distribuições muito proximas
Mediterrâneo: 0 = 51.0 Golfo: 1 = 51.3
H0:  = 0 e H1:  = 1 são as unicas 2 hipoteses possiveis

M G

2.5%

50 51 52 53
x
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)
Rejeitamos H0 porque a probabilidade de x ser superior a 51.4
com H0 verdadeiro é inferior a 2.5%.

=> aceitamos H1 porque é a unica alternativa.


Neste caso, 51.4 é o limiar de decisão.

Abordagem geral com 51.4 como limiar de decisão:

H0 verdadeira H0 falsa
H1 falsa H1 verdadeira Risco muito
x >51.4 elevado,
Erro I Não podemos
H0 rejeitada OK tomar decisão
Risco = 2.5%
H1 aceite
x <51.4
Erro II
H0 aceite OK
Risco b= 69%
H1 rejeitada
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)
Calculo do riso beta:

Abordagem geral com 51.4 como limiar de decisão:

O risco beta corresponde a area purpura até o valor limiar de decisão 51.4.
Para conhecer a probabilidade (ou percentagem de risco) correspondante,
Temos que calcular o X correspondante. Ja sabemos que na curva do golfo,
A aerea até a média 51.3 corresponde a P=0.5 (50%),

só falta calcular a area entre 51.3 e 51.4:

x  51
.
4 
51
.30.
1
X 
X  0
.
5
x 2
/ 1000.
2

Na tabela Normal, entramos nos “standard deviation units” com o valor 0.50
e obtemos a probabilidade 0.1915 (desta vez não multiplicamos por dois, porque
só queremos um lado da curva)

A probabilidade total correspondante a area purpura é 0.50+0.19, ou seja 0.69


Daí o risco de segunda espécie egual á 69 % neste exemplo
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)

 = risco do erro de Iª espécie = risco de rejeitar uma hipótese verdadeira


b = risco do erro de IIª espécie = risco de aceitar uma hipótese falsa

Para diminuir b , podemos escolher outro limiar de decisão:


51.3 => b=50% mas  aumenta para 5%

Potencia do teste = 1-b

Aqui teste unilateral


Só consideramos o lado da 1ª distribuição em confronto com a 2ª
distribuição.
(Os 2,5% da distribuição a baixo de 50.6 não são considerados).
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)
Numero de vertebras em sardinhas:
Amostra comprada: n = 100 sardinhas, média = 51.5, s = 2

2° Caso
2 hipoteses exclusivas com distribuições afastadas
Pop. do Mediterrâneo: 0 = 51.0
Pop. do Atlântico Norte: 1 = 52.0
n = 100 e s = 2 => sx= 0.2 e 1.96*sx 0.4

M A

2.5%

50 51 52 53
x
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)
Escolhemos tambem 51.4 como limiar de decisão:

H0 verdadeira H0 falsa
H1 falsa H1 verdadeira
x >51.4
Erro I
H0 rejeitada OK
Risco = 2.5% Potencia do
H1 aceite teste > 99%
x <51.4
Erro II
H0 aceite OK
Risco b= 69%
0.14%
H1 rejeitada

Neste 2° caso, o risco b é mais fraco


=> possibilidade de tomar uma decisão se x < 51.4.
Porque ha uma menor sobreposição das distribuições comparado com o 1° caso.

Como obter o 2° caso ?


n aumenta => sx 
s
n diminui
<=> as distribuições ficam mais estreitas <=> menos sobreposição
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)
Numero de vertebras em sardinhas:
Amostra comprada: n = 100 sardinhas, média = 51.5, s = 2

3° Caso
Numero elevado de distribuições de onde a amostra pode ter sido tirada <=>
Muitas origens possiveis para as sardinhas.
Continuamos a querer saber se as sardinhas são do Mediterrâneo.
Mas desta vez devemos considerar 2 limiares de decisão
(50.6 e 51.4) porque existem distribuições com
 < 0 e outras com  > 0 .
M

50 51 52
x
Aqui teste bilateral com =2.5+2.5=5%
H0 rejeitada quando x se encontrar fora do intervalo [50.6, 51.4]
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)

3° Caso...

Mas se x se encontrar no intervalo [50.6, 51.4],


não podemos calcular o risco b porque muitas distribuições
sobrepostas com a distribuição «Mediterrâneo», algumas desconhecidas.
b pode ser muito elevado => não podemos aceitar H0

Neste 3° caso, muito frequente na natureza,


é possivel rejeitar a hipotese, mas não aceita-la.
IV. Estimativas e testes de hipóteses
IV.5. Método dos valores emparelhados

Significado de uma variação

Amostra: valores x1, x2, x3, …, xn da variável.

Aplicamos um tratamento aos indivíduos da amostra


(dieta, fármaco, estresse, …) e voltamos a medir a variável
nos mesmos indíviduos após o tratamento.

x1 x’1 d1= x1- x’1


x2 x’2 d2= x2- x’2
Variável d
x3 x’3 d3= x3- x’3
(com média d)

xn x’n dn= xn- x’n


IV. Estimativas e testes de hipóteses
IV.5. Método dos valores emparelhados

Amostra 1: d1 sd1 n
Amostra 2: d2 sd2 n

...
...

...
Amostra z: dn sdz n

Distribuição dos z valores de : d


média téorica δ sd
desvio padraõ calculado sd 
n

d - tsd d d + tsd

Com a Probabilidade 2φt


para que d se encontre no intervalo
Se n elevado, utilizar X (distr. Normal) em vez de t (distr. Student)
 = n-1
IV. Estimativas e testes de hipóteses
IV.5. Método dos valores emparelhados

H0: δ  0
<=> o tratamento não tem qualquer efeito sobre a população.

δ fora do intervalo ? <=> dδ ts


d

d δ d
dδ ts <=> t (e δ  0 em H0 ) <=> t
d
sd sd

Vamos comparar d e t
sd
d
Se for superior a t, a probabilidade é fraca de δ  0
sd
t geralmente escolhido para 2φt = 95% ou 99% (teste bilateral)
IV. Estimativas e testes de hipóteses
IV.5. Método dos valores emparelhados

Casos em que o teste pode ser unilateral:


Sabemos a partida que o efeito só pode ter um sentido.
Ex: o tratamento pode:
 ou não ter efeito
 ou aumentar x
(exemplo tratamento= hormona de crescimento)

Sabemos que o tratamento não pode diminuir x.


Neste caso, só consideramos um lado da distribuição:
 = 2.5% em vez de 5%

Cuidado: na tabela B de Rohlf e Sokal,


entrar com 5% para obter o valor de t,
e calcular o risco 5/2 = 2.5%
IV. Estimativas e testes de hipóteses
IV.6. Estimativa de uma proporção

Começamos com uma distribuição binomial:


Numa amostra de n individuos,
x possuem um caracter
n-x possuem outro caracter
P proporção na população a possuir este caracter

Queremos estimar P com intervalo


Se n muito elevado (n) e P pouco diferente de 0.5 (P0.5)
Esta distribuição pode ser aproximada a uma dist. Normal
=> podemos utilizar a distribuição normal para calcular um
intervalo de confiância de P.
IV. Estimativas e testes de hipóteses
IV.6. Estimativa de uma proporção
Dist. normal das proporções observadas em várias amostras com

P(1
P)
P= p e σp  com =médiap das prop. obs. em i amostras
n
p(1
p)
p estimador de P e sp  estimador de σp
n

(se n elevado => melhor estimativa)

Ex: p(1
p)
n=100 p=0.5 => s
p 0.05
n
* P tem uma probabilidade 2φX=95% de se encontrar no intervalo
[p - 1.96 sp , p + 1.96 sp ]  [0.4 , 0.6]

*P tem uma probabilidade 2φX=99% de se encontrar no intervalo


[p - 2.58 sp , p + 2.58 sp ]  [0.37 , 0.63]
IV. Estimativas e testes de hipóteses
IV.6. Estimativa de uma proporção
Comentários:
* Todos os calculos devem ser efetuados com proporções
(não como percentagem)
* Passagem binomial  normal:
só com n elevado e P pouco diferente de 0.5
se P muito afastado de 0.5 => dist. de Poisson
* O intervalo depende de P e n (para X fixado)
Podemos contruir tabelas e abacos.

Condições desfavoráveis:
* n elevado mas P0.02 ou P0.98 (Poisson)
* n  10 (binomial)
Em ambos casos, não existe maneira simples de calcular intervalo
IV. Estimativas e testes de hipóteses
IV.7. Comparação de 2 médias

Método indirecto, por sobreposição de intervalos:


péssimo, nunca utilizar !!!
1º Caso (n1 e n2 elevados):
amostra 1: , s1, n1x1 (população infinita: e μ)1 σ1
amostra 2: , s2, nx22 (população infinita: e μ)2 σ2

H0: ? μ1  μ2
dx1 x2
d-d
Distribuição normal de d: X Variavel normal reduzida
σd

σd
2
σx
2
1
σ2
x2

d μ1 μ2
IV. Estimativas e testes de hipóteses
IV.7. Comparação de 2 médias

s
1 s
2 2
s
d(s
xs
2 2
x) 2
n1 n
1 2
2

d-d
aproxima X
sd
Se H0 <=> μ1  μ2 <=> d  0 <=> d
-dd-
0d
X
  
s
d s
d s
d

d
Comparamos aos valores de X da tabela
sd

Probabilidade 5% para d > 1.96


sd
Probabilidade 1% para > 2.58
d
sd
IV. Estimativas e testes de hipóteses
IV.7. Comparação de 2 médias

d
Se > 1.96 * => Rejeitamos H0, aceitamos μ1  μ2
sd diferença significativa
coeficiente de segurança=95%, risco =5%

d
Se > 2.58 ** => Rejeitamos H0, aceitamos
sd diferença altamente significativa
coeficiente de segurança=99%, risco =1%

d
Se < 1.96 => Não é possivel rejeitar H0 com
sd coeficiente de segurança suficiente =>
não podemos concluir
(mas limite de 5% subjectivo, ver caso a caso)
IV. Estimativas e testes de hipóteses
IV.7. Comparação de 2 médias
2º Caso (n1 e n2 pequenos <30):

d segue uma t de Student só se as 2 populações tiverem a mesma variância


( σ12  σ22 )
, estimadas por s12  s22
H0 é mais estricta: H0: e μ1  μ2 σ12  σ22

D D 
2 1 1
 Com D = disperção
s
d 1

  = soma dos quadrados
n1n2-
2n
1 n
2 (x
x)
2

d
Comparamos aos valores de t da tabela, para  = n1+n2-2
sd

Procedimento identico ao teste X, com diferenças significativas, altamente


significativas ou não significativas. Em caso de diferença significativa, pode
significar que μ1  μ2 ou σ12  σ22 => comparar σ12e σ22 :
IV. Estimativas e testes de hipóteses
IV.7. Comparação de 2 médias
Se σ2
σ2
μ μ
1 2 1 2
Se não
2 podemos concluir quanto a
σ1 σ2 
2
μ1e μ2

O teste fica mais significativo quando n aumentar

Condições de utilização:
* n1 e n2 elevados: não é necessario verificar a homogeneidade das variâncias,
nem a normalidade da distribuição de x
* n1 e n2 pequenos:
* se n1 = n2 : o teste t é um teste robusto
condições identicas ao teste com n1 e n2 elevados.
* se n1  n2 : verificar normalidade da distribuição de x e
homogeneidade das variâncias (teste X2).
* independência das amostras: os individuos das 2 amostras devem ser
independentes. (ex: evitar comparar os mesmos individuos antes e depois de um
tratamento, neste caso ver método dos valores emparelhados).
IV. Estimativas e testes de hipóteses
IV.7. Comparação de 2 médias
Verificação da homogeneidade das variâncias (=homoscedasticidade):
Para comparar 2 variâncias: teste F
(para mais de 2, teste F não valido, existem outros testes).
Amostra 1: s12 s12 s22
Amostra 2: s22 F  2 ou
s2 s1 2

Distribuição de F

Nota: existem infinidade de dist. F,


 dependente de n1 e n2

n1 e n2 elevados
...
0 n1 e n2 médios
1 1 F F

n1 e n2 pequenos
1-2
IV. Estimativas e testes de hipóteses
IV.7. Comparação de 2 médias
Probabilidade 2 para F estar fora do intervalo [1/F , F].
Teste bilateral (mas tabela de F unilateral !)

Na pratica:
Dividir a maior das 2 variâncias ( ) pela outra
s12 ( ) => F s22
Comparar com F da tabela (F de Rohlf e Sokal)
para um risco  e graus de liberdade 1 = n-1 e 2 = n-1

Se F > F => consideramos que σ12  σ22


com risco 2 e intervalo 1-2
Se F < F => podemos aceitar a hipotese da homocedasticidade
=> podemos comparar as médias

Precaução:
Teste valido se as distribuições são normais.
Senão: transformação dos dados para normalisar as distribuições.
IV. Estimativas e testes de hipóteses
IV.8. Ajustamento a uma distribuição de frequências
Necessidade de comparar, por um teste estatistico, frequências observadas e
frequências teoricas (por exemplo para uma das distribuições estudadas: binomial,
Poisson, normal).

Comparação a uma distribuição teorica:


Exemplo: Gene com 2 aleles W (wild) dominante e m (mutante) recessivo.
Em teoria:
WW x mm  Wm  25%WW 50%Wm 25%mm
(F0) (F1) 75% fenotipo “wild”
(F2)

a = numero de classes = 2 (fenotipo « wild »; fenotipo mutante)


P = teorica de « wild » = 0.75
distribuição binomial
Q = proporção teorica de mutantes = 0.25
Amostra: n = 90 individuos estudados
p = observada = 80/90 = 0.89
q = 10/90 = 0.11

(Exemplo 17.1 p. 688, Sokal e Rohlf)


IV. Estimativas e testes de hipóteses
IV.8. Ajustamento a uma distribuição de frequências

Fenotipo Frequ. Observada f Proporção observada Proporção teorica Frequ. teorica ft


Wild 80 P=0.89 P=0.75 67.5
mutante 10 Q=0.11 Q=0.25 22.5
n =  = 90
Teste G
Principio: Se Pp (e Qq), a probabilidade de obter as frequências observadas
com P e Q é pouco diferente da probabilidade de obter estas frequências com p e q.
<=> a razão das 2 probas  1
<=> G = 2 vezes o logaritmo desta razão, é proximo de zero
Este parametro segue aproximadamente uma distribuição de 2
com  = a-1 = numero de classes - 1 (= 1 neste exemplo).

Computação do valor de G (mais simples do que o calculo das probabilidades)

f
G2fLn

ˆ

Frequências
absolutas
f nesta formula
IV. Estimativas e testes de hipóteses
IV.8. Ajustamento a uma distribuição de frequências

Comparer G calculado com 2 , teste unilateral (Tabela D, Rohlf e Sokal)

Condições e correcções:

ˆ
fmin  5
*
* Correcção de Williams (a2): G Frequências
dividir G por um factor
G 
cor
 a21 absolutas
=> recomandada em todos os casos 1 6n

ν
 nesta formula
 
No exemplo Wild/mutante:
G = 10.965, Factor = 1.006, Gcor = 10.905***

* Calculo de  :
Parâmetros teoricos conhecidos (ex: proporções mendelianas) => =a-1
Binomial com P estimado a partir da amostra => =a-2
Parâmetros da dist (t e normal) estimados a partir da média e da variância => =a-3

* n<25 muito mau => aumentar n


IV. Estimativas e testes de hipóteses
IV.8. Ajustamento a uma distribuição de frequências

Teste 2
Principio: as diferenças entre valores observados e teoricos são elevadas ao quadrado.
Cada quadrado calculado é dividido pela frequência teorica = correcção necessaria
porque uma diferença de 10 sobre 12 é mais importante do que sobre 120.
O parâmetro X2 representa a soma destas proporções. X2 segue aproximadamente
uma distribuição de 2 com  graus de liberdade (calculo de  identico a do teste G).
teste unilateral (Tabela D, Rohlf e Sokal)

(f
-ˆ)2
f
X
2
 
 fˆ 
  Frequências
absolutas
Condições nesta formula

ˆ
fmin  5
*
* n < 25 Muito mau => aumentar n
IV. Estimativas e testes de hipóteses
IV.8. Ajustamento a uma distribuição de frequências
Tabelas de contingência
Se usam quando numero de factores > ou igual a 2 (ex: especie e estado de saude)
Para tomar em conta a possivel interacção entre os factores
As freq. Teoricas estam calculadas de maneira a ignorar as interacções.

Calculo dos parâmetros


* frequência teorica = total obs. linha * total obs. coluna / total observações
* A partir das freq. Obs e teoricas, calcular, e comparar com tabela
* =(a-1)*(b-1), com a=numero de linhas e b=numero de colunas
* Se G ou 2 calculados superiores a valore da tabela => rejeitamos H0
=> não ha independância
=> ha interacção

Você também pode gostar