Escolar Documentos
Profissional Documentos
Cultura Documentos
I. Dados Biológicos
I.1 Definições
I.2 Distribuições de frequências
I.3 Diagramas de frequência
II. Parâmetros estátisticos (estatística descriptiva)
II.1 Parâmetros de Localização
Médias
Mediana
Moda
II.2 Parâmetros de Dispersão
Intervalo de variação
Variância e desvio padrão
Coeficiente de variação
III. Distribuições (modelos teóricos de distribuição de frequência)
Distribuição binomial
Distribuição de Poisson
Distribuição normal, “Skewness” e “Kurtosis”
IV. Estimações e testes de hipóteses
Distribuição e variância de médias
Distribuição e variância de outros parâmetros
Intervalos de confiância
Distribuição t
Distribuição 2
Testes de hipóteses (distribuições t e normal)
I. Dados Biológicos I.1. Definições
Caso Geral Var. ext << Var. int. Var. ext. negligível.
Cuidado às excepções
I. Dados Biológicos I.1. Definições
Raciocínio estátistico=inferência estatística
Amostra 1
População Amostra 2
Amostra 3
2 casos possíveis …
- população teórica conhecida
quais são as amostras que podemos obter desta população?
- população desconhecida (amostra observada)
que podemos deduzir (=inferir) sobre esta população desconhecida?
(tomando em conta a resposta a 1ª pergunta sobre a pop. conhecida)
Tipos de variáveis:
-Variável quantitativa:
Tabelas:
Variável qualitativa
I. Dados Biológicos I.2. Distribuições de frequências
É preciso ordenar os dados por classe, se não temos uma infinidade de valores.
I. Dados Biológicos I.2. Distribuições de frequências
Valores no limite:
escolher de colocar na classe anterior ou seguinte
Número de classes:
Na prática < 20
Intervalo de classe:
as frequências só são comparáveis com intervalos idêntícos.
Senão, comparar densidades de frequência
(f’=f/i , i=tamanho do intervalo)
I. Dados Biológicos I.3. Diagramas de frequência
20
Frequência (f)
15
10
0
9 10 11 12 13 14 15 16 17 18 19 20
Comprimento dos peixes (cm)
I. Dados Biológicos I.3. Diagramas de frequência
Exemplo de utilização:
evolução de uma população de peixes
Método de Petersen:
evolução, dinâmica das populações
Existem...
1.6
Nitrogen content (%)
1.5
1.4 Parâmetros de LOCALIZAÇÂO
1.3
1.2
ex: média
1.1 ordem de grandeza da variável
1.0
0.9
0.8
0 1 2 3 4 5 6 Parâmetros de DISPERÇÂO
Date ex: desvio padrão
variabilidade da variável
II. Parâmetros estátisticos II. 1. Parâmetros de Localização
Média aritmética
Em caso de n muito elevado e
x
x de uma distribuição por classes,
cálculo simplificado:
n
x
fx i i
N N:
numero total
Para uma variável discontínua, xi de amostras
observadas
representa o valor de x na classe i;
n: numero total de
individuos observados para uma variável contínua, xi
representa o meio do intervalo da
classe i => perda de precisão no
cálculo da média => preferivel
calcular x do que fx.
II. Parâmetros estátisticos II. 1. Parâmetros de Localização
n
1
GMx
n
antilog
logx
n x
i
i
Mediana 5
frequências
4
a distribuição de frequência f
em 2 metades iguais (igual 3
número de observações em
F
2
cada metade).
1
ex: 14, 15, 16, 17, 25
=> mediana = 16 0
14 15 16 17 18 19 20 21 22 23 24 25
valor da variável
Moda
Valor da variável com
maior número de
observações
"moda"
II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão
Intervalo de variação
Diferença entre o valor mais baixo e o mais alto da amostra
SSx
x
2
xx 2
Desvio padrão da amostra:
s
n
II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão
SS f(
x
i)i
x
x
2
N N
s i i
N
Frequências N:
Absolutas numero total
Nestas formulas de amostras
observadas
II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão
Bon estimador:
várias amostras são tiradas de uma população, cada uma dá
um valor do estimador. A média dos valores do estimador é
igual (ou muito próxima) ao valor do parâmetro
correspondente da população.
II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão
x
x
é um bom estimador de , média da população
n
xx
2
não é um bom estimador de var. da pop. 2
s2 subestimação da var. da pop.=> correcção
n
xx
2
Ratio n-1 aumenta s2 =>
s2 é um bom estimador de var. da pop. 2
n1
n 1 = graus de liberdade
Paradoxalmente, s xx
2
subestima
n1
Para o desvio padrão, um factor de correcção
suplementar é necessário: Cn
II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão
x
x
2
bom estimador de
Cs
C
n n
n1
x
x
2
Cs
C
n n
n1
1s
cv
*
1 100
4x
n
xx
2
s
n1
Para n > 25, a correcção é negligível (< 1%).
III. Distribuições
Modelos teóricos de distribuição de frequências
25
20
15
10 distribuição de frequências
5 observada, esta pode ser
0
9 10 11 12 13 14 15 16 17 18 19 20
comparada a modelos teóricos.
Estes modelos são baseados
Comprimento dos peixes (cm)
sobre o acaso
(com a probabilidade de um
evento ocorrer).
III. Distribuições III.1. Distribuição binomial
Exemplos:
C (P) ...
C (P2Q) ... C
f(x) x x n
P Q x
(contaminado) NC (PQ) ... n
NC (PQ2) ...
... Com
C (QP2) ...
C (QP) ... n!
NC (Q2P) ... C
x
NC (Q) C (Q2P)
...
...
n
nx!
x!
(não contaminado) NC (Q2)
NC (Q3)
...
...
x f(x) x f(x) x f(x) x f(x)
0 Q 0 Q2 0 Q3 0 Qn
1 P 1 PQ+QP=2PQ 1 PQ2+QPQ+Q2P=3PQ2 1 Cn1PQn1
2 P2 2 P2Q+PQP+QP2=3P2Q 2 Cn2P2Qn2
3 P3 x CnxPxQnx
n Pn
III. Distribuições III.1. Distribuição binomial
f (0) Qn
nxP
f(
x)
1 f(
x) Frequências
relativas
x1Q nesta formula
III. Distribuições III.1. Distribuição binomial
x
(
Ex
m
)
f
(x)
i i
x nP
2
sv
f
(x
)(
x
i i
2
x
)
nPQ
x
Q
x
(
1P)
x nP Frequências
relativas
s2 nPQ nestas formulas
Comentários: s2 x
Se P=Q=0.5 <=> distribuição simétrica
Se PQ <=> distribuição assimétrica
III. Distribuições III.1. Distribuição binomial
Média x
P
n
PQ
Variância s
2
x
n n
2) Repulsão
III. Distribuições III.1. Distribuição binomial
1) Agregação
"caudas" da distribuição obs. com maiores frequências
2) Repulsão
repulsão entre animais contaminados,
disposição regular dos contaminados entre os
não contaminados.
Distribuição de Poisson
x
x
Frequência f(x)ex
relativa x!
nesta formula
III. Distribuições III.2. Distribuição de Poisson
Variância
2
s
nPQ
xQ
x(
1P
)x
x 1
Característica da distribuição de Poisson: s2 x
1 Frequências
f (0) x relativas
e nestas formulas
x
f(
x
1)f(
x)
x1
III. Distribuições III.2. Distribuição de Poisson
x =
1) s2 x
Distribuição de Poisson = distribuição perfeitamente
aleatória. Possível explicação: os elementos (vento e chuva)
distribuem as sementes de maneira aleatória no tereno.
2) s2 x
"Clumping" - Possível explicação: as sementes desenvolvem-
se à proximidade dos arbustos crescidos de onde caíram.
3) s2 x
Repulsão - Possível explicação: os arbustos não podem
crescer à proximidade um do outro por causa da limitação
pelos recursos naturais como a água <=> espaço regular
entre os vários indivíduos.
III. Distribuições III.3. Distribuição Normal
s2 relativa
nesta formula
1) Curva de - até + :
Probabilidade (- x + ) = 1
Superfície total por baixo da curva
y
2) Integral da distribuição normal=
distribuição normal cumulativa (forma sigmóide)
Para x1: superfície por baixo da curva normal até x1
=Valor de y na curva normal cumulativa
=Probabilidade (x x1) = Px1 x1
x1 x2
φx1=probabilidade (x1 x x) se x1 x
x1 x x x1 ou probabilidade (x x x1) se x x1
III. Distribuições III.3. Distribuição Normal
Propriedades da curva
-|x1| x +|x1|
-|x1| x +|x1|
III. Distribuições III.3. Distribuição Normal
1
1 X2 xx
Y e 2
Com Y sy e X
2 s
Numero de desvios
padrões entre x e média
3s 2 s 1s x 1s 2 s 3s x
3 2 1 0 1 2 3 X
Anexa 2 Tabela A: areas da curva normal
multiplicar os valores
probabilidade φX,
para obter 2φX,
Tabela dá
por 2.
Probabilidades
correspondantes à
P=95 e 99% Tabela A, Statistical Tables, Rolf & Sokal
X=1.96 e 2.57
Tabela A, Statistical Tables, Rohlf & Sokal
III. Distribuições III.3. Distribuição Normal
Aplicação da distribuição normal reduzida
a probabilidade de x se encontrar entre os valores –x0 e +x0 ?
x xx
0xx
X 0 e (xXs
x)
s
Xs
0x
Xs
x
X s
0x
X
0XX
0
-|x0| x +|x0|
Proba (-x0 < x < x0) = Proba (X0 < X < X0) = 2φx0
Fornecida pela Tabela A
(Rholf e Sokal, Anexa 2)
dá a probabilidade corespondante à φx
=> multiplicar por 2 para obter 2φx
Exemplos
X0 = 1.96 x
-1.96s
x
x1.96s
2φx0 = 0.95
X0 = 2.57 x
-2.57s
x
x
2.57s
2φx0 = 0.99
III. Distribuições III.3. Distribuição Normal
2 Student (t) F
Normal
(Laplace-Gauss)
Distribuições contínuas
Distribuições discontínuas
Poisson
n
P0 Binomial
n pequeno
PQ
III. Distribuições
Modelos teóricos de distribuição de frequências
2 Student (t) F
Normal
(Laplace-Gauss)
Distribuições contínuas
Distribuições discontínuas
Poisson
n
P0 Binomial
n pequeno
PQ
IV. Estimativas e testes de hipóteses
IV.1. Estimativa de uma média e intervalo de confiância
=> n elevado
x Distribuição normal
n
μ x
x
X Variável normal reduzida
x
IV. Estimativas e testes de hipóteses
IV.1. Estimativa de uma média e intervalo de confiância
Exemplo:
3
Amostra com n=100, x=10, s=3 => sx 0.3
100
2φx = 95% intervalo = 100.60 = [9.40 , 10.60]
2φx = 99% intervalo = 100.78 = [9.22 , 10.78]
IV. Estimativas e testes de hipóteses
IV.2. Distribuição t de Student e intervalo de confiância
=> n baixo
x
n baixo => ja não segue uma distribuição normal.
x
Distribuição mais achatada do que a distribuição normal =
Distribuição t de Student
Normal = t()
0.4 t(2 graus de liberdade)
f rel 0.3 t(1 grau de liberdade)
0.2
0.1
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
t
(Fig. 7.8 p.145, Sokal e Rohlf)
IV. Estimativas e testes de hipóteses
IV.3. Comparação de x a um valor fixo
=> n aumenta
Exemplo:
Para 2φt = 95% = 5% (0.05)
Amostra de 21 valores: t=2.086 (=20) (n=21)
Por comparação, o valor de X (n infinito) seria 1.96
alfa=0.05
Alfa=5%
P=0.99
P=99%
P=0.95
P=95%
Valores
correspondante a
X da distribuição
Normal
IV. Estimativas e testes de hipóteses
IV.3. Comparação de x a um valor fixo
Pergunta: = 0 ?
Ou seja: tiramos uma amostra de média x de uma população
desconhecida de média e queremos saber se esta
população desconhecida é de facto uma população ja
conhecida de média 0 .
Exemplo:
Compramos uma amostra de n sardinhas no mercado com origem não
indicada (população desconhecida) e queremos saber se são sardinhas
provenientes da população da Costa Portuguesa.
Utilizamos x = n° de vertebras
Amostra x (estimador de )
População portuguesa: 0 (conhecida porque estudada).
IV. Estimativas e testes de hipóteses
IV.3. Comparação de x a um valor fixo
Intervalo:
Na pratica
x μ0
Calcular e comparar com valores da tabela
sx
(t ou X consoante o valor de n).
x μ0
Se for superior a t ou X, hipotese = 0 rejeitada
sx
com risco 1 - 2φt ou 1 - 2φX
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)
Exemplo
1° Caso
Pop. do Mediterrâneo: média = 51.0
Pop. do Golfo de Gascogne: média = 51.3
2 hipoteses exclusivas com distribuições muito proximas
Mediterrâneo: 0 = 51.0 Golfo: 1 = 51.3
H0: = 0 e H1: = 1 são as unicas 2 hipoteses possiveis
M G
2.5%
50 51 52 53
x
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)
Rejeitamos H0 porque a probabilidade de x ser superior a 51.4
com H0 verdadeiro é inferior a 2.5%.
H0 verdadeira H0 falsa
H1 falsa H1 verdadeira Risco muito
x >51.4 elevado,
Erro I Não podemos
H0 rejeitada OK tomar decisão
Risco = 2.5%
H1 aceite
x <51.4
Erro II
H0 aceite OK
Risco b= 69%
H1 rejeitada
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)
Calculo do riso beta:
O risco beta corresponde a area purpura até o valor limiar de decisão 51.4.
Para conhecer a probabilidade (ou percentagem de risco) correspondante,
Temos que calcular o X correspondante. Ja sabemos que na curva do golfo,
A aerea até a média 51.3 corresponde a P=0.5 (50%),
x 51
.
4
51
.30.
1
X
X 0
.
5
x 2
/ 1000.
2
Na tabela Normal, entramos nos “standard deviation units” com o valor 0.50
e obtemos a probabilidade 0.1915 (desta vez não multiplicamos por dois, porque
só queremos um lado da curva)
2° Caso
2 hipoteses exclusivas com distribuições afastadas
Pop. do Mediterrâneo: 0 = 51.0
Pop. do Atlântico Norte: 1 = 52.0
n = 100 e s = 2 => sx= 0.2 e 1.96*sx 0.4
M A
2.5%
50 51 52 53
x
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)
Escolhemos tambem 51.4 como limiar de decisão:
H0 verdadeira H0 falsa
H1 falsa H1 verdadeira
x >51.4
Erro I
H0 rejeitada OK
Risco = 2.5% Potencia do
H1 aceite teste > 99%
x <51.4
Erro II
H0 aceite OK
Risco b= 69%
0.14%
H1 rejeitada
3° Caso
Numero elevado de distribuições de onde a amostra pode ter sido tirada <=>
Muitas origens possiveis para as sardinhas.
Continuamos a querer saber se as sardinhas são do Mediterrâneo.
Mas desta vez devemos considerar 2 limiares de decisão
(50.6 e 51.4) porque existem distribuições com
< 0 e outras com > 0 .
M
50 51 52
x
Aqui teste bilateral com =2.5+2.5=5%
H0 rejeitada quando x se encontrar fora do intervalo [50.6, 51.4]
IV. Estimativas e testes de hipóteses
IV.4. Erros associados aos testes (tipo I e tipo II)
3° Caso...
Amostra 1: d1 sd1 n
Amostra 2: d2 sd2 n
...
...
...
Amostra z: dn sdz n
d - tsd d d + tsd
H0: δ 0
<=> o tratamento não tem qualquer efeito sobre a população.
d δ d
dδ ts <=> t (e δ 0 em H0 ) <=> t
d
sd sd
Vamos comparar d e t
sd
d
Se for superior a t, a probabilidade é fraca de δ 0
sd
t geralmente escolhido para 2φt = 95% ou 99% (teste bilateral)
IV. Estimativas e testes de hipóteses
IV.5. Método dos valores emparelhados
P(1
P)
P= p e σp com =médiap das prop. obs. em i amostras
n
p(1
p)
p estimador de P e sp estimador de σp
n
Ex: p(1
p)
n=100 p=0.5 => s
p 0.05
n
* P tem uma probabilidade 2φX=95% de se encontrar no intervalo
[p - 1.96 sp , p + 1.96 sp ] [0.4 , 0.6]
Condições desfavoráveis:
* n elevado mas P0.02 ou P0.98 (Poisson)
* n 10 (binomial)
Em ambos casos, não existe maneira simples de calcular intervalo
IV. Estimativas e testes de hipóteses
IV.7. Comparação de 2 médias
H0: ? μ1 μ2
dx1 x2
d-d
Distribuição normal de d: X Variavel normal reduzida
σd
σd
2
σx
2
1
σ2
x2
d μ1 μ2
IV. Estimativas e testes de hipóteses
IV.7. Comparação de 2 médias
s
1 s
2 2
s
d(s
xs
2 2
x) 2
n1 n
1 2
2
d-d
aproxima X
sd
Se H0 <=> μ1 μ2 <=> d 0 <=> d
-dd-
0d
X
s
d s
d s
d
d
Comparamos aos valores de X da tabela
sd
d
Se > 1.96 * => Rejeitamos H0, aceitamos μ1 μ2
sd diferença significativa
coeficiente de segurança=95%, risco =5%
d
Se > 2.58 ** => Rejeitamos H0, aceitamos
sd diferença altamente significativa
coeficiente de segurança=99%, risco =1%
d
Se < 1.96 => Não é possivel rejeitar H0 com
sd coeficiente de segurança suficiente =>
não podemos concluir
(mas limite de 5% subjectivo, ver caso a caso)
IV. Estimativas e testes de hipóteses
IV.7. Comparação de 2 médias
2º Caso (n1 e n2 pequenos <30):
D D
2 1 1
Com D = disperção
s
d 1
= soma dos quadrados
n1n2-
2n
1 n
2 (x
x)
2
d
Comparamos aos valores de t da tabela, para = n1+n2-2
sd
Condições de utilização:
* n1 e n2 elevados: não é necessario verificar a homogeneidade das variâncias,
nem a normalidade da distribuição de x
* n1 e n2 pequenos:
* se n1 = n2 : o teste t é um teste robusto
condições identicas ao teste com n1 e n2 elevados.
* se n1 n2 : verificar normalidade da distribuição de x e
homogeneidade das variâncias (teste X2).
* independência das amostras: os individuos das 2 amostras devem ser
independentes. (ex: evitar comparar os mesmos individuos antes e depois de um
tratamento, neste caso ver método dos valores emparelhados).
IV. Estimativas e testes de hipóteses
IV.7. Comparação de 2 médias
Verificação da homogeneidade das variâncias (=homoscedasticidade):
Para comparar 2 variâncias: teste F
(para mais de 2, teste F não valido, existem outros testes).
Amostra 1: s12 s12 s22
Amostra 2: s22 F 2 ou
s2 s1 2
Distribuição de F
Na pratica:
Dividir a maior das 2 variâncias ( ) pela outra
s12 ( ) => F s22
Comparar com F da tabela (F de Rohlf e Sokal)
para um risco e graus de liberdade 1 = n-1 e 2 = n-1
Precaução:
Teste valido se as distribuições são normais.
Senão: transformação dos dados para normalisar as distribuições.
IV. Estimativas e testes de hipóteses
IV.8. Ajustamento a uma distribuição de frequências
Necessidade de comparar, por um teste estatistico, frequências observadas e
frequências teoricas (por exemplo para uma das distribuições estudadas: binomial,
Poisson, normal).
f
G2fLn
ˆ
Frequências
absolutas
f nesta formula
IV. Estimativas e testes de hipóteses
IV.8. Ajustamento a uma distribuição de frequências
Condições e correcções:
ˆ
fmin 5
*
* Correcção de Williams (a2): G Frequências
dividir G por um factor
G
cor
a21 absolutas
=> recomandada em todos os casos 1 6n
ν
nesta formula
No exemplo Wild/mutante:
G = 10.965, Factor = 1.006, Gcor = 10.905***
* Calculo de :
Parâmetros teoricos conhecidos (ex: proporções mendelianas) => =a-1
Binomial com P estimado a partir da amostra => =a-2
Parâmetros da dist (t e normal) estimados a partir da média e da variância => =a-3
Teste 2
Principio: as diferenças entre valores observados e teoricos são elevadas ao quadrado.
Cada quadrado calculado é dividido pela frequência teorica = correcção necessaria
porque uma diferença de 10 sobre 12 é mais importante do que sobre 120.
O parâmetro X2 representa a soma destas proporções. X2 segue aproximadamente
uma distribuição de 2 com graus de liberdade (calculo de identico a do teste G).
teste unilateral (Tabela D, Rohlf e Sokal)
(f
-ˆ)2
f
X
2
fˆ
Frequências
absolutas
Condições nesta formula
ˆ
fmin 5
*
* n < 25 Muito mau => aumentar n
IV. Estimativas e testes de hipóteses
IV.8. Ajustamento a uma distribuição de frequências
Tabelas de contingência
Se usam quando numero de factores > ou igual a 2 (ex: especie e estado de saude)
Para tomar em conta a possivel interacção entre os factores
As freq. Teoricas estam calculadas de maneira a ignorar as interacções.