Aulas Teóricas - Professor Stephane

Bases de estatística
I. Dados Biológicos
I.1 Definições
I.2 Distribuições de frequências
I.3 Diagramas de frequência
II. Parâmetros estátisticos (estatística descriptiva)
II.1 Parâmetros de Localização
Médias
Mediana
Moda
II.2 Parâmetros de Dispersão
Intervalo de variação
Variância e desvio padrão
Coeficiente de variação
III. Distribuições (modelos teóricos de distribuição de frequência)
Distribuição binomial
Distribuição de Poisson
Distribuição normal, “Skewness” e “Kurtosis”
IV. Estimações e testes de hipóteses
Distribuição e variância de médias
Distribuição e variância de outros parâmetros
Intervalos de confiância
Distribuição t
Distribuição 2
Testes de hipóteses (distribuições t e normal)
I. Dados Biológicos I.1. Definições
estatística Tratamento de dados numéricos→conclusões
Variabilidade Um carácter que pode adquirir diferentes

valores (quantitativas ou qualitativas) é uma
variável. (ex: Cor de cabelo, altura…)
Variabilidade externa Uma amostra medida várias vezes dá vários

valores embora se trata da mesma amostra. As
diferenças são devidas à falta de précisão do
aparelho utilizado, ou da pessoa que mede. A
variabilidade é externa à amostra
Variabilidade interna Variabilidade que depende da amostra medida.

(ex. Altura dos alunos, o valor depende do aluno
medido).
Caso Geral Var. ext << Var. int. Var. ext. negligível.
Cuidado às excepções
I. Dados Biológicos I.1. Definições
Raciocínio estátistico=inferência estatística
Amostra 1
População Amostra 2
Amostra 3
2 casos possíveis …
- população teórica conhecida
quais são as amostras que podemos obter desta população?
- população desconhecida (amostra observada)
que podemos deduzir (=inferir) sobre esta população desconhecida?
(tomando em conta a resposta a 1ª pergunta sobre a pop. conhecida)
Convenção para identificar os parâmetros estátisticos:

- Parâmetros de população: alfabeto grego (ex: )
- Parâmetros de amostras: alfabeto latino (ex: s)
I. Dados Biológicos I.2. Distribuições de frequências
Os dados numéricos são ordenados para ser apresentados.
Tipos de variáveis:
-Variável qualitativa (ex: espécie)
-Variável quantitativa:
* discontínua (ex: número de embriões na bolsa incubadora

de uma fêmea de crustáceo)
* contínua (ex: comprimento dos peixes)

I. Dados Biológicos
I.2. Distribuições de frequências
Tabelas:
Variável qualitativa
Variável quantitativa discontínua

Variável quantitativa contínua
É preciso ordenar os dados por classe, se não temos uma infinidade de valores.
Valores no limite:
escolher de colocar na classe anterior ou seguinte
Número de classes:
Na prática < 20
Intervalo de classe:
as frequências só são comparáveis com intervalos idêntícos.
Senão, comparar densidades de frequência
(f’=f/i , i=tamanho do intervalo)
I. Dados Biológicos I.3. Diagramas de frequência
Diagrama de pontos (mais usado para frequências cumuladas):
Para as variáveis contínuas, utilizar o meio da classe como valor de x.

Histograma (mais usado para frequências não cumuladas):
Diagrama bem adaptado às variáveis quantitativas contínuas.
Possibilidade de histograma em frequência cumulada
(=integral do histograma em frequência).
25
20
Frequência (f)
15
10
0
9 10 11 12 13 14 15 16 17 18 19 20
Comprimento dos peixes (cm)
Exemplo de utilização:
evolução de uma população de peixes
Método de Petersen:
evolução, dinâmica das populações
Janeiro Fevereiro Março Abril
"moda" O tamanho dos moda 1 moda 2 Mais juvenis e

peixes aumenta alguns peixes
velhos mortos
II. Parâmetros estátisticos Estatística descriptiva
Existem...
1.6
Nitrogen content (%)
1.5
1.4 Parâmetros de LOCALIZAÇÂO
1.3
1.2
ex: média
1.1  ordem de grandeza da variável
1.0
0.9
0.8
0 1 2 3 4 5 6 Parâmetros de DISPERÇÂO
Date ex: desvio padrão
 variabilidade da variável
II. Parâmetros estátisticos II. 1. Parâmetros de Localização
Média aritmética
Em caso de n muito elevado e
x
 x de uma distribuição por classes,
cálculo simplificado:
n
x
fx i i
N N:
numero total
Para uma variável discontínua, xi de amostras
observadas
representa o valor de x na classe i;
n: numero total de
individuos observados para uma variável contínua, xi
representa o meio do intervalo da
classe i => perda de precisão no
cálculo da média => preferivel
calcular x do que fx.
Média geométrica (para dados transformados com log)
n
1

GMx
n

antilog
logx
n x
i
i
Utilizada quando uma transformação log é necessária para

poder tratar os dados com um teste estátistico paramétrico.
Média harmónica (para dados transformados com 1/x)
1 1 Utilizada quando 1uma


Hx1/  transformação é necessária.
n x x
Mediana 5
Valor da variável que divide
frequências
4
a distribuição de frequência f
em 2 metades iguais (igual 3
número de observações em
F
2
cada metade).
1
ex: 14, 15, 16, 17, 25
=> mediana = 16 0
14 15 16 17 18 19 20 21 22 23 24 25
valor da variável
Moda
Valor da variável com
maior número de
observações
"moda"
II. Parâmetros estátisticos II. 2. Parâmetros de Dispersão
Intervalo de variação
Diferença entre o valor mais baixo e o mais alto da amostra
Soma dos quadrados: 

SS xx 2

SSx
x
2
Variância (ou quadrado médio):

2
s  
n n
xx 2
Desvio padrão da amostra:
s
n
Variância numa distribuição por classes
Soma dos quadrados: 


SS f(
x x
i) i
x 2
SS f(
x 
i)i
x 
x
2
Variância (ou quadrado médio): s 

2
N N
Desvio padrão da amostra: f(

x x
) x 2
s i i
N
Frequências N:
Absolutas numero total
Nestas formulas de amostras
observadas

Na prática, mais interesse na população de onde as
amostras foram tiradas
são procurados bons estimadores dos parâmetros

estátisticos da população.
Bon estimador:
várias amostras são tiradas de uma população, cada uma dá
um valor do estimador. A média dos valores do estimador é
igual (ou muito próxima) ao valor do parâmetro
correspondente da população.
x
 x
é um bom estimador de , média da população
n
xx
2
não é um bom estimador de var. da pop. 2
s2  subestimação da var. da pop.=> correcção
n
xx
2
Ratio n-1 aumenta s2 =>
s2  é um bom estimador de var. da pop. 2
n1
n  1 = graus de liberdade
Paradoxalmente, s xx
2
subestima 
n1
Para o desvio padrão, um factor de correcção
suplementar é necessário: Cn
Cn com n=número de observações na amostra

x
x
2
bom estimador de 
Cs
C

n n
n1
Para n > 30, Cn é negligível (correcção < 1%)
Existem tabelas que fornecem Cn para valores de n até 30

(cf. Anexa 1, tabela ii, statistical Tables, Rohlf & Sokal).
Anexa 1 Cn correcção para desvio padrão

x
x
2
Cs
C

n n
n1
Tabela ii, Statistical Tables, Rohlf & Sokal

Coeficiente de variação (cv)

Utilidade do CV:
O desvio padrão depende do valor da média, em geral.
Ex: o desvio padrão do tamanho da cauda de

elefante é superior ao desvio padrão do tamanho
da cauda de rato. Não significa que a primeira
variável tenha mais variabilidade do que a segunda.
O cv permite a comparação da variabilidade

s de diferentes variáveis.
cv 100
x O cv corresponde ao desvio padrão expresso
como percentagem da média:
Coeficiente de variação corrigido (cv*)
O cv no entanto, subestima o coeficiente de variação

da população => utiliza-se a fórmula corrigida:
 1s

cv 
*
1 100
 4x
n
Neste caso, não se usa correcção por Cn, mas apenas:
xx
2
s
n1
Para n > 25, a correcção é negligível (< 1%).
III. Distribuições
Modelos teóricos de distribuição de frequências
25
20
Para tentar perceber uma

Frequência (f)
15
10 distribuição de frequências
5 observada, esta pode ser
0
9 10 11 12 13 14 15 16 17 18 19 20
comparada a modelos teóricos.
Estes modelos são baseados
Comprimento dos peixes (cm)
sobre o acaso
(com a probabilidade de um
evento ocorrer).
III. Distribuições III.1. Distribuição binomial
O evento observado só pode tomar 2 valores.
Exemplos:
Numa população de insectos, um indivíduo pode

ser "contaminado" ou "não contaminado" por um
determinado virus.
Ou então lançamos uma moeda e podemos obter

uma ou outra face.
Consideramos o exemplo dos insectos contaminados:
 Probabilidade de um evento acontecer (insecto ser contaminado) =

proporção de insectos contaminados na população = P
 Probabilidade de um evento não acontecer (insecto não ser

contaminado) = Q = 1-P
 n = Tamanho da amostra (= nº de individuos na amostra)

= nº de abelhas na amostra
 x = nº de insectos contaminados observados na amostra
 f = frequência relativa de amostras com x insectos contaminados
 N = numero total de amostras observadas

n=1 n=2 n=3 ... n
...
C (P3) ... Frequência
C (P2)
... relativa
NC (P2Q) ...
nesta formula
C (P) ...
C (P2Q) ... C
f(x) x x n
P Q x
(contaminado) NC (PQ) ... n
NC (PQ2) ...
... Com
C (QP2) ...
C (QP) ... n!
NC (Q2P) ... C
x
NC (Q) C (Q2P)
...
...
n
nx!
x!
(não contaminado) NC (Q2)
NC (Q3)
...
...
x f(x) x f(x) x f(x) x f(x)
0 Q 0 Q2 0 Q3 0 Qn
1 P 1 PQ+QP=2PQ 1 PQ2+QPQ+Q2P=3PQ2 1 Cn1PQn1
2 P2 2 P2Q+PQP+QP2=3P2Q 2 Cn2P2Qn2
3 P3 x CnxPxQnx
n Pn
Distribuição das frequências = distribuição binomial

Se P=0.4 Q=0.6 0.50
Para n=3 0.45
0.40
0.35
f(0)= Q3 =0.216 0.30
f(1)= 3PQ2 =0.432 0.25
f(2)= 3P2Q =0.288 0.20
f(3)= P3 =0.064 0.15
0.10
0.05
0.00
Computação dos valores de F(x) 0 1 2 3
f (0) Qn

nxP
f(
x)
1 f(
x) Frequências
relativas

x1Q nesta formula
Média do número de insectos contaminados por amostra:
x
(
Ex
m
) 
f
(x)
i i
x nP
Variância deste número de insectos contaminados por amostra:

2
sv
f
(x
)(
x
i i
2
x
)
nPQ
x
Q
x
(
1P)
x  nP Frequências
relativas
s2  nPQ nestas formulas
Comentários: s2  x
Se P=Q=0.5 <=> distribuição simétrica
Se PQ <=> distribuição assimétrica
Distribuição de uma percentagem (proporção)

em vez do nº de insectos:
x
Variável
n
Média  x
 P
n
PQ
Variância s 
2
x
n n
Testes para verificar se a distribuição é binomial

apresentados no próximo capítulo...
Exemplo de aplicação de distribuição binomial:
A observação de uma distribuição binomial significa que os

insectos (neste caso) são distribuidos de maneira
totalmente aleatória.
Em biologia, há casos em que a distribuição pode afastar-se

do modelo téorico aleatório binomial:
1) Agregação (= "clumping" = "contagious distribution")
2) Repulsão
1) Agregação
"caudas" da distribuição obs. com maiores frequências
<=> Mais amostras com todos os animais contaminados (ou

quase) ou com nenhum animal contaminado. Possível
explicação biológica: num sítio de onde foi tirada uma
amostra, um animal contaminado contamina todos os
outros.
2) Repulsão
repulsão entre animais contaminados,
disposição regular dos contaminados entre os
não contaminados.
=> Não há muitas amostras com mais de um animal

contaminado. Mais difícil encontrar uma
explicação biológica: Talvez alteração do
comportamento por causa da contaminação do
sistema nervoso?
III. Distribuições III.2. Distribuição de Poisson
Distribuição de frequências (discreta) do número de vezes em que um

evento raro acontece. Caso particular da distribuição binomial em que
P<<Q (na prática P < 0.1) e n   (n elevado na prática)
Propriedades da distribuição Poisson

1) o evento observado é raro: x << n P 0
2) o evento observado é aleatório

os eventos são independentos = uma ocorrência numa
amostra não altera a probabilidade de outra ocorrências
Distribuição de Poisson
x
x
Frequência f(x)ex
relativa x!
nesta formula
Variância
2
s 
nPQ
xQ
x(
1P
)x
x 1
Característica da distribuição de Poisson: s2  x
Computação dos valores de F(x)
1 Frequências
f (0)  x relativas
e nestas formulas
x
f(
x 
1)f(
x)
x1
Representação gráfica de f(x) vs x para diferentes valores de x
Usa nP=média ()

Podemos escolher n ou P e obtemos
todas as curvas intermediarias.
f(x)
x =
Gráfico 5.3 p 87 (Biometry, Sokal & Rholf)

Exemplo de aplicação da distribuição de Poisson
Distribuição espacial dos indivíduos de uma espécie rara de arbusto
numa charneca (quase impossível encontrar num quadrado).
1) s2  x
Distribuição de Poisson = distribuição perfeitamente
aleatória. Possível explicação: os elementos (vento e chuva)
distribuem as sementes de maneira aleatória no tereno.
2) s2  x
"Clumping" - Possível explicação: as sementes desenvolvem-
se à proximidade dos arbustos crescidos de onde caíram.
3) s2  x
Repulsão - Possível explicação: os arbustos não podem
crescer à proximidade um do outro por causa da limitação
pelos recursos naturais como a água <=> espaço regular
entre os vários indivíduos.
III. Distribuições III.3. Distribuição Normal
Distribuição Normal = Distribuição de Laplace-Gauss (comum na natureza)

Muitas variáveis em Biologia são contínuas (peso, conprimento, …)
2
1
xx
1  
f(
x)
y e 2s Frequência

s2 relativa
nesta formula
A posição da curva depende de x

A forma da depense de s
A e B têm o mesmo desvio padrão
mas a média é mais elevada na
curva B.
B e C têm a mesma média, mas s é
menor na curva C.
Propriedades da curva
1) Curva de - até +  :
Probabilidade (-   x  +  ) = 1
Superfície total por baixo da curva
y
2) Integral da distribuição normal=
distribuição normal cumulativa (forma sigmóide)
Para x1: superfície por baixo da curva normal até x1
=Valor de y na curva normal cumulativa
=Probabilidade (x  x1) = Px1 x1
3) Probabilidade (x1  x  x2)=

Superficie por baixo da curva entre x1 e x2
x1 x2
φx1=probabilidade (x1  x  x) se x1  x
x1 x x x1 ou probabilidade (x  x  x1) se x  x1
Propriedades da curva
4) 2φx1 = probabilidade x situado entre x1 e o seu valor simétrico

em relação a x
-|x1| x +|x1|
1-2φx1 = probabilidade x situado fora deste intervalo
-|x1| x +|x1|
Equação da distribuição => podemos calcular Px para cada valor de x.

Mas: cálculo diferente para cada distribuição normal (depende de x e de s).
Solução: Curva normal reduzida.
1
1  X2 xx
Y e 2
Com Y  sy e X

2 s
Numero de desvios
padrões entre x e média
X= variável normal reduzida (= standard normal deviate)
PX1 = Px1 mas o cálculo de PX independente de x e s

=>Tabela de valores de PX em função de X => 1 tabela só
(Calcular a partir da Tabela A de Rohlf e Sokal, Anexa 2,)
Curva normal reduzida.
 3s  2 s  1s x 1s 2 s 3s x
 3  2 1 0 1 2 3 X
Anexa 2 Tabela A: areas da curva normal
multiplicar os valores
probabilidade φX,
para obter 2φX,
Tabela dá
por 2.
Probabilidades
correspondantes à
P=95 e 99% Tabela A, Statistical Tables, Rolf & Sokal
X=1.96 e 2.57
Tabela A, Statistical Tables, Rohlf & Sokal
Aplicação da distribuição normal reduzida
a probabilidade de x se encontrar entre os valores –x0 e +x0 ?
x xx
0xx
X 0 e (xXs
x)
s
Xs

0x
Xs
x
X s
0x
X


0XX
0
-|x0| x +|x0|
Proba (-x0 < x < x0) = Proba (X0 < X < X0) = 2φx0
Fornecida pela Tabela A
(Rholf e Sokal, Anexa 2)
dá a probabilidade corespondante à φx
=> multiplicar por 2 para obter 2φx
Exemplos
X0 = 1.96 x
-1.96s
x
x1.96s
 2φx0 = 0.95
X0 = 2.57 x
-2.57s
x
x
2.57s
2φx0 = 0.99
Distribuições que não respeitam a normalidade: Skewness e Kurtosis
Skewness : distribuição assimétrica
Kurtosis : simétrica mas as proporções no centro e asas da

distribuição não respeitam a distribuição normal.
Distribuições que não respeitam a normalidade: Skewness e Kurtosis
Skewness : distribuição assimétrica
Kurtosis : simétrica mas as proporções no centro e asas da

distribuição não respeitam a distribuição normal.
2 Student (t) F
Normal
(Laplace-Gauss)
Distribuições contínuas
Distribuições discontínuas
Poisson
n
P0 Binomial
n pequeno
PQ
2 Student (t) F
Normal
(Laplace-Gauss)
Distribuições contínuas
Distribuições discontínuas
Poisson
n
P0 Binomial
n pequeno
PQ
IV. Estimativas e testes de hipóteses
IV.1. Estimativa de uma média e intervalo de confiância
=> n elevado
Muitas amostras de efectivo n (n elevado) tiradas de uma

população infinita. Cada amostra tem uma média x.
A média de todos os x aproxima μ, a média teórica da população.
Distribuição dos valores de x:

x  Distribuição normal
n
μ x
x 
X Variável normal reduzida
x
IV.1. Estimativa de uma média e intervalo de confiância
Construcção do intervalo de confiância:
Na prática, μ e  x não são conhecidos:

s
sx 
n
O intervalo x  Xs x tem a probabilidade 2φx de conter μ
Utiliza-se essencialmente: X = 1.96 para 2φx = 95%

X = 2.57 para 2φx = 99%
Exemplo:
3
Amostra com n=100, x=10, s=3 => sx  0.3
100
2φx = 95% intervalo = 100.60 = [9.40 , 10.60]
2φx = 99% intervalo = 100.78 = [9.22 , 10.78]
IV.2. Distribuição t de Student e intervalo de confiância
=> n baixo
x
n baixo => ja não segue uma distribuição normal.
x
Distribuição mais achatada do que a distribuição normal =
Distribuição t de Student
Normal = t()
0.4 t(2 graus de liberdade)
f rel 0.3 t(1 grau de liberdade)
0.2
0.1
0
-5 -4 -3 -2 -1 0 1 2 3 4 5
t
(Fig. 7.8 p.145, Sokal e Rohlf)
IV.3. Comparação de x a um valor fixo
=> n aumenta
Distribuição de t  distribuição normal (dist. hipernormal)

mesma contrucção do intervalo, mas utilização de t e 2φt
(em vez de X e 2φx).
Tabela B de Rohlf e Sokal

(entrar com os graus de liberdade  = n-1 e  = 1-2φt
Exemplo:
Para 2φt = 95%  = 5% (0.05)
Amostra de 21 valores: t=2.086 (=20) (n=21)
Por comparação, o valor de X (n infinito) seria 1.96
O intervalo x  ts x tem a probabilidade 2φt de conter μ

alfa=0.01
Alfa=1%
Tabela de Student
alfa=0.05
Alfa=5%
P=0.99
P=99%
P=0.95
P=95%
Valores
correspondante a
X da distribuição
Normal
Pergunta:  = 0 ?
Ou seja: tiramos uma amostra de média x de uma população
desconhecida de média  e queremos saber se esta
população desconhecida é de facto uma população ja
conhecida de média 0 .
Exemplo:
Compramos uma amostra de n sardinhas no mercado com origem não
indicada (população desconhecida) e queremos saber se são sardinhas
provenientes da população da Costa Portuguesa.
Utilizamos x = n° de vertebras
Amostra  x (estimador de  )
População portuguesa: 0 (conhecida porque estudada).
Intervalo:
Proba 2φt  x - tsx x x + tsx n pequeno

2φX  x - Xsx x + Xsx n elevado
Se 0 ficar fora do intervalo calculado,

a probabilidade  = 0 < 1 - 2φt (ou 1 - 2φx se n elevado)
0 fica fora do intervalo <=> x- 0> tsx (ou Xsx)

xμ0
<=> t (ou X)
sx
Proba 2φt  x - tsx x x + tsx n pequeno

2φX  x - Xsx x + Xsx n elevado
Na pratica
x  μ0
Calcular e comparar com valores da tabela
sx
(t ou X consoante o valor de n).
x  μ0
Se for superior a t ou X, hipotese  = 0 rejeitada
sx
com risco 1 - 2φt ou 1 - 2φX
IV.4. Erros associados aos testes (tipo I e tipo II)
Exemplo
Numero de vertebras em sardinhas:

Amostra comprada: n = 100 sardinhas, média = 51.5, s = 2
1° Caso
Pop. do Mediterrâneo: média = 51.0
Pop. do Golfo de Gascogne: média = 51.3
2 hipoteses exclusivas com distribuições muito proximas
Mediterrâneo: 0 = 51.0 Golfo: 1 = 51.3
H0:  = 0 e H1:  = 1 são as unicas 2 hipoteses possiveis
M G
2.5%
50 51 52 53
x
Rejeitamos H0 porque a probabilidade de x ser superior a 51.4
com H0 verdadeiro é inferior a 2.5%.
=> aceitamos H1 porque é a unica alternativa.

Neste caso, 51.4 é o limiar de decisão.
Abordagem geral com 51.4 como limiar de decisão:
H0 verdadeira H0 falsa
H1 falsa H1 verdadeira Risco muito
x >51.4 elevado,
Erro I Não podemos
H0 rejeitada OK tomar decisão
Risco = 2.5%
H1 aceite
x <51.4
Erro II
H0 aceite OK
Risco b= 69%
H1 rejeitada
Calculo do riso beta:
Abordagem geral com 51.4 como limiar de decisão:
O risco beta corresponde a area purpura até o valor limiar de decisão 51.4.
Para conhecer a probabilidade (ou percentagem de risco) correspondante,
Temos que calcular o X correspondante. Ja sabemos que na curva do golfo,
A aerea até a média 51.3 corresponde a P=0.5 (50%),
só falta calcular a area entre 51.3 e 51.4:
x  51
.
4 
51
.30.
1
X 
X  0
.
5
x 2
/ 1000.
2
Na tabela Normal, entramos nos “standard deviation units” com o valor 0.50
e obtemos a probabilidade 0.1915 (desta vez não multiplicamos por dois, porque
só queremos um lado da curva)
A probabilidade total correspondante a area purpura é 0.50+0.19, ou seja 0.69

Daí o risco de segunda espécie egual á 69 % neste exemplo
 = risco do erro de Iª espécie = risco de rejeitar uma hipótese verdadeira

b = risco do erro de IIª espécie = risco de aceitar uma hipótese falsa
Para diminuir b , podemos escolher outro limiar de decisão:

51.3 => b=50% mas  aumenta para 5%
Potencia do teste = 1-b
Aqui teste unilateral

Só consideramos o lado da 1ª distribuição em confronto com a 2ª
distribuição.
(Os 2,5% da distribuição a baixo de 50.6 não são considerados).
2° Caso
2 hipoteses exclusivas com distribuições afastadas
Pop. do Mediterrâneo: 0 = 51.0
Pop. do Atlântico Norte: 1 = 52.0
n = 100 e s = 2 => sx= 0.2 e 1.96*sx 0.4
M A
2.5%
50 51 52 53
x
Escolhemos tambem 51.4 como limiar de decisão:
H0 verdadeira H0 falsa
H1 falsa H1 verdadeira
x >51.4
Erro I
H0 rejeitada OK
Risco = 2.5% Potencia do
H1 aceite teste > 99%
x <51.4
Erro II
H0 aceite OK
Risco b= 69%
0.14%
H1 rejeitada
Neste 2° caso, o risco b é mais fraco

=> possibilidade de tomar uma decisão se x < 51.4.
Porque ha uma menor sobreposição das distribuições comparado com o 1° caso.
Como obter o 2° caso ?

n aumenta => sx 
s
n diminui
<=> as distribuições ficam mais estreitas <=> menos sobreposição
3° Caso
Numero elevado de distribuições de onde a amostra pode ter sido tirada <=>
Muitas origens possiveis para as sardinhas.
Continuamos a querer saber se as sardinhas são do Mediterrâneo.
Mas desta vez devemos considerar 2 limiares de decisão
(50.6 e 51.4) porque existem distribuições com
 < 0 e outras com  > 0 .
M
50 51 52
x
Aqui teste bilateral com =2.5+2.5=5%
H0 rejeitada quando x se encontrar fora do intervalo [50.6, 51.4]
3° Caso...
Mas se x se encontrar no intervalo [50.6, 51.4],

não podemos calcular o risco b porque muitas distribuições
sobrepostas com a distribuição «Mediterrâneo», algumas desconhecidas.
b pode ser muito elevado => não podemos aceitar H0
Neste 3° caso, muito frequente na natureza,

é possivel rejeitar a hipotese, mas não aceita-la.
IV.5. Método dos valores emparelhados
Significado de uma variação
Amostra: valores x1, x2, x3, …, xn da variável.
Aplicamos um tratamento aos indivíduos da amostra

(dieta, fármaco, estresse, …) e voltamos a medir a variável
nos mesmos indíviduos após o tratamento.
x1 x’1 d1= x1- x’1

x2 x’2 d2= x2- x’2
Variável d
x3 x’3 d3= x3- x’3
(com média d)
…
…
xn x’n dn= xn- x’n

Amostra 1: d1 sd1 n
Amostra 2: d2 sd2 n
...
...
...
Amostra z: dn sdz n
Distribuição dos z valores de : d

média téorica δ sd
desvio padraõ calculado sd 
n
d - tsd d d + tsd
Com a Probabilidade 2φt

para que d se encontre no intervalo
Se n elevado, utilizar X (distr. Normal) em vez de t (distr. Student)
 = n-1
H0: δ  0
<=> o tratamento não tem qualquer efeito sobre a população.
δ fora do intervalo ? <=> dδ ts

d
d δ d
dδ ts <=> t (e δ  0 em H0 ) <=> t
d
sd sd
Vamos comparar d e t
sd
d
Se for superior a t, a probabilidade é fraca de δ  0
sd
t geralmente escolhido para 2φt = 95% ou 99% (teste bilateral)
Casos em que o teste pode ser unilateral:

Sabemos a partida que o efeito só pode ter um sentido.
Ex: o tratamento pode:
 ou não ter efeito
 ou aumentar x
(exemplo tratamento= hormona de crescimento)
Sabemos que o tratamento não pode diminuir x.

Neste caso, só consideramos um lado da distribuição:
 = 2.5% em vez de 5%
Cuidado: na tabela B de Rohlf e Sokal,

entrar com 5% para obter o valor de t,
e calcular o risco 5/2 = 2.5%
IV.6. Estimativa de uma proporção
Começamos com uma distribuição binomial:

Numa amostra de n individuos,
x possuem um caracter
n-x possuem outro caracter
P proporção na população a possuir este caracter
Queremos estimar P com intervalo

Se n muito elevado (n) e P pouco diferente de 0.5 (P0.5)
Esta distribuição pode ser aproximada a uma dist. Normal
=> podemos utilizar a distribuição normal para calcular um
intervalo de confiância de P.
Dist. normal das proporções observadas em várias amostras com
P(1
P)
P= p e σp  com =médiap das prop. obs. em i amostras
n
p(1
p)
p estimador de P e sp  estimador de σp
n
(se n elevado => melhor estimativa)
Ex: p(1
p)
n=100 p=0.5 => s
p 0.05
n
* P tem uma probabilidade 2φX=95% de se encontrar no intervalo
[p - 1.96 sp , p + 1.96 sp ]  [0.4 , 0.6]
*P tem uma probabilidade 2φX=99% de se encontrar no intervalo

[p - 2.58 sp , p + 2.58 sp ]  [0.37 , 0.63]
Comentários:
* Todos os calculos devem ser efetuados com proporções
(não como percentagem)
* Passagem binomial  normal:
só com n elevado e P pouco diferente de 0.5
se P muito afastado de 0.5 => dist. de Poisson
* O intervalo depende de P e n (para X fixado)
Podemos contruir tabelas e abacos.
Condições desfavoráveis:
* n elevado mas P0.02 ou P0.98 (Poisson)
* n  10 (binomial)
Em ambos casos, não existe maneira simples de calcular intervalo
IV.7. Comparação de 2 médias
Método indirecto, por sobreposição de intervalos:

péssimo, nunca utilizar !!!
1º Caso (n1 e n2 elevados):
amostra 1: , s1, n1x1 (população infinita: e μ)1 σ1
amostra 2: , s2, nx22 (população infinita: e μ)2 σ2
H0: ? μ1  μ2
dx1 x2
d-d
Distribuição normal de d: X Variavel normal reduzida
σd
σd
2
σx
2
1
σ2
x2
d μ1 μ2
s
1 s
2 2
s
d(s
xs
2 2
x) 2
n1 n
1 2
2
d-d
aproxima X
sd
Se H0 <=> μ1  μ2 <=> d  0 <=> d
-dd-
0d
X
  
s
d s
d s
d
d
Comparamos aos valores de X da tabela
sd
Probabilidade 5% para d > 1.96

sd
Probabilidade 1% para > 2.58
d
sd
d
Se > 1.96 * => Rejeitamos H0, aceitamos μ1  μ2
sd diferença significativa
coeficiente de segurança=95%, risco =5%
d
Se > 2.58 ** => Rejeitamos H0, aceitamos
sd diferença altamente significativa
coeficiente de segurança=99%, risco =1%
d
Se < 1.96 => Não é possivel rejeitar H0 com
sd coeficiente de segurança suficiente =>
não podemos concluir
(mas limite de 5% subjectivo, ver caso a caso)
2º Caso (n1 e n2 pequenos <30):
d segue uma t de Student só se as 2 populações tiverem a mesma variância

( σ12  σ22 )
, estimadas por s12  s22
H0 é mais estricta: H0: e μ1  μ2 σ12  σ22
D D 
2 1 1
 Com D = disperção
s
d 1

  = soma dos quadrados
n1n2-
2n
1 n
2 (x
x)
2
d
Comparamos aos valores de t da tabela, para  = n1+n2-2
sd
Procedimento identico ao teste X, com diferenças significativas, altamente

significativas ou não significativas. Em caso de diferença significativa, pode
significar que μ1  μ2 ou σ12  σ22 => comparar σ12e σ22 :
Se σ2
σ2
μ μ
1 2 1 2
Se não
2 podemos concluir quanto a
σ1 σ2 
2
μ1e μ2
O teste fica mais significativo quando n aumentar
Condições de utilização:
* n1 e n2 elevados: não é necessario verificar a homogeneidade das variâncias,
nem a normalidade da distribuição de x
* n1 e n2 pequenos:
* se n1 = n2 : o teste t é um teste robusto
condições identicas ao teste com n1 e n2 elevados.
* se n1  n2 : verificar normalidade da distribuição de x e
homogeneidade das variâncias (teste X2).
* independência das amostras: os individuos das 2 amostras devem ser
independentes. (ex: evitar comparar os mesmos individuos antes e depois de um
tratamento, neste caso ver método dos valores emparelhados).
Verificação da homogeneidade das variâncias (=homoscedasticidade):
Para comparar 2 variâncias: teste F
(para mais de 2, teste F não valido, existem outros testes).
Amostra 1: s12 s12 s22
Amostra 2: s22 F  2 ou
s2 s1 2
Distribuição de F
Nota: existem infinidade de dist. F,

 dependente de n1 e n2

n1 e n2 elevados
...
0 n1 e n2 médios
1 1 F F
Fα
n1 e n2 pequenos
1-2
Probabilidade 2 para F estar fora do intervalo [1/F , F].
Teste bilateral (mas tabela de F unilateral !)
Na pratica:
Dividir a maior das 2 variâncias ( ) pela outra
s12 ( ) => F s22
Comparar com F da tabela (F de Rohlf e Sokal)
para um risco  e graus de liberdade 1 = n-1 e 2 = n-1
Se F > F => consideramos que σ12  σ22

com risco 2 e intervalo 1-2
Se F < F => podemos aceitar a hipotese da homocedasticidade
=> podemos comparar as médias
Precaução:
Teste valido se as distribuições são normais.
Senão: transformação dos dados para normalisar as distribuições.
IV.8. Ajustamento a uma distribuição de frequências
Necessidade de comparar, por um teste estatistico, frequências observadas e
frequências teoricas (por exemplo para uma das distribuições estudadas: binomial,
Poisson, normal).
Comparação a uma distribuição teorica:

Exemplo: Gene com 2 aleles W (wild) dominante e m (mutante) recessivo.
Em teoria:
WW x mm  Wm  25%WW 50%Wm 25%mm
(F0) (F1) 75% fenotipo “wild”
(F2)
a = numero de classes = 2 (fenotipo « wild »; fenotipo mutante)

P = teorica de « wild » = 0.75
distribuição binomial
Q = proporção teorica de mutantes = 0.25
Amostra: n = 90 individuos estudados
p = observada = 80/90 = 0.89
q = 10/90 = 0.11
(Exemplo 17.1 p. 688, Sokal e Rohlf)

Fenotipo Frequ. Observada f Proporção observada Proporção teorica Frequ. teorica ft

Wild 80 P=0.89 P=0.75 67.5
mutante 10 Q=0.11 Q=0.25 22.5
n =  = 90
Teste G
Principio: Se Pp (e Qq), a probabilidade de obter as frequências observadas
com P e Q é pouco diferente da probabilidade de obter estas frequências com p e q.
<=> a razão das 2 probas  1
<=> G = 2 vezes o logaritmo desta razão, é proximo de zero
Este parametro segue aproximadamente uma distribuição de 2
com  = a-1 = numero de classes - 1 (= 1 neste exemplo).
Computação do valor de G (mais simples do que o calculo das probabilidades)
f
G2fLn

ˆ

Frequências
absolutas
f nesta formula
Comparer G calculado com 2 , teste unilateral (Tabela D, Rohlf e Sokal)
Condições e correcções:
ˆ
fmin  5
*
* Correcção de Williams (a2): G Frequências
dividir G por um factor
G 
cor
 a21 absolutas
=> recomandada em todos os casos 1 6n

ν
 nesta formula
 
No exemplo Wild/mutante:
G = 10.965, Factor = 1.006, Gcor = 10.905***
* Calculo de  :
Parâmetros teoricos conhecidos (ex: proporções mendelianas) => =a-1
Binomial com P estimado a partir da amostra => =a-2
Parâmetros da dist (t e normal) estimados a partir da média e da variância => =a-3
* n<25 muito mau => aumentar n

Teste 2
Principio: as diferenças entre valores observados e teoricos são elevadas ao quadrado.
Cada quadrado calculado é dividido pela frequência teorica = correcção necessaria
porque uma diferença de 10 sobre 12 é mais importante do que sobre 120.
O parâmetro X2 representa a soma destas proporções. X2 segue aproximadamente
uma distribuição de 2 com  graus de liberdade (calculo de  identico a do teste G).
teste unilateral (Tabela D, Rohlf e Sokal)
(f
-ˆ)2
f
X
2
 
 fˆ 
  Frequências
absolutas
Condições nesta formula
ˆ
fmin  5
*
* n < 25 Muito mau => aumentar n
Tabelas de contingência
Se usam quando numero de factores > ou igual a 2 (ex: especie e estado de saude)
Para tomar em conta a possivel interacção entre os factores
As freq. Teoricas estam calculadas de maneira a ignorar as interacções.
Calculo dos parâmetros

* frequência teorica = total obs. linha * total obs. coluna / total observações
* A partir das freq. Obs e teoricas, calcular, e comparar com tabela
* =(a-1)*(b-1), com a=numero de linhas e b=numero de colunas
* Se G ou 2 calculados superiores a valore da tabela => rejeitamos H0
=> não ha independância
=> ha interacção

Aulas Teóricas - Professor Stephane

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aulas Teóricas - Professor Stephane

Enviado por

Direitos autorais:

Formatos disponíveis

Bases de estatística

estatística Tratamento de dados numéricos→conclusões

Variabilidade Um carácter que pode adquirir diferentes

Variabilidade externa Uma amostra medida várias vezes dá vários

Variabilidade interna Variabilidade que depende da amostra medida.

Convenção para identificar os parâmetros estátisticos:

Os dados numéricos são ordenados para ser apresentados.

-Variável qualitativa (ex: espécie)

* discontínua (ex: número de embriões na bolsa incubadora

* contínua (ex: comprimento dos peixes)

Variável quantitativa discontínua

Variável quantitativa contínua

Diagrama de pontos (mais usado para frequências cumuladas):

Para as variáveis contínuas, utilizar o meio da classe como valor de x.

Janeiro Fevereiro Março Abril

"moda" O tamanho dos moda 1 moda 2 Mais juvenis e

Média geométrica (para dados transformados com log)

Utilizada quando uma transformação log é necessária para

Média harmónica (para dados transformados com 1/x)

1 1 Utilizada quando 1uma

Valor da variável que divide

Variância e desvio padrão

Soma dos quadrados: 

Variância (ou quadrado médio):

Variância numa distribuição por classes

Soma dos quadrados: 

Variância (ou quadrado médio): s 

Desvio padrão da amostra: f(

Variância e desvio padrão

são procurados bons estimadores dos parâmetros

Cn com n=número de observações na amostra

Para n > 30, Cn é negligível (correcção < 1%)

Existem tabelas que fornecem Cn para valores de n até 30

Tabela ii, Statistical Tables, Rohlf & Sokal

Coeficiente de variação (cv)

Ex: o desvio padrão do tamanho da cauda de

O cv permite a comparação da variabilidade

Coeficiente de variação corrigido (cv*)

O cv no entanto, subestima o coeficiente de variação

Neste caso, não se usa correcção por Cn, mas apenas:

Para tentar perceber uma

O evento observado só pode tomar 2 valores.

Numa população de insectos, um indivíduo pode

Ou então lançamos uma moeda e podemos obter

Consideramos o exemplo dos insectos contaminados:

 Probabilidade de um evento acontecer (insecto ser contaminado) =

 Probabilidade de um evento não acontecer (insecto não ser

 n = Tamanho da amostra (= nº de individuos na amostra)

 x = nº de insectos contaminados observados na amostra

 f = frequência relativa de amostras com x insectos contaminados

 N = numero total de amostras observadas

Distribuição das frequências = distribuição binomial

Média do número de insectos contaminados por amostra:

Variância deste número de insectos contaminados por amostra:

Distribuição de uma percentagem (proporção)

Testes para verificar se a distribuição é binomial

Exemplo de aplicação de distribuição binomial:

A observação de uma distribuição binomial significa que os

Em biologia, há casos em que a distribuição pode afastar-se

1) Agregação (= "clumping" = "contagious distribution")

<=> Mais amostras com todos os animais contaminados (ou

=> Não há muitas amostras com mais de um animal

Distribuição de frequências (discreta) do número de vezes em que um

Propriedades da distribuição Poisson