Você está na página 1de 10

Apostila de Estatística Aplicada - 2010

Os testes comumente utilizados são Klomogorov–Smirnov, ou teste K-S, que é


um teste tradicional de normalidade e o teste de Shapiro-Wilks, ou teste S-W, vem sen-
do empregado cada vez com maior freqüência.

9.8 Teste de Klomogorov-Smirnov (K-S)


Este teste compara a distribuição real dos dados (amostra) com uma distribuição
normal gerada por uma média e um desvio padrão supostamente conhecidos (popula-
cionais).

9.9 Teste de Shapiro-Wilks (S-W)


Este teste é uma boa opção para se testas a normalidade de uma distribuição. o
teste pode ser usado em amostra de até 2.000 observações. Nos últimos anos o teste S-
W tem sido preferido ao teste K-S pela capacidade de adaptação a uma variada gama de
problemas sobre a variação de normalidade.

10 Testes Paramétricos e Não Paramétricos


De acordo com a distribuição dos dados, utilizam-se testes de duas categorias:
Os testes paramétricos - aplicam-se a amostras extraídas de populações com dis-
tribuição normal e variâncias iguais ou muito próximas, além de exigirem que as
medidas sejam feitas em escalas numéricas intervalares, suscetíveis de tratamen-
to matemático. Estes testes são, em geral, os de maior potência, podendo ser a-
plicados mesmo quando ocorram pequenos desvios de normalidade ou da vari-
ância entre as amostras.
Os testes não-paramétricos - são menos exigentes quanto à natureza da distribu-
ição dos dados experimentais, são em geral menos potentes.
Se os dados experimentais não estiverem de acordo com os pressupostos para a
aplicação de provas paramétricas (por exemplo, se não seguirem a distribuição normal),
uma alternativa é a transformação de dados dos seus valores (vide item Transformação
de Dados, p. 46), de tal forma que os pressupostos possam ser satisfeitos. A transforma-
ção mais utilizada é a conversão dos dados em logaritmos decimais.
Os elementos necessários para a utilização de um teste são:
Formular as duas hipóteses: a de nulidade (H0), que supõe não haver diferença
significativa entre os valores encontrados e os esperados; e a hipótese alternativa
(H1), onde essa diferença existirá;
Estabelecer o nível de significância α e, conseqüentemente, as regiões críticas de
aceitação de H0;
Definir se, se trata de um teste mono ou bicaudal;
Tomar as amostras de tamanho n e registrar os valores, calcular a média (µ), a
variância (s²) e o desvio padrão (s) e;
Escolher o teste estatístico adequado.
Para maiores detalhes e saber com escolher um teste, consulte o Fluxograma
Para Auxiliar na Escolha de Testes Estatísticos, p. 56.

10.1 Teste t - Student


Há certas ocasiões em que o pesquisador deseja a comparação de suas amostras
31

que provêm de populações diferentes. Neste caso, ao constatar as médias destas amos-
tras para verificar se há a diferença entre elas, estaremos indiretamente comparando as
Página

duas populações. E por analogia, poderíamos proceder a um experimento em que um


grupo receberia uma droga (grupo tratado), enquanto outro grupo nada receberia (grupo
William Costa Rodrigues

controle). O efeito do tratamento aplicado seria verificado pela comparação dos dois
grupos.
Nesses casos, o teste t seria indicado para tal comparação salientando que a vari-
ável em análise teria que apresentar os dados em distribuição normal ou aproximada-
mente normal.
O valor t - student calculado é dado pela fórmula:
X
t=
s2
n
Onde: X : média; s²= variância e N: número de observações

As formas de utilização deste teste apresentam situações diferentes como mos-


tras os subitens abaixo:

10.1.1 Dados Pareados (Amostras Dependentes)


Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indiví-
duos ou animais ou plantas. Há a uma preocupação em que haja um pareamento entre
indivíduos para que eles difiram somente no aspecto, tratado e não-tratado.
Em um estudo foi separada uma população de 10 crianças para os testes com
administração da dieta de folha de mandioca, obtivemos os seguintes dados:

Tabela 2. Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca
(dados fictícios).

Peso (Kg)
Item Diferença
Antes Depois
1 24 28 4
2 23 25 2
3 24 25 1
4 23 29 6
5 30 32 2
6 31 34 3
7 31 38 7
8 14 19 5
9 20 22 2
10 18 23 5
Total 238 275 37

Procedimento:
a) Obtêm-se as diferenças entre os valores antes e depois (quadro acima);
b) Verifica-se a média aritmética das diferenças;
c) Verifica-se a variância das diferenças e;
d) Aplica-se o teste t - student.
37
b) X d = = 3,7
10
32

c) Σd²=173; Σd=37; n= 10
Página
Apostila de Estatística Aplicada - 2010

1369
173 −
s2 = 10 = 173 − 136,9 = 39,1 = 4,01
9 9 9

3,7 3,7 3,7


d) t = =t= = = 5,84
4,01 0,401 0,6332
10

O próximo passo e recorrer à tabela do teste t - student (Tabela 11, p. 57) e


compara-se o valor do t calculado com o valor crítico da tabela em função de α com n-1
graus de liberdade.
No exemplo acima, n= 10, portanto, devemos verificar os valores críticos com
nove graus de liberdade. Desta forma, encontramos os valores 2,26 (5% ou α=0,05) e
3,25 (1% ou α=0,01).
O valor encontrado (calculado) de t= 5,84 é maior do que os valores da tabela.
Concluímos pela rejeição de H0 (hipótese nula) em nível de 1% de probabilidade
(α=0,01).
Conclui-se que a adição do farelo de mandioca na alimentação contribuiu para o
aumento do peso corpóreo das crianças.

10.1.2 Dados Pareados (Amostras Independentes)


Neste caso os dados são tratados de forma diferente, ou seja, possuem o mesmo
valor n, mas não pertencem ao mesmo tratamento ou não há comparação entre antes e
depois. O teste t utilizado nesta situação pressupõe variâncias diferentes, mesmo o as
duas amostras possuindo valores n iguais.
O valor t - student calculado é dado pela fórmula:
X1 − X 2
t=
2 2
s1 s2
+
n1 n 2
Onde: X1 e X 2 : médias das amostras; s1= e s2= desvios-padrão das amostras; e n1 e n2:
número de observações das amostras.

Esta equação deve ser utilizada, quando se conhece a variância populacional (σ²).
Exemplo:
Tabela 3. Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em siste-
ma agro-silvo-pastoril, numa área de re-vegetação (dados fictícios).
Leguminosa A Leguminosa B
X1 = 38 cm X 2 = 33,5 cm
s1= 5 cm s2= 6 cm
n1= 26 n2= 26
Calculado o valor de t teremos:
38 - 33,5 4,5 4,5 4,5 4,5
t= = = = = = 2,9379 ≅ 2,94
52 6 2 0,9615 + 1,3846 2,3461 1,5317
33

25 36
+ +
26 26 26 26
Página

Para calcular o Grau de Liberdade, procedemos da seguinte forma:


William Costa Rodrigues

GL= n1 + n2 –2 ou (n1–1) + (n2–1).


Para o nosso exemplo acima temos o GL = 26 + 26 – 2 = 50 ou (26–1) + (26–
1)=50. Os valores a 5% e 1% de probabilidade são 2,68 e 2,01, respectivamente (Tabela
11, p. 57). Comparando o valor calculado (2,94) com os valores tabelados verifica-se
que há diferença estatística a 5% e a 1% de probabilidade. Desta forma, concluímos que
há 99% de probabilidade de que a leguminosa A, possuam taxa de crescimento média
mais elevada que a leguminosa B.

10.1.3 Dados Não-Pareados - Variâncias Desiguais (Heterocedásticas)


Caso os dados não pertençam às amostras não pareadas, o teste T será aplicado
baseando-se na diferença entre as médias das duas amostras, podendo as mesmas apre-
sentarem tamanhos diferentes (n1 e n2).
Supõe-se, neste caso, que as amostras são independentes e que apresentam vari-
âncias desiguais.
Há uma regra prática que identifica tal desigualdade a ponto de justificar tal pro-
cedimento. Se a relação entre as variâncias apresentarem valor maior do que quatro, isto
justifica a conduta sugerida.
Por exemplo: s²1= 27 e s²2= 5
s 2 27
Portanto = 12 = = 5,4
s2 5
Seguindo o critério estabelecido, as amostras serão comparadas de acordo com
este resultado.
Exemplo: temos duas amostras de água em que os dados quanto ao nível de con-
taminação de mercúrio apresentam os seguintes valores:
Amostra A Amostra B
X 1=160 ppm X 2=148 ppm
s²1 =74 ppm s²2 =18 ppm
n1 = 20 n2 = 32

O valor do teste t será obtido através da expressão:


X − X2
t= 1
s12 s 22
+
n1 n 2
Calculado o valor de t teremos:
160 − 148 12 12
t= = = = 5,82
74 18 4,26 2,06
+
20 32
Para verificar a significância deste valor, devemos calcular o grau de liberdade
para o conjunto de dados, em que g é calculado através da fórmula:
2
 s12 s 22 
 + 
 n1 n 2  n1 + n 2
g=   ou g =
2 2 2
 s2   s2 
 1  2
34

 n1   n2 
  +  
Página

n1 − 1 n2 −1
Para nosso exemplo seria:
Apostila de Estatística Aplicada - 2010

2
 74 18 
 + 
4,26 2
g=  2
20 32 
2
= = 24,8 ≅ 25
 74   18  0,73 2
   
 20  +  32 
20 − 1 32 − 1

Consulta-se então a tabela do teste t-student (Tabela 11, p. 57), para verificar os
valores críticos nos níveos de 5% e 1% de probabilidade para 25 graus de liberdade.
Na tabela iremos obter o valor de 2,06 (5%) e 2,79 (1%). Desta forma, conclui-
se que o valor obtido pata t = 5,82 é significativo no nível de 1% (1% ou α=0,01), acei-
tando-se a hipótese alternativa, devido à diferença significativa entre as médias das duas
amostras.

10.1.4 Dados Não-Pareados - Variâncias Iguais (Homocedásticas)


A aplicação do teste t de Student para este caso é realizada quando comparamos
as médias aritméticas de duas amostras independentes, nas quais as variâncias apresen-
tam valores aproximadamente iguais. Ainda neste caso, o procedimento metodológico
consiste em se utilizar uma variância ponderada, considerando também o número de
graus de liberdade de cada uma das amostras.
Exemplo: para verificar se duas amostras de água mineral de duas marcas possu-
em a mesma quantidade sulfatos, um pesquisador separou ao acaso, um lote de caixa de
cada marca e ao acaso avaliou o conteúdo de uma garrafa de cada caixa. A marca A e
marca B, possuíam 10 e 7 caixas no lote selecionado, respectivamente. Ou seja, foram
avaliados os conteúdos de 10 e 7 garrafas, respectivamente.
Exemplo:
Amostra (mg.L)
Marca A Marca B
1,4 1,7
1,5 1,8
1,8 1,4
1,3 1,2
1,1 1,9
1,6 1,0
1,5 1,5
1,4 -
1,2 -
1,4 -
X A= 1,42 X B= 1,50
sA²= 0,04 sB²= 0,11
nA= 10 nB = 7

A variância ponderada é dada pela fórmula:


(n − 1) × s 2A + (n B − 1) × s 2B
s2 = A
nA + nB − 2
35

Para nosso exemplo teríamos:


(10 − 1) × 0,04 + (7 − 1) × 0,11 = 9 × 0,04 + 6 × 0,11 = 0,36 + 0,66 = 1,02 = 0,0680
Página

s2 =
10 + 7 − 2 15 15 15
William Costa Rodrigues

Em seguida aplica-se a fórmula para o teste t.


XA − XB
t=
 1 1 
s 2  + 
 nA nB 
Assim temos:
1,42 - 1,5 − 0,8 − 0,8
t= = = ≅ − 6,23
 1 1 0,0165 0,1285
0,0680 + 
 10 7 

Os valores de t tabelado para 15 graus de liberdade a 5 e 1% são respectivamen-


te, 2,13 e 2,95. Desta forma, conclui-se que as duas marcas de água mineral apresentam
diferentes proporções de sulfatos em sua composição, sendo que a marca B possui mai-
ores concentrações em relação à marca A.

10.2 Teste Qui-Quadrado (χ χ²)


O teste não-paramêtrico de qui-quadrado foi desenvolvido por Pearson, sendo
muito utilizado em pesquisas biológicas.
O grau de liberdade para o teste de χ² é o número de observações/ classes menos
1.
A fórmula utilizada para calcular o χ² é:
∑ (fo - fe )2
χ =
2

fe
Onde: fo= freqüência observada e; fe= freqüência esperada.
Portanto o valor do desvio é elevado ao quadrado e dividido pela freqüência es-
perada.
Em muitos casos utiliza-se este teste em experimentos probabilísticos, por e-
xemplo, lançamentos de moedas ou proporção de doentes após uma epidemia. No pri-
meiro caso a probabilidade de lançarmos 10 vezes uma moeda e cair cara é de 50%
(freqüência esperada) e o valor real após os lançamentos será a freqüência observada.
No segundo caso a freqüência esperada deverá ser corrigida (calculada) através da Ta-
bela de Contingência.

10.3 Tabela de Contingência


Em muitos trabalhos experimentais, os dados colhidos representam ocorrência
de certos fenômenos que se podem classificar numa tabela, chamada tabela de contin-
gência.
Estas tabelas têm como objetivo estudar a possível associação entre duas variá-
veis que classificam os dados. Em tal situação a H0 (hipótese nula) será testar a inde-
pendência entre as variáveis.
Para poder calcular o χ², é necessário que tenhamos as freqüências teóricas, o
que se faz admitindo-se a hipótese de que todos os grupos reajam da mesma maneira
diante da condição a elas imposta.
A comparação entre os valores calculados de χ², para verificar a significância
36

pode ser obtido na tabela de χ² (Tabela 12, p. 58).


Exemplo: Num Shopping Center, foram escolhidas ao acaso pessoas com três
Página

diferentes faixas etárias, para verificar a incidência de diabete. Para tal, foram coletadas
Apostila de Estatística Aplicada - 2010

amostras de sangue. A H0 é que não diferença entre as faixas etárias em relação a ter
diabete.

Os dados coletados ao final do experimento foram:


Faixa Etária Pessoas*
Σ
(anos) Com diabete Sem diabete
A: 10-15 2 (11,74) 75 (65,26) 77
B: 16-21 12 (11,28) 62 (62,72) 74
C: 22-40 20 (10,98) 52 (61,02) 72
Σ 34 189 223
* Valores entre parênteses e em negrito representam as freqüências calculadas

Neste caso temos uma tabela de contingência de 2 x 3, pois temos duas situações
as serem testadas (com ou sem diabete) em três grupos (faixas etárias).
O Grau de liberdades para tabelas de contingências será calculado pela seguinte
fórmula: GL = (n s − 1) × (n g − 1) . No nosso exemplo teremos:
GL = (2 − 1) × (3 − 1) ∴GL = 1 × 2 ∴GL = 2
Para calcular as freqüências realiza-se uma regra de três simples como segue:
34 –––––––––––––––– 223
fe –––––––––––––––– 77

34 × 77
Ou seja, fe A = a fe da terceira coluna (sem diabete) é calculada pela diferença
223
entre os valores da fe da 2ª coluna (com diabete) e o valor da coluna total (Σ). Os de-
mais valores da linha subseqüentes são obtidos com a realização da regra de três para
cada valor da 2ª coluna.
Para calcular o χ² do conjunto de dados utilizaremos a fórmula vista anterior-
mente. Assim teremos:

χ2 =
(2 − 11,74)2 + (75 − 65,26)2 + (12 − 11,28)2 + (62 − 62,72)2 + (20 − 10,98)2 +
11,74 65,26 11,28 62,71 10,98
(52 − 61,02)2 ∴ χ 2 = 94,87 + 94,87 + 0,5184 + 0,5184 + 81,36 + 81,36 ∴
61,02 11,74 65,26 11,28 62,72 10,98 61,02
χ = 8,09 + 1,45 + 0,05 + 0,01 + 7,41 + 1,33∴ χ = 18,34
2 2

De acordo com a Tabela 12 (p. 58), o valor χ² para 2 graus de liberdade a 5 e 1%


de probabilidade seriam 5,99 e 9,21, respectivamente. Desta forma, conclui-se que há
diferença entre as faixas etárias, ou seja, a ocorrência de diabete depende da faixa etária,
segundo o teste de χ² a 5 e 1% de probabilidade.

10.4 Teste de Kruskal-Wallis


Este teste foi criado como substitutivo à análise de variância paramétrica (Teste
F).
Ele é utilizado para que se verifique o contraste entre k amostras independentes.
37

Os valores obtidos nas diversas amostras diferem entre si e, portanto, será uma
maneira se verificar se estas diferenças são devidas ao acaso ou se as amostras provêm
Página

de populações diferentes.
William Costa Rodrigues

No teste de Kruskal-Wallis todas as observações recebem uma pontuação atra-


vés dos números 1, 2, 3, 4, ...n. Assim, ao menor valor se atribuirá o valor 1, e assim
sucessivamente até atingir o maior valor, que receberá a maior pontuação.
Da mesma forma que nos outros testes, serão consideradas sempre duas hipóte-
ses (H0 e H1).
Para o cálculo do valor H do teste de Kruskal-Wallis utiliza-se a fórmula:
2
k R
× ∑i =1 i − 3 (N + 1)
12
H=
N (N + 1) ni
Onde: Ri = a soma das ordens atribuídas ao tratamento i; k =corresponde ao número de
tratamentos a comparar; ni = número de observações em cada tratamento k e; N = nú-
mero total de observações em todos os tratamentos k.
Na ordenação global que se faz para atribuição dos postos aos dados, considera-
se que nos casos de empate entre duas ou mais observações, calcula-se a média das or-
dens que seria atribuída a elas se não houvesse o empate.
Para verificação de significância quanto às diferenças observadas entre tratamen-
tos k, considera-se que o teste tem uma distribuição aproximada de χ², com k-1 graus de
liberdade, ou seja, a tabela para comparar os valores é a tabela de χ² (Tabela 12, p. 58).
Para exemplificarmos o teste de Kruskal-Wallis, supomos que foram testados ou
experimentados três métodos para dessalinização de água. Assim sendo, foram coleta-
das diversas amostras de água com diversas concentrações de sal, que não vem ao caso
no exemplo a ser testado. Desta forma, testou-se o tempo de dessalinização dos três mé-
todos. Os resultados do experimento seguem abaixo:
Métodos
A B C
DD posto DD posto DD posto
17 11 20 12 32 17
14 9 5 3 35 20
4 2 9 6 26 15
8 5 13 8 34 18,5
29 16 34 18,5 21 13
6 4 2 1 45 21
15 10 11 7 50 23
- - 22 14 47 22
RA=57,0 RB= 69,5 RC= 149,5
nA= 7 NB= 8 nC = 8
x A= 13,29 x B= 14,50 x C= 36,25
DD= dias para dessalinização.

Para calcular H teremos:


38
Página
Apostila de Estatística Aplicada - 2010

 57 2 69,5 2 149,5 2 
 − 3 (23 + 1)∴
12
H= × + +
23 (23 + 1)  7 8 8 
12  3.249 4.830,25 22.350,25 
H= × + +  − 3 × 24 ∴
23 × 24  7 8 8 
× (464,14 + 603,78 + 2.793,78) − 3 × 24 ∴
12
H=
552
× (3.861,70 ) − 72 ∴ H = 0,0217 × 3.861,70 − 72
12
H=
552
H = 11,95

Como já foi dito este teste segue a distribuição do teste χ². Desta forma, sendo k
= 3 (métodos), os graus de liberdade correspondem a 2, pois GL= k-1. Portanto, os valo-
res da tabela χ², correspondem a 5 e 1%, são 5,99 e 9,21, respectivamente.
Considerando que o valor calculado H=11,95 é maior que os valores tabelados,
rejeitamos H0 (não há diferenças entre os métodos testados no tempo de dessalinização
das amostras), assim aceita a H1. Pelos valores R encontrados nos resultados verifica-se
que o método A e mais eficiente no processo de dessalinização, pois leva menos tempo
em comparação aos demais.

10.5 Teste de Friedman (Análise da Variância)


Da mesma forma que o teste de Kruskal-Wallis, este teste é um substitutivo ao
teste F para análise de variância paramétrica, sendo utilizado quando as amostras, cujas
observações podem verificar valores com acentuada variação e em cada tratamento são
constituídos blocos com a intenção de que isto resulte em um pareamento considerável
entres os diversos tratamentos.
De forma análoga aos demais testes, formula-se a H0 e a H1. Para testar a H0,
utiliza-se tabela de χ², co grau de liberdade k-1.
O valor do teste de Friedman (Xr2) é calculado através da seguinte equação:
χ 2r =
12
nk (k + 1)
k
( )
× ∑i =1 R i2 − 3n (k + 1)

Onde: n = número de blocos; k = o número de tratamentos; Ri = a soma das ordens atri-


buídas aos dados do tratamento i, nos blocos n.
Para os casos de empate entre observações de mesmo bloco, calcula-se a média
aritmética das ordens. A ordenação dos valores se dá dentro dos blocos.
Exemplo: Foram coletadas cinco amostras em quatro profundidades (tratamen-
tos) em cinco áreas diferentes, delimitados pelas características edáficas do solo (blo-
cos). Este solo foi exposto há poluentes de uma determinada fábrica. Assim sendo, quer
saber se o poluente está distribuído de forma igual entre as profundidades avaliadas, ou
seja, as concentrações do poluente são iguais em todas as profundidades (Hipótese Nula
ou H0). Os resultados da análise foram as seguintes:
Tabela 4. Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do
solo, em quatro diferentes profundidades. Os dados apresentados referem-se a o poluente α-β-16-
Imaginol-Poluentis, em mg.mm³ de solo
39

Profundidade (cm)
Blocos
0-10 11-20 21-30 31-50
Página

Área A 12 (2) 13 (3) 16 (4) 7 (1)


Área B 8 (2) 9 (3) 12 (4) 5 (1)
William Costa Rodrigues

Profundidade (cm)
Blocos
0-10 11-20 21-30 31-50
Área C 14 (2) 20 (3) 22 (4) 6 (1)
Área D 17 (3) 16 (2) 21 (4) 11 (1)
Área E 12 (2) 15 (3) 16 (4) 10 (1)
Total
R1= 11 R2= 14 R3= 20 R4 = 5
*Os valores entre parênteses e em negrito correspondem à ordenação dos tratamentos dentro dos blocos
(linhas). Sendo o valor Ri a somas dos valores de ordenação nos tratamentos (colunas).

Substituindo os valores na fórmula para o cálculo do valor χ²r, teremos:


× (112 + 14 2 + 20 2 + 5 2 ) − 3 × 5 × 5∴
12
χ 2r =
5 × 4(4 + 1)

× (121 + 196 + 400 + 25) − 75


12
χ 2r =
5 × 4(4 + 1)
12
χ 2r = × 742 − 75 = 89,04 − 75 ∴
100
χ 2r = 14,04

Como valor de graus de liberdade é igual a k-1 graus de liberdade e sendo k=4
(tratamentos), têm-se 3 graus de liberdade. A partir da tabela χ² (Tabela 12, p. 58). Os
valores para 5 e 1% de probabilidade são 7,82 e 11,32, respectivamente.
Sendo o valor de χ²r calculado maior que os valores da tabela de χ², rejeita-se a
hipótese nula (H0) e aceita a hipótese alternativa (H1). Ou seja, a profundidade de 21-30
cm tem uma maior concentração do poluente que as demais profundidades avaliadas,
nas áreas onde foram coletadas amostras.

11 Correlação Linear
A correlação linear é utilizada para verificar, num determinado conjunto, a de-
pendência entre duas séries de variáveis.
Trata-se de um valor abstrato que dá uma idéia sobre a dependência entre os
dados apresentados.
A correlação pode ser denominada positiva ou negativa. Quando positiva há a
variação positiva da variável dependente (Y), quando há variação positiva da variável
independente (X) vice-versa. Quando negativa há a variação negativa de Y, quando há
variação positiva de X e vice-versa.

11.1 Coeficiente de Correlação (r)


O coeficiente de correlação e designado pela letra r. Pode ser utilizado para da-
dos normais (Correlação de Pearson) e para dados não normais (Correlação de Spear-
man).
11.1.1 Correlação de Pearson
Utilizado na análise de dados que possuem distribuição normal.
∑X× ∑Y
40

∑ XY − n
r=
(n − 1) × s X × s Y
Página

Você também pode gostar