Você está na página 1de 9

Chave para escolha de testes estatísticos com uma ou duas variáveis

Atenção, após a escolha do teste, é importante a leitura do capítulo correspondente de um livro de estatística, um site da
internet, do manual do software que você usa, ou a consulta a uma pessoa com experiência na análise. Algumas explicações e
“receitas” são apresentadas após as tabelas, mas há detalhes importantes que não puderam ser tratados aqui. Há vários sites na
internet que podem ajudar (e.g. http://udel.edu/~mcdonald/statexactbin.html). É fortemente recomendado que se verifique
com um exercício resolvido do teste escolhido em um livro ou site se você está realizando corretamente o teste antes de
utilizá-lo com seus dados.

Tabela 1: Testes com uma variável (propriedade)


Binomial exato; teste z
Valores binários têm freqüências compatíveis com freqüências esperadas? por aproximação (a)
Qui2 ou teste g (b)
Valores categóricos têm freqüências compatíveis com freqüências esperadas?
Um valor ou um conjunto de valores quantitativos são compatíveis com valores Teste z (c)
pré-determinados de média e desvio padrão em contexto de distribuição normal?
Um conjunto de valores quantitativos é compatível com uma média pré- Teste t para uma amostra
determinada com desvio padrão indeterminado em contexto de distribuição normal? (d)
A distribuição observada de uma variável com medidas quantitativas é compatível Kolmogorov Smirnov
com distribuições teóricas esperadas? (KS); Shapiro-Whikes (e)

Tabela 2: Testes com duas variáveis (propriedades) pareadas

A diferença entre valores quantitativos pareados tem distribuição que pode teste t pareado (duas variáveis
ser considerada normal. pareadas) = teste t para uma
amostra com as diferenças. (g)
Diferença entre dados ordinais pareados ou entre dados quantitativos teste Wilkoxon Pareado (duas
pareados com distribuição das diferenças sem normalidade. variáveis). (h)
Diferença entre dados binários (+, -) pareados ou diferença entre dados “Sign test” (duas variáveis)=(teste
ordinais ou quantitativos pareados representada por [+, - ou zero]. de prop. simples. 1 var. dif.). (i)

Tabela 3: Testes com duas variáveis (propriedades) não pareadas

V. dep→ Ordinal ou
Binário Quantitativo
Categórico Quantitativo
(Categ. de 2) Situação II*
Situação I*
V. ind.↓
Teste de 2 prop., Tabela de
Mann- Whitney Teste t (de 2
Binário T. Exato de Contingência (TC)
2S_KS(l1) grupos) (m)
(cat. de 2) Fisher ou T.C. (j) (k)
Tabela de Tabela de Kruskal-Wallis Análise de
Categórico
Contingência (k) Contingência (k) ou Friedman (n) Variância (o)
Dicotomizar VI ou
Mann- Whitney; VD e usar teste Correlação de Correlação de
Ordinal
Cochrans TLT (l2) apropriado (Max. Postos (q)/ RNL Postos (q)/ RNL
Balanço) (p)
Dicotomizar VI ou Pearson/
Regressão Correlação de
Quantitativo VD (Max. Balanço) Regressão
Logística (r) Postos (q)/ RNL
(p) Linear (s)
*Ver explicação abaixo no texto da tabela 3.

Guia para testes estatísticos/ Bioestatística Aplicada 1


© Thierry R. Gasnier/ Universidade Federal do Amazonas
Tabela 4: Testes com 1 Variável dependente e 2 variáveis independentes

Y (v. dep.) X1 (VI1) X2 (VI2) Teste


Categórico Categórico Categórico Tabela de Contingência
de 3 vias (t)
Binário Quantitativo Quantitativo/ Regressão
Binário logística
múltipla (u)
Quantitativo Categórico Categórico Análise de
Variância de
2 Vias (v)
Quantitativo Quantitativo Binário ANCOVA (w)
Quantitativo Quantitativo Quantitativo Regressão
Múltipla (x)

Tabela 1- Testes com uma única variável. Os citados aqui são testes de aderência (“goodness of fit”)
em que verificamos a compatibilidade de um valor ou de uma amostra com proporções, valores ou
modelos previamente estabelecidos. Exemplos: a razão sexual está dentro do esperado (50%)? As
freqüências observadas de tons de vermelho em rosas estão dentro da razão esperada de alelos pela
segunda a lei de Mendel (9:3:3:1)? Este crânio fóssil único é significativamente maior que as medidas
de vários crânios de outra localidade? Estas medidas de mercúrio estão significativamente maiores do
que a média recomendada pelo governo? A distribuição de freqüências de tamanhos de peixes se
ajusta a uma distribuição normal? Estes testes são geralmente denominados “testes de uma amostra”,
mas a denominação “testes com uma única variável” é mais apropriada na abordagem EPR (Entidade-
Propriedade-Relação) adotada neste curso. (OBS- estes testes geralmente não “pedem” gráficos, mas,
se necessário, destas situações podem ser representadas conforme as seções I e II da apostila de
gráficos.)

a) Variável binária. Considere esta situação: Fulano disse que tem uma técnica para distinguir
machos de fêmeas de pintinhos com 2 meses, o que é importante para granjas. De 20 pintinhos ele
acertou 16 com a técnica, mas esta proporção de acertos é significativamente maior que 50% (acaso)?
Temos um problema de proporção que é resolvido no Mystat12 assim: [Analyze/ Hip. Test/ Prop./
Single Proportion/ Number of trials=20; Number of successes=16; Proportion=0.5; Alternative type:
greater than]. Explicando: é proporção simples (“single proportion”) porque estamos comparando uma
proporção obtida com uma esperada; o número de casos total (“number of cases”) é 20; o número de
casos favoráveis (number of successes) é 16 e a chance unitária de sucesso (“chance de acertar o sexo
chutando”=0.5- “Proportion”). A pergunta é unicaudal porque você quer saber se ele acerta “mais que
50%” e não “diferente de 50%” (alternative type). Entretanto, se você precisar de uma taxa de acerto
igual ou superior a 75%, para valer a pena descartar os filhotes machos, mude “Proportion” para 0.75.
O resultado no Mystat12 é apresentado com testes Binomiais Exatos ou testes Z. Com tamanhos
amostrais pequenos (N<30), o Mystat12 fará o teste Binomial Exato que é o melhor neste caso. Em
tamanhos amostrais maiores, este teste não era feito porque era demorado e trabalhoso no passado
(sem computadores) e adotava-se aproximações da curva normal (aparentemente isto foi mantido por
tradição). Em tamanhos amostrais médios (30 a 100), opte pela probabilidade apresentada em “Normal
Aproximation” e em tamanhos amostrais grandes (>100), opte por “Large sample test”.

Guia para testes estatísticos/ Bioestatística Aplicada 2


© Thierry R. Gasnier/ Universidade Federal do Amazonas
b) O teste de Qui2 de uma via com três ou mais categorias no Mystat12 pode ser feito apenas se a
hipótese nula tiver proporções
homogêneas (e.g. 25% em cada uma
de 4 categorias): [Analyze/ One way
freq. tab.] Se as proporções não
forem homogêneas (e.g. a proporção
9:3:3:1 da 2ª lei de Mendel), o mais
prático é se fazer o teste online
disponível em alguns sites (e.g.
http://faculty.vassar.edu/lowry/csfit.h
tml- Acessado em 2009). Neste site
entre proporções esperadas em
Expected proportions assim: 9/16;
3/16, etc. e as observadas em
“Observed Frequency” e depois
pressione “calculate”. Se não estiver
online, use o arquivo que está no
pacote estatístico em “Programas/
Testes no Excel/ A1_Qui2_Prop_
hetero.xls”. Copie o arquivo com
outro nome e modifique o exemplo
com os seus dados. O teste G é uma alternativa ao Qui2 recomendada em alguns livros, mas não é
muito diferente, de forma que não a abordaremos. Este teste não admite hipóteses unicaudais.

c) Utilizamos o teste Z: a) quando queremos verificar se um valor está significativamente diferente


(bicaudal) ou maior ou menor (unicaudal) que o esperado para uma variável que apresenta distribuição
normal, tendo uma média e um desvio padrão pré-determinados; b) quando queremos verificar se um
conjunto de valores está significativamente diferente (bicaudal) ou maior ou menor (unicaudal) que o
esperado para uma variável que apresenta distribuição normal, tendo uma média e um desvio padrão
pré-determinados. Vamos começar com um exemplo da primeira situação: Você suspeita estar com
uma taxa alta de glicose no sangue, faz um exame e obtém o valor 95mg/dl. A taxa normal de glicose
no sangue é de 85±15 mg/dl em jejum de 8 horas. Você verifica se este valor está significativamente
maior que o esperado no Excel pela fórmula:
[=DIST.NORMP(PADRONIZAR(X,M,DP)] (unicaudal inferior) ou
[=DIST.NORMP(-PADRONIZAR (X,M,DP)] (unicaudal superior)
onde X é a o valor, M é a média e DP é o Desvio Padrão.
No exemplo teríamos [=DIST.NORMP(-PADRONIZAR(95,85,15)]. Note que se trata de um teste
unicaudal superior, pois queríamos saber se o valor obtido é significativamente maior que o padrão,
daí a necessidade do sinal “-“ antes de PADRONIZAR. Se a Hipótese for bicaudal, utiliza-se a
fórmula [2*(1-DIST.NORMP(ABS(PADRONIZAR(X,M,DP)))]. Outra situação que pede o teste Z é
quando temos vários valores para comparar com uma média e desvio padrão pré-determinados, por
exemplo, se verificarmos um conjunto de valores de taxas de glicose de várias pessoas para saber se
esta população está com glicose acima do normal. Neste caso, é mais simples entrar os dados no
MYSTAT12 em uma coluna com o nome da variável (e.g. cglicose), entrar em [Analyse/ Hypotesis
Testing/ Mean/ one sample z test], e entrar a média e desvio padrão pré-determinados. Se você estiver
apenas com valores de média, desvio padrão e número de medidas de uma amostra (por exemplo, se
estiver analisando dados secundários de outro trabalho), pode usar a Tabela Excel do pacote estatístico
“Programas” [Testes no Excel/ A2_Teste Z_1Var_7-11-1_.xls]. Salve uma cópia do arquivo e
modifique o exemplo com os seus dados.

Guia para testes estatísticos/ Bioestatística Aplicada 3


© Thierry R. Gasnier/ Universidade Federal do Amazonas
d) Quando estamos querendo verificar se um conjunto de valores está significativamente diferente do
esperado (i.e. uma “média” pré-determinada), mas o desvio padrão da população está indeterminado,
então utilizamos o teste t para uma variável. Por exemplo, você recebeu um relatório dos técnicos da
SEMA com medidas de Oxigênio, coliformes fecais e pH da água de lagos de parques urbanos para
verificar se estão dentro dos padrões exigido pela legislação estadual. Se você tem a base inteira de
dados, você pode entrar no MYSTAT12 [Analyse/ Hypotesis testing/ Mean/ One sample t test]
entrando uma variável por vez, seu valor limite (mínimo de oxigênio, máximo de coliformes fecais e
ideal de pH) e realizar respectivamente testes unicaudais inferior, superior e bicaudal entrando os
valores de referência. Se você recebeu apenas os dados de médias, desvios padrões (das amostras) e
número de amostras, você poderá utilizar a Tabela Excel em “Programas/ Testes no Excel/ A3_Teste
t_1Var_7-11-1_.xls”. Salve uma cópia do arquivo e modifique o exemplo com os seus dados.

e) Os testes t e z são aplicáveis para variáveis quantitativas em um contexto de variável com


distribuição normal. Uma alternativa quando isto não ocorre é a utilização do teste de Kolmogorov
Smirnov (KS). Este teste verifica se a distribuição de dados em uma amostra se ajusta a um modelo
pré-definido (forma genérica) e a uma posição pré-definida (média). Uma das aplicações deste teste é
justamente para se verificar se uma distribuição de dados se ajusta ou não à forma de uma distribuição
normal*. Outra utilidade é se verificar se um conjunto de dados se ajusta ou não a outras distribuições
(p.ex. Uniforme, Uniforme Discreta, Poisson, Lognormal, Exponencial, Logística). Uma terceira
aplicação é como um análogo do teste Z. Admitindo-se que uma situação se ajusta a uma determinada
distribuição não normal, é possível se avaliar se a média dos valores de uma população está diferente
de um valor padrão. Por exemplo, além da distribuição normal, um dos modelos mais comuns em
biologia é a distribuição Poisson, que é uma distribuição esperada quando temos medidas discretas (p.
ex. número de galhas em folhas) de organismos com distribuição aleatória com poucos indivíduos na
maioria das unidades amostrais e muitos indivíduos em algumas unidades. Imagine que a utilização de
um agrotóxico seja recomendada apenas se o número médio de galhas for superior a duas galhas por
folha. Para avaliar isto você recolhe 30 folhas aleatoriamente. Você pode aplicar o teste KS no
MYSTAT12 entrando os valores em uma variável (p. ex. Ngalhas) e entrando em [Analyse/ Fitting
distributions/ Discrete] com o valor 2 para média. Se análises anteriores indicaram que o teste de
Poisson descreve bem a distribuição dos dados nesta situação, então um resultado significativo de KS
indica uma diferença de média. O MYSTAT12 fornece um gráfico com o teste; é essencial se realizar
também uma análise gráfica, para ver o que exatamente mudou: forma, média ou ambos. Testes
análogos podem ser realizados para outras distribuições no menu “fitting distributions”, entretanto,
pode ser importante uma consulta a um estatístico se você não entende muito de distribuições. (*Obs-
há outras opções populares para verificação da normalidade como os testes Shapiro-Wilkes e
Anderson Darling.)

Tabela 2. Testes com uma variável calculada a partir de duas medidas da mesma entidade com
desenho amostral pareado.
g) Suponha a questão: há mais baratas silvestres de dias do que de noite em cada metro quadrado de
serrapilheira na floresta? Se a avaliação se baseia em amostras não pareadas, temos uma análise para
verificar se a variável “número de baratas” está relacionada à variável “dia/noite”, cada metro
quadrado é uma unidade amostral (entidade). Na análise pareada, a unidade amostral é o par e as
propriedades são os níveis da variável independente implícita. Neste exemplo as variáveis são “o
número de baratas de dia” e “o número de baratas de noite” (a variável independente implícita é o
período dia/noite e a dependente implícita é o número de baratas). A análise se baseia na diferença
entre dia e noite. O teste t pareado é paramétrico e tem a premissa de normalidade, que precisa ser
verificada. Crie uma outra variável: “diferença diaxnoite” para avaliar se há normalidade [DATA/
Transform/ Let/ Dif=V2-V1] para verificar esta premissa [Graph/ Dot density/ Dif→X variable]. Se a
distribuição for muito fora da normalidade, use o teste de Wilkoxon (G), do contrário utilize um teste t
Guia para testes estatísticos/ Bioestatística Aplicada 4
© Thierry R. Gasnier/ Universidade Federal do Amazonas
pareado. No Mystat12: Analyze/ Hip Test/ Mean/ Paired T test (se utilizar os dados das variáveis com
as medidas de cada situação por par) ou Analyze/ Hip test./ mean/ One sample T test (se utilizar as
diferenças). (Obs. Os gráficos para esta situação estão representados na seção VII da apostila de
gráficos.)

h) No Mystat12: Analyze/ Non Parametric tests/ Wilkoxon. (Lembre planilha com entidade=Par e as
propriedades são os níveis da variável independente implícita). Trata-se de um teste que ranqueia os
resíduos (positivos e negativos) totais e testa se a diferença das posições é significativamente diferente
de zero (duas caudas). (Obs. Os gráficos para esta situação estão representados na seção VII da
apostila de gráficos.)

i) Este teste é aplicável especialmente para casos de variáveis binárias pareadas. Ele pode ser aplicado
para variáveis quantitativas, e o programa vai considerar as diferenças. No Mystat: Analyze/ Non
Parametric Test/ Sign (lembre, entidade=par). Se você ainda não tiver os dados entrados na planilha, o
mais fácil é contar os sinais + e – e ir para o teste Binomial (= teste de 1 proporção) Mystat12:
Analyze/ Hyp Test./ Propor/ Simple Prop. e entrar opção “aggregate”; N em “number of trials”; o
número de positivos em successes P=0.05; e a alternativa se será unicaudal ou bicaudal. (Obs. Os
gráficos para esta situação estão representados na seção III da apostila de gráficos, mas sem
representação da relação pareada.)

Tabela 3. São os testes mais utilizados, pois medem a relação entre duas propriedades com
desenho amostral não pareado.

Legenda complementar à tabela 3: Quantitativo Situação I: a) número de níveis >= 3 e <= 6, ou b)


forte desvio da normalidade na freqüência de Y para cada nível de X, ou c) forte desvio de
homogeneidade de variâncias de Y em cada nível de X (exceto X Binário). Realizar a estatística não-
paramétrica desta coluna ou transformar os dados (ver obs. abaixo). Quantitativo Situação II: a)
número de níveis superior a 10 e b) normalidade na freqüência de Y em todos os níveis de X c)
Homogeneidade de Variâncias de Y em cada nível de X (exceto X Binário). Realizar estatística
paramétrica desta coluna. Situações intermediárias: Em situações intermediárias, dependerá do
pesquisador assumir uma postura mais conservadora (escolhendo situação I) ou levemente ousada
(escolhendo situação II). O número de níveis é a quantidade de valores diferentes efetivamente
medidos e.g. 10; 10,5; 10,5 e 11 são 3 níveis. O teste t tem a opção de cálculo com e sem
homogeneidade de variâncias. Pode-se assumir a premissa de normalidade com base em conhecimento
preliminar seguro sobre a natureza de Y ou utilizar testes de normalidade (e.g. Shapiro- Wilkes) em
cada nível, neste caso, o teste só é confiável com n>15 para cada nível; Um tamanho amostral
recomendado para teste de regressão/Pearson é n>30 (desde que não haja um desvio forte do balanço);
Alguns autores consideram que estes tamanhos amostrais são conservadores. No caso de variável
dependente Y ter distribuição não normal em cada nível de X ou heterogeneidade de variância entre
níveis, pode-se tentar uma transformação dos dados [log (Y+1), Raiz quadrada de (Y+0,5) ou
Arcoseno Y] para tentar se obter a normalidade e homogeneidade de variância. A transformação dos
dados, se necessária, é recomendada porque os testes paramétricos fornecem uma descrição
matemática da relação, a estatística não paramétrica apenas testa a existência da relação.

j) Quando há uma variável independente e uma dependente, o teste mais poderoso é o de duas
proporções. Por exemplo, verificar se há uma relação entre o sexo do estudante (VI) e se ele sabe
nadar (VD) com 20 meninos que sabem e 10 que não sabem e 9 meninas que sabem e 22 que não
sabem. No Mystat12: [Analyze/ Hypotesis testing/ Proportions/ Equality of two proportions]. Em
“sample1” entre em “number of trials” o total do primeiro nível da variável independente (30 meninos)
e em “number of Successes” entre o número de ocorrências do primeiro nível da dependente (20
Guia para testes estatísticos/ Bioestatística Aplicada 5
© Thierry R. Gasnier/ Universidade Federal do Amazonas
meninos) e em “sample2” entre o total do segundo nível da variável independente (31 meninas) e entre
em “number of Successes” o número de ocorrências do primeiro nível da dependente (9 meninas). Se
o teste for uma relação sem variáveis independente e dependente (e.g. V1= afinidade por matemática
[sim ou não] e V2= afinidade por ciências [sim ou não]), o teste mais poderoso é o Teste Exato de
Fisher e é errado se utilizar o teste de duas proporções. No Mystat12: [Analyze/ Tables/ Two way/
Measures/ Fisher Exact Test]. Nos dois testes é apresentada a probabilidade do teste bicaudal (PB).
Para se obter a probabilididade do teste unicaudal (PU) nestes dois testes, divide-se a PB por 2 se a
tendência vai na direção de rejeição de H0, do contrário PI= 1-(PB/2). Tabelas de contingência também
podem ser utilizadas, mas são menos exatas, especialmente para tamanhos amostrais pequenos. (Obs.
Os gráficos para esta situação estão representados na seção III da apostila de gráficos.)

k) As Tabelas de Contingência (TC) (no Mystat12: [Analyze/ Tables/ Two way/ uma variável vai em
“row variable” e a outra em “column variable”]) devem ser utilizadas com muito cuidado.
Freqüentemente são utilizadas sem independência real das unidades amostrais, o que é inapropriado.
Quanto mais células na Tabela de Contingência, mais fraco é o teste, de forma que é recomendado que
se agrupe categorias em X e/ou em Y (se chegar a 2x2 mudar para opção de testes “a” descritos
acima). Se a freqüência em alguma célula for inferior a 5, então deve-se realizar uma correção de
Yates (aba measures, opção Yates corrected chi square). (Obs. Os gráficos para esta situação estão
representados na seção III da apostila de gráficos.)

l) O teste Mann-Whitney (MW) pode ser utilizado com variável independente binária e dependente
categórica (l1) ou o oposto (l2). A variável binária é denominada “grouping variable” e a quantitativa
“selected variable. O teste MW no Mystat12 está em [Analyse/ Non Parametric tests, Kruskal], o
programa automaticamente fará este teste o ao detectar que a “grouping variable” é binária. Quando
você está na dúvida se vai utilizar o Teste t ou o Mann-Whitney, realize o primeiro no Mystat12, pois
quando o programa realiza o Teste t, ele mostra automaticamente um gráfico que ajuda a verificar
qualitativamente a normalidade e a homogeneidade das variâncias. Este teste não é recomendado caso
haja um forte desbalanço entre os níveis da variável independente, ou distribuições bem diferentes em
uma situação com alta proporção de “nós” (empates, “ties”). Neste caso, é recomendável utilizar um
teste de permuta (não abordado neste curso- consulte um estatístico). O Cochrans Test For Linear
Trend é um teste alternativo para a mesma situação. Está em Analyze/ Tables/ Two-Way/ entra x e y/
Marca aba Measures/ marca Cochrans test for Linear Trend. Outro teste aplicável na situação l1 é o
teste “Kolmogorov-Smirnov para 2 amostras”. Este teste é apropriado quando queremos comparar
diferença de distribuição entre duas amostras e está em Analyse/ Non parametric tests/ 2 sample KS
(Obs. Os gráficos para esta situação estão representados na seção IV da apostila de gráficos. Os
gráficos de l1 diferem de l2)

m) O Teste t no Mystat12 está em [Analyze, Hypothesis testing, mean, two sample t test]. Ao
realizar o teste, um gráfico é mostrado, verifique se o número de níveis e a normalidade são
apropriados para um teste paramétrico. Se não estiverem, considere a possibilidade de transformar os
dados (ver seção 3.5 da apostila texto) e repita o teste com a nova variável. A homogeneidade de
variâncias não é obrigatória para este teste. Foi criada uma opção de variâncias separadas (a primeira
probabilidade no “output” dos resultados) para lidar com esta situação. Como esta opção serve até para
quando as variâncias são iguais, o recomendado é que ela seja utilizada sempre. Provavelmente os
programas de estatística mantêm a opção de variâncias agrupadas apenas por uma questão de tradição.
O Teste t admite hipóteses unicaudais (opção “alternative types”). Se o teste for bicaudal e as
variâncias forem agrupadas, o resultado será o mesmo de uma Análise de Variância. (Obs. Os gráficos
para esta situação estão representados na seção IV da apostila de gráficos.)

Guia para testes estatísticos/ Bioestatística Aplicada 6


© Thierry R. Gasnier/ Universidade Federal do Amazonas
n) Há duas situações nesta condição. Se houver independência entre as unidades amostrais,
utilizamos o teste de Kruscal-Walis; mas se houver um desenho em blocos com independência entre os
níveis da variável independente implícita (ou “repeated factor”- ver apostila teórica) utilizamos o teste
de Friedman. Para o teste KW no Mystat12: [Analyze, Non Parametric tests, Kruskal] informe a
“variável dependente” em “Selected variable”, a “variável independente” em “grouping variable”.
Detectada uma diferença estatisticamente significativa, pode se utilizar múltiplos testes Mann Whitney
para o contraste (teste das diferenças entre níveis) de forma semelhante ao que se faz com o Teste
Tukey em ANOVA. (Obs. Os gráficos para esta situação estão representados na seção IV da apostila
de gráficos.)

Para o teste de Friedman no Mystat12: [Analyze, Non Parametric tests, Friedman], há dois caminhos.
Se você tem os dados em EPR que tem como entidade cada medida dentro de um bloco, informe as
variáveis “variável dependente” em “Selected variable”, a “variável independente” em “grouping
variable” e a variável que identifica os blocos em “blocking variable”. O segundo caminho é ter uma
planilha EPR com o bloco como entidade e cada nível da variável independente implícita como uma
variável. Neste caso, deve se entrar estas variáveis como “dependente variable” e nada na variável
independente. Uma alternativa ao Friedman é o teste “Quade” [Analyze, Non Parametric tests, Quade]
veja o “Help” do Mystat12 para mais informações. Friedman e Quade são análogos não paramétricos
da Anova com medidas repetidas. (Obs. Os gráficos para esta situação estão representados na seção
VII da apostila de gráficos.)

o) Há duas situações nesta condição. Se houver um desenho de independência entre as unidades


amostrais (ausência de blocos), utilizamos o teste de “ANOVA de uma via”; mas se houver um
desenho em blocos (com uma segunda “variável independente” identificando blocos, ver apostila
teórica), utilizamos o teste de “ANOVA de medidas repetidas”. A versão mais simples deste teste é
quando os níveis da variável independente implícita (“repeated factor’ ou “within subject factor”) são
independentes (também chamada de Anova de blocos randomizados). Se este não for o caso, deve-se
consultar uma pessoa que tenha afinidade com o teste para se obter ajuda.

Para ANOVA de uma via no Mystat12: [Analyze, Analisys of Variance, Estimate Model]. Como
qualquer teste com variável independente categórica, quanto maior o número de níveis mais fraco será
o seu poder. Após a ANOVA, geralmente há o interesse de se determinar quais as diferenças entre
grupos (níveis de da variável independente) que são significativas. Este teste chama-se contraste e é
realizado pelo teste Tukey ou equivalente (Analyze, Analisys of Variance, Pairwise comparisons- esta
opção não está disponível no Mystat12, só no Systat12, e neste só se abre após ter-se realizado o teste).
Devido à falta da análise de contrastes no Mystat12, há duas opções para realizá-los a) transportar os
dados para a planilha Excel “Teste ANOVA_Tukey_8-6.XLS” do pacote de programas (melhor salvar
a planilha com outro nome para manter a original para outros testes), ou b) transportar os dados para o
programa Stats4U disponível no pacote de programas do curso ou por um download atualizado em
http://statpages.org/miller/openstat/. (Obs. Os gráficos para esta situação estão representados na seção
IV da apostila de gráficos.)

Embora o uso de um segundo programa seja um inconveniente, este programa é mais simples, didático
e completo para ANOVA que o Mystat12. Para quem vai trabalhar realmente com problemas com
ANOVA, o investimento compensa. A entrada de dados no Stats4U, seja direta ou por transferência de
dados, é um pouco chata. A entrada direta é muito ruim, é melhor entrar em Excel ou em Mystat e
salvar em Comma Separated (CSV) para importar neste formato (“import comma file”). Os fatores
(variáveis independentes ou variáveis de blocos) precisam estar na forma de números inteiros. Após
importar, entre em [variables/ Define] e coloque decimals=0 para os fatores, depois vá para [Edit/
Format Grid values], depois volte para [Variables/ Define] e mude Type=1 para os fatores, e depois

Guia para testes estatísticos/ Bioestatística Aplicada 7


© Thierry R. Gasnier/ Universidade Federal do Amazonas
para [Edit/ Format grid values]. Para fazer a ANOVA vá para [Analyses/ Analyses of variance/ one,
two or three way ANOVA].

Se preferir no Mystat12: [Analyze, Analisys of Variance, Estimate Model], informe as diferentes


medidas todas em dependent variable(s), entre na aba “repeated measures” e coloque “a” para “name”,
o número de níveis por bloco em “levels” e 1,2,3...(conforme o número de níveis) em “metric” (estas
opções são válidas nas situações mais simples, ver help para situações mais complexas).

O desenho em blocos é uma abordagem mais poderosa e segura de avaliar uma variável independente
que a ANOVA de uma via. Normalmente não há interesse na diferença entre os blocos, ele apenas
permite um controle melhor de variáveis de risco, por isto incluo esta análise nesta seção e não em
ANOVA de dois fatores como tradicionalmente é feito. Este teste é equivalente ao teste t pareado, mas
há mais que duas medidas para cada bloco. Como no teste t pareado, a entidade é o bloco e as
propriedades são as diferentes medidas em cada bloco. Se você achou isto complicado, pode fazer a
análise no Stats4U, que é bem mais simples e já dá as opções de contraste. Para fazer a ANOVA vá
para [Analyses/ Analyses of variance/ Treatment by subject], as opções de contraste são diretas. (Obs.
Os gráficos para esta situação estão representados na seção VII da apostila de gráficos.) Caso a
seqüência das medidas em cada bloco não seja aleatória e haja alguma variável potencial de risco
ligada a esta seqüência, então é necessária uma análise de circularidade. Consulte um texto sobre
“Anova de medidas repetidas” ou “split plot ANOVA” para verificar como isto é feito (e.g. Split-
plotANOVA_p420w13.pdf do pacote de textos).

p) Existem técnicas avançadas que permitem realizar testes nestas condições, como a regressão
Poison. Entretanto, elas requerem certas premissas, e geralmente é mais fácil dicotomizar uma ou
ambas variáveis e usar um teste apropriado (conforme outras opções desta mesma tabela). A escolha
depende do caso. Se a variável categórica Y pode ser reduzida a duas categorias, teríamos Mann
Whitney para X ordinal e Regressão Logística para X Quantitativo. Se não puder, então a variável X
poderia ser dicotomizada, o que resultaria em Tabela de contingência. Dar preferência à fusão que leve
à menor diferença de número de casos entre os níveis da variável independente (melhor balanço).
(Obs. Os gráficos para esta situação estão representados na seção VI da apostila de gráficos.)

q) Relações não paramétricas monotônicas e regressão não linear. Em caso de variáveis dependentes
e independentes ordinais ou se a análise de resíduos indicar uma relação não linear, então a forma de
agir dependerá do problema: a) se o objetivo for apenas saber se há uma relação com previsão de
aumento ou redução monotônicos (sem reversão de tendência), pode se utilizar o teste não paramétrico
correlação de Spearman ou de Kendall. No Mystat12: Analyze/ Tables/ Two Ways/ entre X e Y/ na
aba “measures” marque Spearman e Kendall. São muito semelhantes, uma opção é escolher o mais
conservador dos dois.; b) se o objetivo inclui uma descrição da relação comparado a um modelo a
priori, então ajustamos os dados a este modelo e verificamos se ele é significativamente superior a
uma regressão. É interessante se verificar a existência de modelos flexíveis associados ao tipo de
problema em estudo (e.g. curva de Brisbin, 1986 para crescimento). Pode-se basear na forma dos
dados com uma curva com “Smooth=LOWESS” no gráfico Scatterplot. A partir de um modelo
matemático (e.g. Y= a+b*X+c*X^2), pode se determinar os coeficientes pela função NONLIN do
Mystat12: Analyze/ Regression/ Nonlinear/Loss e entrar o modelo trocando Y e X pelos nomes das
variáveis (a menos que tenha muita segurança, é bom fazer isto junto com alguém experiente nas
primeiras vezes); c) se não temos modelos a priori, podemos ajustar regressões polinomiais
aumentando seus índices enquanto os resultados indicarem uma melhora significativa (Zar, 1984). Se
se espera uma relação polinomial complexa, então é importante uma coleta de dados que maximize o
número de níveis na variável independente. (Os procedimentos descritos aqui são relativamente
complexos. Foram apresentados para se ter uma idéia do que se faz nesta situação, mas não serão

Guia para testes estatísticos/ Bioestatística Aplicada 8


© Thierry R. Gasnier/ Universidade Federal do Amazonas
abordados neste curso introdutório.). (Obs. Os gráficos para esta situação estão representados na seção
VI da apostila de gráficos.)
r) A regressão logística no Mystat12 exige Y numérico. Se esta variável estiver na planilha como
categórica (“string”), como sexo$= "m" ou "f", então deve se criar uma variável binária numérica
correspondente, (e.g. if sexo$="m" then let M1F2= 1- e o mesmo para fêmeas). [Analyze, Regression,
Logit]. (Obs. Os gráficos para esta situação estão representados na seção VI da apostila de gráficos.)

s) Regressões/Correlações Lineares. A regressão linear [Analyze, Regression, Least Squares] e a


correlação de Pearson [Analyze, Correlation, Simple, Pearson, Option Probabilities] apresentam o
mesmo resultado (P calculado). O nome do teste para verificar uma relação linear entre duas variáveis
contínuas é uma questão que gera confusão. Muitos livros dividem Correlação e Regressão em dois
capítulos e os autores dizem que a primeira refere-se a um estudo de associação e a segunda ao estudo
de causalidade. Entretanto, a questão da causalidade está na “jurisdição” do desenho amostral, não da
análise de dados. Sokal & Rohlf (1988: pag. 564) explicam a questão mais profundamente. A medida
de Correlação de Pearson descreve o quanto é forte a associação entre duas variáveis (seja devido a
uma relação causal entre as duas ou devido a uma terceira). A relação linear (reta) é um calculo de
coeficientes para passar uma reta. Este cálculo da reta pode ser de dois tipos. 1) Se tivermos uma
variável independente com valores fixos e exatos, como normalmente ocorre em um experimento,
então verificamos se a Regressão Linear (reta) simples ou Modelo I calculada pelo método dos
mínimos quadrados é significativa e se os resíduos estão distribuídos de forma apropriada. Se estiver,
verificamos P e acabou (não represente uma reta em um gráfico se P>α). Se os resíduos não estiverem
OK, conforme a situação, transformamos os dados (para obter normalidade e homocedasticidade) ou
utilizamos uma regressão não linear (curva). Uma regressão curvilinear pode ser obtida da forma
descrita no item g. Aqui podemos comparar estatisticamente se a relação curvilinear é significativa
melhora significativamente o modelo em relação a uma regressão linear simples. Para isto, crie a
variável XQuad (XQuad=X^2) e entre ela em regressão linear de mínimos quadrados com a fórmula
do item g. 2). Se tivermos uma variável independente com valores aleatórios e/ou inexatos, então
precisamos de uma Regressão Modelo II para determinar coeficientes mais apropriados de uma
relação linear (reta). Há diferentes modelos, conforme o caso (aqui o assunto é ainda mais polêmico).
Um modelo flexível é o “Reduced Major Axis Regression” que dá os coeficientes em
[Analyse/Nonlinear/Loss] com a fórmula (Y-(a+b*X))^2/ABS(b) na caixa “Expression” (substitua X e
Y pelas variáveis independente e dependente). (Obs. Os gráficos para esta situação estão representados
na seção V da apostila de gráficos.)

Tabela 4. A inclusão de duas variáveis em um estudo experimental possibilita a avaliação de


interações entre variáveis independentes. Como vimos acima, a análise de uma única variável
independente já envolve diversas premissas. A situação se complica com a segunda variável
dependente. Continua valendo a normalidade e a homogeneidade de variâncias. Adicionalmente, é
necessário que haja independência entre as variáveis independentes. É fácil realizar estes testes, e ai
mora o perigo. No caso de ANOVA de duas vias com duas variáveis fixas não há problema, mesmo se
houver desbalanço. Entretanto, se uma ou ambas variáveis tiverem níveis “ao acaso” e houver
desbalanço, então é necessário um cuidado especial no cálculo de F. O programa OpenStat me parece
o melhor para fazer isto, mas encontrei diferenças nos valores calculados com o MYSTAT12, e não
descobri ainda a razão destas diferenças.
t) A tabela de contingência de três vias no Mystat12 está em “Analyze/ Tables/ Multiway”
u) A regressão múltipla está em “Analyze/ Regression/ Logit/ Model”
v) A ANOVA de duas vias está em “Analyze/ ANOVA/ com X1 e X2 em factor
w) A ANCOVA de duas vias está em “Analyze/ ANOVA/”com a X1 quantitativo em covariate e X2
categórico em factor.
x) A ANOVA de duas vias está em “Analyze/ ANOVA/ com X1 e X2 em covariate.

Guia para testes estatísticos/ Bioestatística Aplicada 9


© Thierry R. Gasnier/ Universidade Federal do Amazonas